avatar
Articles
834
Tags
257
Categories
173

Yan 的杂物志_个人主页分享
Search
论文阅读_多类型实体的图对齐_CGMuAlign
Created2022-05-15|2_Note0_Technic2_算法12_图神经网络
读后感 文中的一个重要思想是:认为被对齐的图中的知识都是不完备的,所以在图间对齐时,主要对齐对些能齐上的,忽略那些对不上的;同时结构了自注意力模型,对不同关系分配不同权重。 多类型实体的图对齐 _CGMuAlign 英文题目:Collective Multi-type Entity Alignment Between Knowledge Graphs 中文题目:基于知识图的集合多类型实体对齐 论文地址:https://assets.amazon.science/ff/7a/b96282984a0fbe5e31a8fcf68d17/scipub-1202.pdf 领域:知识图谱,实体对齐 发表时间:2020 年 作者:Qi Zhu,伊利诺伊大学,亚马逊 出处:the web conference 被引量:17 代码和数据:https://github.com/GentleZhu/CG-MuAlign 阅读时间:2022.04.25 介绍 实体对齐的目标是识别不同图中的同一实体。不同的图在建构的时候由于目标不同,各有偏重。比如图 -1 中的左右两张图: Pasted image 202 ...
论文阅读_BERT-wwm
Created2022-05-15|2_Note0_Technic2_算法6_自然语言BERT类
1 介绍 英文题目:Pre-Training with Whole Word Masking for Chinese BERT 中文题目:中文 BERT 的全词掩码预训练 论文地址:https://arxiv.org/pdf/1906.08101.pdf 领域:自然语言处理 发表时间:2019 作者:Yiming Cui,社会计算和信息检索研究中心,哈工大,讯飞 出处:第二届“讯飞杯”中文机器阅读理解评测,CMRC 2018 被引量:255 代码和数据:https://github.com/ymcui/Chinese-BERT-wwm 阅读时间:2022.05.10 2 读后感 中文和英文不同,一般通过词而非字来表意,而分词也有难度,BERT 以字单位建模,这样损失了词义。文中将之前用于英文的全词 MASK 方法应用于中文,文中没什么公式,原理也简单,但对中文确实是一个重要的方法,该模型也被广泛使用。 3 介绍 BERT(2019) 利用 Transformer,未标注的数据,综合上下文信息,使模型达到很好效果,之后,BERT 的作者又提出升级版 WWM,它利用全词 MASK 进一步提 ...
实战_用TFIDF算法对比相似度
Created2022-05-15|2_Note0_Technic2_算法6_自然语言机器学习
实战 _ 用 TF/IDF 算法对比相似度 原理 TF/IDF 方法于 1983 年题出,它先计算每个单词出现的频率,然后适当归一化。利用 TF-IDF 方法将任意长度的文档缩减为固定长度的数字列表,然后对比文本相似度,gensim 工具包提供该方法。 简单复习一下具体算法: 词频 TF \[ tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}} \] 其中 n 是句中词,i 是词的索引号,j 是文章索引号,k 是文章中所有词,上式计算的是词 i 在本篇出现的比率。请注意:在短文本的情况下,绝大多数词只出现一次,tf 就只和文章长短有关了。 逆向文档频率 IDF \[ idf_{i}=log \frac{|D|}{|j:t_i\in d_j|} \] 其中分母是文章总数,分子是包含词 i 的文章数。 TF/IDF \[ tfidf_{i,j}=tf_{i,j} \times idf_{i} \] tfidf 值反映的是每个词在文档中的重要程度。请注意:这是一种基于计数的方法,不直接使用词义。 该算法的优点在于算法简单,计算量小;而缺点在于无法处理对同一概念的不同 ...
论文阅读_中文医学预测训练模型_MC-BERT
Created2022-05-07|2_Note0_Technic1_医学医学_技术论文
论文阅读 _ 中文医学预训练模型 _MC-BERT 介绍 英文题目:Conceptualized Representation Learning for Chinese Biomedical Text Mining 中文题目:中文生物医学文本挖掘中的概念化表征学习 论文地址:https://arxiv.org/pdf/2008.10813.pdf 领域:自然语言处理,知识抽取 发表时间:2020 作者:Ningyu Zhang,阿里巴巴 被引量:14 代码和数据:https://github.com/alibaba-research/ChineseBLUE 模型下载:https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok 阅读时间:2022.05.07 我的收获 获得了现成可用的医学 BERT 模型,以及大量带标注的数据集。 针对问题 医疗数据集与普通数据集分布不同,医疗词汇的长尾分布也很难从普通语料中学习,中文的词和短语更复杂一些。需要训练一个类似 BERT 的针对医疗的中文预训练模型。 本文贡献 提出了 ...
论文阅读_大图的节点表征GraphSAGE
Created2022-05-03|2_Note0_Technic2_算法12_图神经网络
介绍 英文题目:Inductive Representation Learning on Large Graphs 中文题目:基于大图的归纳表示学习 论文地址:https://arxiv.org/abs/1706.02216 领域:知识图谱,知识表征 发表时间:2017 作者:William L. Hamilton,斯坦福大学 出处:NIPS 被引量:2398 代码和数据:https://github.com/williamleif/GraphSAGE,pyg 和 dgl 均有对该方法的支持 阅读时间:2022.05.03 读后感 学习大图、不断扩展的图,未见过节点的表征,是一个很常见的应用场景。GraphSAGE 通过训练聚合函数,实现优化未知节点的表示方法。之后提出的 GAN(图注意力网络)也针对此问题优化。 文中提出了:传导性问题和归纳性问题,传导性问题是已知全图情况,计算节点表征向量;归纳性问题是在不完全了解全图的情况下,训练节点的表征函数(不是直接计算向量表示)。 图工具的处理过程每轮迭代(一次 propagation)一般都包含:收集信息、聚合、更新,从本文也可以更好地理解 ...
论文阅读_图注意力网络GAN
Created2022-05-02|2_Note0_Technic2_算法12_图神经网络
介绍 12345678910英文题目:GRAPH ATTENTION NETWORKS中文题目:图注意力网络论文地址:https://export.arxiv.org/pdf/1710.10903.pdf领域:知识图谱,知识表示发表时间:2018 年作者:Petar Veliˇckovi ́c,剑桥大学出处:深度学习顶会 ICLR被引量:1000代码和数据:https://github.com/PetarV-/GAT阅读时间:2022.04.25 读后感 简介部分复习了当时主流做法的演进过程,是很好的导读,其中 GNN(基于 RNN),GCN(基于 CNN),GAN(基于 Attention)都比较重要,MoNet 和 GraphSAGE 也可以读一下(GraphSAGE 用于大规模数据)。 泛读 针对问题:基于图结构的节点分类 结果:在小数据集传导测试中 GAN 与 GCN 效果不相上下,略好一点;在大数据集归纳测试中,无法使用 GCN 等方法,GAN 更有优势。 核心方法:把注意力机制引入图神经网络。 难点:如果之前了解 Attention 和图的基本表示方法,本篇原理和代码都不 ...
论文阅读_GCN知识图对齐
Created2022-04-23|2_Note0_Technic2_算法12_图神经网络
介绍 英文题目:Cross-lingual Knowledge Graph Alignment viaGraph Convolutional Networks 中文题目:基于 GCN 的跨语言知识图对齐 论文地址:https://aclanthology.org/D18-1032.pdf 领域:知识图谱,知识对齐 发表时间:2018 作者:Zhichun Wang 北京师范大学 出处:EMNLP 被引量:198 代码和数据:https://github.com/1049451037/GCN-Align 阅读时间:2022.04.15 其它介绍 文章亮点: 复习了之前的对齐方法 提出了邻接矩阵的计算以及属性的代入方法技巧 GCNAlign 和同类文件相比,引用量大,速度快,效果好,常作为默认工具 文章偏重真实场景中,多种关系,属性类别,属性值的应用。 泛读 针对问题:不同语言知识图中的实体对齐 结果:使用比较简单的方法,超过或得到与之前的方法近似的效果 核心方法:调整 GCN 层计算方法,可同时对结构和属性编码 难点:无 泛读后理解程度:直接精读 (看完题目、摘要、结论、图表及小 ...
论文阅读_KnowPrompt知识抽取
Created2022-04-17|2_Note0_Technic2_算法6_自然语言特定功能模型
读后感 针对问题:few-shot 场景下从文本中抽取关系(知识检索、对话、问答)。 结果:在 5 个数据集,及少量标注情况下,测试效果优于之前模型 核心方法:希望在 pretrain 后不再 fine-tuning,于是引入了提示 prompt,通过构建提问(提问方法/答案范围)来实现类似 tuning 的效果。 难点:之前对知识抽取和提示学习都不太了解;后来读了代码才了解,文中指的知识不是来自外界引入,而是将词嵌入作为知识。 泛读后理解程度:60% (看完题目、摘要、结论、图表及小标题) 围绕句子的逻辑,利用之前定义好的模板提问,回答 基于知识的提示学习 KnowPrompt 12345678910英文题目:KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimizationfor Relation Extraction中文题目:KnowPrompt: 基于协同优化的知识感知快速调优**关系提取**论文地址:https://arxiv.org/pdf/2104.07650.pdf领域:自然语言处理,关系提 ...
论文阅读_知识图对齐PRASE
Created2022-04-09|2_Note0_Technic2_算法12_图神经网络
介绍 英文题目:Unsupervised Knowledge Graph Alignment by Probabilistic Reasoning and Semantic Embedding 中文题目:基于概率推理和语义嵌入的无监督知识图对齐 论文地址:https://arxiv.org/abs/2105.05596v1 领域:自然语言处理,知识图谱 发表时间:2021 作者:腾讯天衍实验室 出处:IJCAI(国际人工智能联合会议) 被引量:1 代码和数据: https://github.com/qizhyuan/PRASE-Python https://github.com/dig-team/PARIS 阅读时间:22.04.08 泛读 针对问题:实体对齐(不是本体对齐) 结果:效果优于之前模型 核心方法:提出 PRASE,基于概率推理和语义嵌入,使用不断更新种子的方法迭代训练上述两个子模型。 难点:先需要了解一下 PARIS 模型 泛读后理解程度:70% (看完题目、摘要、结论、图表及小标题) 精读 摘要 目前常用的实体对齐方法包括:基于词嵌入的对齐、常识推理和字典匹配。前者 ...
markdown_LaTeX
Created2022-04-05|2_Note0_Technic0_工具笔记工具markdown
#笔记/markdown 1 希腊字母 字母 LaTex 字母 LaTex \(\alpha\) \(\xi\) \(\beta\) \(\pi\) \(\gamma\) \(\rho\) \(\delta\) \(\sigma\) \(\epsilon\) \(\tau\) \(\zeta\) \(\upsilon\) \(\eta\) \(\phi\) \(\theta\) \(\chi\) \(\iota\) \(\psi\) \(\kappa\) \(\omega\) \(\lambda\) \(\nu\) \(\mu\) \(\Gamma\) \(\Sigma\) \(\Delta\) \(\Upsilon\) \(\Theta\) \(\Phi\) \(\Lambda\) \(\Psi\) \(\Xi\) \(\Omega\) \(\Pi\) 2 常用符号 2.1 关系表达式 符号 LaTex ...
1…424344…84
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
834
Tags
257
Categories
173
Follow Me
Announcement
This is my Blog
Recent Post
优化阅读过程2025-07-14
对谈_250706_关系中的尊严2025-07-14
稳定币2025-07-14
MCP_实用场景讨论2025-07-14
国内外云主机价格对比2025-07-12
Categories
  • 0_IMO78
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听76
      • 01_自我建构29
        • 实修3
        • 思考与觉悟14
Tags
社会评价 认知建构 知识图/图神经网络 叙事心理学 效率 开源许可 机器学习/算法 自然语言处理/BERT android 阅读心理学 加密货币 跨境支付 舞台感 自我构建 社会文化 嵌入技术 心理调节 笔记工具 #后端 大型语言模型 Docker 机器学习/XGBoost 笔记 编程 多代理系统 语言模型 自我表达 公众号 机器学习/自动建模 稳定币 编程语言/前端 佛教 自我反思 远程桌面 网络服务 情绪表达 多模态 量化回测 编程语言/JNI 生物医学/重症
Archives
  • July 202528
  • June 202539
  • May 202530
  • April 202516
  • March 20259
  • February 20252
  • January 20256
  • December 20242
Info
Article :
834
Total Count :
1154.1k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database