论文阅读_中文生物医学语言理解评价CBLUE
介绍
英文题目:CBLUE: A Chinese Biomedical Language Understanding
Evaluation
中文题目:CBLUE:中文生物医学语言理解评价基准
论文地址:https://arxiv.org/pdf/2106.08087.pdf
领域:自然语言处理,知识图谱
发表时间:2021 年
作者:Ningyu
Zhang,医渡云、平安医疗科技、阿里夸克、鹏城实验室、北京大学、哈尔滨工业大学
(深圳)、同济大学、郑州大学等共同协办
出处:ACL(自然语言处理顶级会议)
被引量:3
数据:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414
(需要提交申请)
代码:https://github.com/CBLUEbenchmark/CBLUE
阅读时间:2022.05.09
读后感
训练和评测数据非常全面,还可以在天池打榜。
介绍
之前生物医学方面数据以英文为主,本文收集了真实世界的生物医学数据,提出了第一个中文生物医学语言理解评估标准
CBLUE。其内容覆盖命名实体识别,知识抽取,诊断标 ...
论文阅读_多类型实体的图对齐_CGMuAlign
读后感
文中的一个重要思想是:认为被对齐的图中的知识都是不完备的,所以在图间对齐时,主要对齐对些能齐上的,忽略那些对不上的;同时结构了自注意力模型,对不同关系分配不同权重。
多类型实体的图对齐
_CGMuAlign
英文题目:Collective Multi-type Entity Alignment Between Knowledge
Graphs
中文题目:基于知识图的集合多类型实体对齐
论文地址:https://assets.amazon.science/ff/7a/b96282984a0fbe5e31a8fcf68d17/scipub-1202.pdf
领域:知识图谱,实体对齐
发表时间:2020 年
作者:Qi Zhu,伊利诺伊大学,亚马逊
出处:the web conference
被引量:17
代码和数据:https://github.com/GentleZhu/CG-MuAlign
阅读时间:2022.04.25
介绍
实体对齐的目标是识别不同图中的同一实体。不同的图在建构的时候由于目标不同,各有偏重。比如图
-1 中的左右两张图:
Pasted image
202 ...
论文阅读_BERT-wwm
1 介绍
英文题目:Pre-Training with Whole Word Masking for Chinese BERT
中文题目:中文 BERT 的全词掩码预训练
论文地址:https://arxiv.org/pdf/1906.08101.pdf
领域:自然语言处理
发表时间:2019
作者:Yiming Cui,社会计算和信息检索研究中心,哈工大,讯飞
出处:第二届“讯飞杯”中文机器阅读理解评测,CMRC 2018
被引量:255
代码和数据:https://github.com/ymcui/Chinese-BERT-wwm
阅读时间:2022.05.10
2 读后感
中文和英文不同,一般通过词而非字来表意,而分词也有难度,BERT
以字单位建模,这样损失了词义。文中将之前用于英文的全词 MASK
方法应用于中文,文中没什么公式,原理也简单,但对中文确实是一个重要的方法,该模型也被广泛使用。
3 介绍
BERT(2019) 利用
Transformer,未标注的数据,综合上下文信息,使模型达到很好效果,之后,BERT
的作者又提出升级版 WWM,它利用全词 MASK 进一步提 ...
实战_用TFIDF算法对比相似度
实战 _ 用 TF/IDF
算法对比相似度
原理
TF/IDF 方法于 1983
年题出,它先计算每个单词出现的频率,然后适当归一化。利用 TF-IDF
方法将任意长度的文档缩减为固定长度的数字列表,然后对比文本相似度,gensim
工具包提供该方法。
简单复习一下具体算法:
词频 TF
\[
tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}}
\]
其中 n 是句中词,i 是词的索引号,j 是文章索引号,k
是文章中所有词,上式计算的是词 i
在本篇出现的比率。请注意:在短文本的情况下,绝大多数词只出现一次,tf
就只和文章长短有关了。
逆向文档频率 IDF
\[
idf_{i}=log \frac{|D|}{|j:t_i\in d_j|}
\]
其中分母是文章总数,分子是包含词 i 的文章数。
TF/IDF
\[
tfidf_{i,j}=tf_{i,j} \times idf_{i}
\]
tfidf
值反映的是每个词在文档中的重要程度。请注意:这是一种基于计数的方法,不直接使用词义。
该算法的优点在于算法简单,计算量小;而缺点在于无法处理对同一概念的不同 ...
论文阅读_中文医学预测训练模型_MC-BERT
论文阅读 _
中文医学预训练模型 _MC-BERT
介绍
英文题目:Conceptualized Representation Learning for Chinese
Biomedical Text Mining
中文题目:中文生物医学文本挖掘中的概念化表征学习
论文地址:https://arxiv.org/pdf/2008.10813.pdf
领域:自然语言处理,知识抽取
发表时间:2020
作者:Ningyu Zhang,阿里巴巴
被引量:14
代码和数据:https://github.com/alibaba-research/ChineseBLUE
模型下载:https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok
阅读时间:2022.05.07
我的收获
获得了现成可用的医学 BERT 模型,以及大量带标注的数据集。
针对问题
医疗数据集与普通数据集分布不同,医疗词汇的长尾分布也很难从普通语料中学习,中文的词和短语更复杂一些。需要训练一个类似
BERT 的针对医疗的中文预训练模型。
本文贡献
提出了 ...
论文阅读_大图的节点表征GraphSAGE
介绍
英文题目:Inductive Representation Learning on Large Graphs
中文题目:基于大图的归纳表示学习
论文地址:https://arxiv.org/abs/1706.02216
领域:知识图谱,知识表征
发表时间:2017
作者:William L. Hamilton,斯坦福大学
出处:NIPS
被引量:2398
代码和数据:https://github.com/williamleif/GraphSAGE,pyg 和 dgl
均有对该方法的支持
阅读时间:2022.05.03
读后感
学习大图、不断扩展的图,未见过节点的表征,是一个很常见的应用场景。GraphSAGE
通过训练聚合函数,实现优化未知节点的表示方法。之后提出的
GAN(图注意力网络)也针对此问题优化。
文中提出了:传导性问题和归纳性问题,传导性问题是已知全图情况,计算节点表征向量;归纳性问题是在不完全了解全图的情况下,训练节点的表征函数(不是直接计算向量表示)。
图工具的处理过程每轮迭代(一次
propagation)一般都包含:收集信息、聚合、更新,从本文也可以更好地理解 ...
论文阅读_图注意力网络GAN
介绍
12345678910英文题目:GRAPH ATTENTION NETWORKS中文题目:图注意力网络论文地址:https://export.arxiv.org/pdf/1710.10903.pdf领域:知识图谱,知识表示发表时间:2018 年作者:Petar Veliˇckovi ́c,剑桥大学出处:深度学习顶会 ICLR被引量:1000代码和数据:https://github.com/PetarV-/GAT阅读时间:2022.04.25
读后感
简介部分复习了当时主流做法的演进过程,是很好的导读,其中 GNN(基于
RNN),GCN(基于 CNN),GAN(基于 Attention)都比较重要,MoNet 和
GraphSAGE 也可以读一下(GraphSAGE 用于大规模数据)。
泛读
针对问题:基于图结构的节点分类
结果:在小数据集传导测试中 GAN 与 GCN
效果不相上下,略好一点;在大数据集归纳测试中,无法使用 GCN 等方法,GAN
更有优势。
核心方法:把注意力机制引入图神经网络。
难点:如果之前了解 Attention
和图的基本表示方法,本篇原理和代码都不 ...
论文阅读_GCN知识图对齐
介绍
英文题目:Cross-lingual Knowledge Graph Alignment viaGraph
Convolutional Networks
中文题目:基于 GCN 的跨语言知识图对齐
论文地址:https://aclanthology.org/D18-1032.pdf
领域:知识图谱,知识对齐
发表时间:2018
作者:Zhichun Wang 北京师范大学
出处:EMNLP
被引量:198
代码和数据:https://github.com/1049451037/GCN-Align
阅读时间:2022.04.15
其它介绍
文章亮点:
复习了之前的对齐方法
提出了邻接矩阵的计算以及属性的代入方法技巧
GCNAlign
和同类文件相比,引用量大,速度快,效果好,常作为默认工具
文章偏重真实场景中,多种关系,属性类别,属性值的应用。
泛读
针对问题:不同语言知识图中的实体对齐
结果:使用比较简单的方法,超过或得到与之前的方法近似的效果
核心方法:调整 GCN 层计算方法,可同时对结构和属性编码
难点:无
泛读后理解程度:直接精读
(看完题目、摘要、结论、图表及小 ...
论文阅读_KnowPrompt知识抽取
读后感
针对问题:few-shot
场景下从文本中抽取关系(知识检索、对话、问答)。
结果:在 5 个数据集,及少量标注情况下,测试效果优于之前模型
核心方法:希望在 pretrain 后不再 fine-tuning,于是引入了提示
prompt,通过构建提问(提问方法/答案范围)来实现类似 tuning
的效果。
难点:之前对知识抽取和提示学习都不太了解;后来读了代码才了解,文中指的知识不是来自外界引入,而是将词嵌入作为知识。
泛读后理解程度:60%
(看完题目、摘要、结论、图表及小标题)
围绕句子的逻辑,利用之前定义好的模板提问,回答
基于知识的提示学习
KnowPrompt
12345678910英文题目:KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimizationfor Relation Extraction中文题目:KnowPrompt: 基于协同优化的知识感知快速调优**关系提取**论文地址:https://arxiv.org/pdf/2104.07650.pdf领域:自然语言处理,关系提 ...
论文阅读_知识图对齐PRASE
介绍
英文题目:Unsupervised Knowledge Graph Alignment by Probabilistic
Reasoning and Semantic Embedding
中文题目:基于概率推理和语义嵌入的无监督知识图对齐
论文地址:https://arxiv.org/abs/2105.05596v1
领域:自然语言处理,知识图谱
发表时间:2021
作者:腾讯天衍实验室
出处:IJCAI(国际人工智能联合会议)
被引量:1
代码和数据:
https://github.com/qizhyuan/PRASE-Python
https://github.com/dig-team/PARIS
阅读时间:22.04.08
泛读
针对问题:实体对齐(不是本体对齐)
结果:效果优于之前模型
核心方法:提出
PRASE,基于概率推理和语义嵌入,使用不断更新种子的方法迭代训练上述两个子模型。
难点:先需要了解一下 PARIS 模型
泛读后理解程度:70%
(看完题目、摘要、结论、图表及小标题)
精读
摘要
目前常用的实体对齐方法包括:基于词嵌入的对齐、常识推理和字典匹配。前者 ...