论文阅读_多任务学习_MMoE
介绍
12345678910英文题目:Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts中文题目:多门专家混合多任务学习中的任务关系建模论文地址:https://dl.acm.org/doi/pdf/10.1145/3219819.3220007领域:深度学习,多任务学习发表时间:2018作者:Jiaqi Ma,密歇根大学,谷歌出处:KDD被引量:137代码和数据:https://github.com/drawbridge/keras-mmoe阅读时间:22.07.24
读后感
多任务学习一般用于相同输入特征,用一个模型同时学习多个任务.一次预测多个标签,这样可以节约训练和预测时间,也能节约存储模型的空间.
之前的方法主要是底层共用网络,上层针对每个任务分别训练自己的网络.这样做的问题是,如果多个任务相关性不强,可能向不同方向拉扯共享参数,虽然理论上多个任务可以互为辅助,提供更多信息,但实现效果往往不如单独训练模型效果好.
介绍
多任务学习效果一般取决于不同任务之间的 ...
论文阅读_中文医疗模型 eHealth
英文题目:Building Chinese Biomedical Language Models via Multi-Level
Text Discrimination
中文题目:基于多层次文本辨析构建中文生物医学语言模型
论文地址:https://arxiv.org/pdf/2110.07244.pdf
发表时间:2021
作者:Quan Wang 等,百度
模型下载:https://huggingface.co/nghuyong/ernie-health-zh
模型介绍:https://github.com/PaddlePaddle/Research/tree/master/KG/eHealth
模型代码:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-health
阅读时间:22.06.25
读后感
目前效果最好的生物医学预训练模型,在 CBLUE
比赛数据上亲测真的有明显提升。
介绍
之前生物医疗领域的预训练模型只是使用专门的数据训练,且大多是英文模型,垂直领域的模型常在通用模型的基础 ...
论文阅读_清华ERNIE
英文题目:ERNIE: Enhanced Language Representation with Informative
Entities
中文题目:ERNIE: 使用信息实体增强语言表示
论文地址:https://arxiv.org/pdf/1905.07129v3/n
领域:自然语言处理
发表时间:2019
作者:Zhengyan Zhang,清华大学
出处:ACL
被引量:37
代码和数据:https://github.com/thunlp/ERNIE
阅读时间:2002.06.25
读后感
2019 年前后清华和百度都提出了名为 ERNIE
的模型,名字相同,方法不同。清华的 ERNIE
把知识图融入了文本的向量表示,也叫
KEPLM,想法比较有意思,模型改进效果:使用少量数据训练模型时,ERNIE
比其它模型效果更好。从技术角度,它示范了整合异构数据的方法。
介绍
本文提出
ERNIE,它是结合知识图和大规模数据的预训练语言模型。引入知识图面临两个重要挑战:
如何在文本表示中提取和表示知识图中的结构
整合异构数据:将预训练模型表示和知识图表示映射到同一向量空间
ERNI ...
TFIDF与BM25
TFIDF
先复习一下 tfidf,tf 是词频,即某个词 i 在 文章 j
中出现的频率。分母是文章中所有词的个数,分母是词 i 出现的次数。tf
越高说明该词越重要,对于短文本匹配,每个词一般只出现一次,tf
的大小就取决于分母,即文章的长度。
\[
tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}}
\]
idf
是逆文档频率,计算该词出现在所有文章中的频率,此时,分母是包含该关键字 i
的文章数,分子是所有文章数 N。用 log
相当于趋势不变,数值变小了。该词出现越多,分子越大,idf 值越小,比如:"
的 " 经常出现,因此不是关键词。当词 i 在 文章 j 中完全不出现,分母为
0,因此给分母加 1。
\[
idf_i=log\frac{N}{df_i+1}
\]
tf 和 idf 的乘积就是词 i 在文章 j 中的重要性。
\[
tfidf_{i,j}=tf_{i,j} \times idf_i
\]
在搜索中,计算搜索串中的多个关键词 与 文章 j 的相似度:将各词的 tfidf
相加:
$$
similarity = {i} tfidf{i ...
论文阅读_ICD编码_BERT
英文题目:BERT-based Ranking for Biomedical Entity Normalization
中文题目:基于 bert 的生物医学实体标准化排序
论文地址:https://arxiv.org/pdf/1908.03548
领域:自然语言处理,生物医学,实体标准化
发表时间:2019
作者:Zongcheng Ji, 德克萨斯大学
被引量:6
阅读时间:22.06.20
读后感
中规中矩的方法,评测了各个预训练模型的差异。
介绍
BERT 是常用的自然语言处理深度学习模型, BoiBERT 和 ClinicalBERT
是针对医疗领域预训练的模型,文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题.
实体规范化 Entity linking,主要面临以下挑战:
歧义问题:同一实体可能与多个概念相连
变体问题:同一概念可能与不同的实体相连
缺失问题:实体不与知识库中的任务概念相连
(这里指的概念是规范化后的文本)
在医疗领域主要任务是对实体的规范化和编码,变体问题是医疗领域的主要问题。
方法
已知文档的句子中的有实体 m,以及包含很多概念的知识知识库
...
论文阅读_医疗NLP模型_EMBERT
123456789英文题目:EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining中文题目:中文医学文本挖掘的预训练语言模型论文地址:https://chywang.github.io/papers/apweb2021.pdf领域:自然语言处理,知识图谱,生物医疗发表时间:2021作者:Zerui Cai 等,华东师范大学出处:APWEB/WAIM 被引量:1阅读时间:22.06.22
读后感
针对医疗领域,利用知识图中的同义词(只使用了词典,未使用图计算方法),训练类似
BERT
的自然语言表示模型。优势在于代入了知识,具体设计了三种自监督学习方法来捕捉细粒度实体间的关系。实验效果略好于现有模型。没找到对应代码,具体的操作方法写的也不是特别细,主要领会精神。
比较值得借鉴的是,其中用到的中文医疗知识图,其中同义词的使用方法,AutoPhrase自动识别短语,高频词边界的切分方法等。
介绍
文中方法致力于:更好地利用大量未标注数据和预训练模型;使用实体级的知识增强;捕捉细粒度的语义关系。与
MC-BERT ...
论文阅读_中文语言技术平台LTP
12345678英文题目:N-LTP: An Open-source Neural Language Technology Platform for Chinese中文题目:开源中文神经网络语言技术平台 N-LTP论文地址:https://arxiv.org/pdf/2009.11616v4.pdf代码:https://github.com/HIT-SCIR/ltp发表时间:2021作者:Wanxiang Che 等,哈工大出处:EMNLP被引量:18+
1 读后感
它是一个基于Pytorch的针对中文的离线工具,带训练好的模型,最小模型仅
164M。直接支持分词,命名实体识别等六种任务,六种任务基本都围绕分词、确定词的成份、关系。
实测:比想象中好用,如果用于识别人名,效果还可以,直接用于垂直领域,效果一般,可能还需要进一步精调。
Pasted image
20220620152139.png
2 介绍
2.1 文章贡献
支持六项中文自然语言任务。
基于多任务框架,共享知识,减少内存用量,加快速度。
高扩展性:支持用户引入的 BERT 类模型。
容易使用:支持多语言接口 C+ ...
论文阅读_关系抽取_CASREL
介绍
英文题目:A Novel Cascade Binary Tagging Framework for Relational
Triple Extraction
中文题目:抽取关系三元组的级联二元标注框架
论文地址:https://aclanthology.org/2020.acl-main.136.pdf
领域:自然语言处理,知识抽取
发表时间:2019
作者:Zhepei Wei, 吉林大学
出处:ACL
被引量:3
代码和数据:
https://github.com/xiangking/ark-nlp
https://github.com/weizhepei/CasRel
阅读时间:2022.06.17
读后感
主要解决了三元组重叠问题,相较之前模型,在架构上进行了大调整。
介绍
知识抽取 Information extraction
(IE)是从文本构建知识图谱的重要环节。具体操作是从文中抽取关系三元组,它包含:主语
s,关系 r,宾语 o。早期一般使用管道 pipeline
方法:先识别句中的实体,然后对每个实体对建立关系,这可能引起错误的传播;后来出现了基于人工构建特征的 ...
论文阅读_ICD编码_TLSTM
介绍
英文题目:A Neural Architecture for Automated ICD Coding
中文题目:ICD 自动编码的神经体系结构
论文地址:http://www.cs.cmu.edu/~epxing/papers/2018/Xie_etal_acl18.pdf
领域:自然语言处理,生物医疗
发表时间:2018
作者:Pengtao Xie 等,卡内基梅隆大学,北京大学
出处:ACL 2018
被引量:55
阅读时间:2022.06.18
读后感
论文主要挖掘了ICD
编码之间的层级和相关性,同时还考虑到人工描述和 ICD
标准文本不同的语言风格,一对多的情况下,多个对应项的重要性排序,以及编码的协同和互斥。
泛读
针对问题:ICD 自动编码
核心方法:
使用树和序列 LSTM 计算基于语义的 ICD 编码表示
使用对抗学习协调人工输入和 ICD 描述的语言风格
利用等张约束做重要性排序
利用注意力机制实现一对多、多对一映射
泛读后理解程度:
一个半小时精读,两个小时整理。
方法
概览
Pasted image
20220618143519.png
...
论文阅读_ICD编码_MSATT-KG
介绍
英文题目:EHR Coding with Multi-scale Feature Attention and
Structured Knowledge Graph Propagation
中文题目:基于多尺度特征关注和结构化知识图传播的 EHR 编码
论文地址:https://sci-hubtw.hkvisa.net/10.1145/3357384.3357897
领域:自然语言处理,生物医疗,ICD 编码
发表时间:2019
作者:Xiancheng Xie 等,复旦大学
出处:ACM CIKM
被引量:25
阅读时间:2022.06.16
读后感
很好地结合了现有的资源和方法:利用编码的内在关系,结合了注意力机制,知识图谱,密连接网络等方法。
泛读
针对问题:ICD 自动编码
核心方法:
通过对每个词上下文邻居的
n-gram,选择多尺度特征
利用 ICD
标签的语义:编码越相近,含义越相近,利用图卷积网络捕捉 ICD
编码的层次关系和语义
基于 ICD
标签的注意力;结合多尺度特征,用注意力选择信息量最大的 n-gram
特征
理解程度:
一个半小时精读,又花了约两 ...