avatar
Articles
878
Tags
282
Categories
185

Yan 的杂物志_个人主页分享
Search
论文阅读_清华ERNIE
Created2022-06-25|2_Note0_Technic2_算法6_自然语言BERT类
英文题目:ERNIE: Enhanced Language Representation with Informative Entities 中文题目:ERNIE: 使用信息实体增强语言表示 论文地址:https://arxiv.org/pdf/1905.07129v3/n 领域:自然语言处理 发表时间:2019 作者:Zhengyan Zhang,清华大学 出处:ACL 被引量:37 代码和数据:https://github.com/thunlp/ERNIE 阅读时间:2002.06.25 读后感 2019 年前后清华和百度都提出了名为 ERNIE 的模型,名字相同,方法不同。清华的 ERNIE 把知识图融入了文本的向量表示,也叫 KEPLM,想法比较有意思,模型改进效果:使用少量数据训练模型时,ERNIE 比其它模型效果更好。从技术角度,它示范了整合异构数据的方法。 介绍 本文提出 ERNIE,它是结合知识图和大规模数据的预训练语言模型。引入知识图面临两个重要挑战: 如何在文本表示中提取和表示知识图中的结构 整合异构数据:将预训练模型表示和知识图表示映射到同一向量空间 ERNI ...
TFIDF与BM25
Created2022-06-25|2_Note0_Technic2_算法6_自然语言机器学习
TFIDF 先复习一下 tfidf,tf 是词频,即某个词 i 在 文章 j 中出现的频率。分母是文章中所有词的个数,分母是词 i 出现的次数。tf 越高说明该词越重要,对于短文本匹配,每个词一般只出现一次,tf 的大小就取决于分母,即文章的长度。 \[ tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}} \] idf 是逆文档频率,计算该词出现在所有文章中的频率,此时,分母是包含该关键字 i 的文章数,分子是所有文章数 N。用 log 相当于趋势不变,数值变小了。该词出现越多,分子越大,idf 值越小,比如:" 的 " 经常出现,因此不是关键词。当词 i 在 文章 j 中完全不出现,分母为 0,因此给分母加 1。 \[ idf_i=log\frac{N}{df_i+1} \] tf 和 idf 的乘积就是词 i 在文章 j 中的重要性。 \[ tfidf_{i,j}=tf_{i,j} \times idf_i \] 在搜索中,计算搜索串中的多个关键词 与 文章 j 的相似度:将各词的 tfidf 相加: $$ similarity = {i} tfidf{i ...
论文阅读_ICD编码_BERT
Created2022-06-20|2_Note0_Technic1_医学医学_技术论文
英文题目:BERT-based Ranking for Biomedical Entity Normalization 中文题目:基于 bert 的生物医学实体标准化排序 论文地址:https://arxiv.org/pdf/1908.03548 领域:自然语言处理,生物医学,实体标准化 发表时间:2019 作者:Zongcheng Ji, 德克萨斯大学 被引量:6 阅读时间:22.06.20 读后感 中规中矩的方法,评测了各个预训练模型的差异。 介绍 BERT 是常用的自然语言处理深度学习模型, BoiBERT 和 ClinicalBERT 是针对医疗领域预训练的模型,文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题. 实体规范化 Entity linking,主要面临以下挑战: 歧义问题:同一实体可能与多个概念相连 变体问题:同一概念可能与不同的实体相连 缺失问题:实体不与知识库中的任务概念相连 (这里指的概念是规范化后的文本) 在医疗领域主要任务是对实体的规范化和编码,变体问题是医疗领域的主要问题。 方法 已知文档的句子中的有实体 m,以及包含很多概念的知识知识库 ...
论文阅读_医疗NLP模型_EMBERT
Created2022-06-20|2_Note0_Technic1_医学医学_技术论文
123456789英文题目:EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining中文题目:中文医学文本挖掘的预训练语言模型论文地址:https://chywang.github.io/papers/apweb2021.pdf领域:自然语言处理,知识图谱,生物医疗发表时间:2021作者:Zerui Cai 等,华东师范大学出处:APWEB/WAIM 被引量:1阅读时间:22.06.22 读后感 针对医疗领域,利用知识图中的同义词(只使用了词典,未使用图计算方法),训练类似 BERT 的自然语言表示模型。优势在于代入了知识,具体设计了三种自监督学习方法来捕捉细粒度实体间的关系。实验效果略好于现有模型。没找到对应代码,具体的操作方法写的也不是特别细,主要领会精神。 比较值得借鉴的是,其中用到的中文医疗知识图,其中同义词的使用方法,AutoPhrase自动识别短语,高频词边界的切分方法等。 介绍 文中方法致力于:更好地利用大量未标注数据和预训练模型;使用实体级的知识增强;捕捉细粒度的语义关系。与 MC-BERT ...
论文阅读_中文语言技术平台LTP
Created2022-06-20|2_Note0_Technic2_算法6_自然语言工具
12345678英文题目:N-LTP: An Open-source Neural Language Technology Platform for Chinese中文题目:开源中文神经网络语言技术平台 N-LTP论文地址:https://arxiv.org/pdf/2009.11616v4.pdf代码:https://github.com/HIT-SCIR/ltp发表时间:2021作者:Wanxiang Che 等,哈工大出处:EMNLP被引量:18+ 1 读后感 它是一个基于Pytorch的针对中文的离线工具,带训练好的模型,最小模型仅 164M。直接支持分词,命名实体识别等六种任务,六种任务基本都围绕分词、确定词的成份、关系。 实测:比想象中好用,如果用于识别人名,效果还可以,直接用于垂直领域,效果一般,可能还需要进一步精调。 Pasted image 20220620152139.png 2 介绍 2.1 文章贡献 支持六项中文自然语言任务。 基于多任务框架,共享知识,减少内存用量,加快速度。 高扩展性:支持用户引入的 BERT 类模型。 容易使用:支持多语言接口 C+ ...
论文阅读_关系抽取_CASREL
Created2022-06-19|2_Note0_Technic2_算法6_自然语言特定功能模型
介绍 英文题目:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction 中文题目:抽取关系三元组的级联二元标注框架 论文地址:https://aclanthology.org/2020.acl-main.136.pdf 领域:自然语言处理,知识抽取 发表时间:2019 作者:Zhepei Wei, 吉林大学 出处:ACL 被引量:3 代码和数据: https://github.com/xiangking/ark-nlp https://github.com/weizhepei/CasRel 阅读时间:2022.06.17 读后感 主要解决了三元组重叠问题,相较之前模型,在架构上进行了大调整。 介绍 知识抽取 Information extraction (IE)是从文本构建知识图谱的重要环节。具体操作是从文中抽取关系三元组,它包含:主语 s,关系 r,宾语 o。早期一般使用管道 pipeline 方法:先识别句中的实体,然后对每个实体对建立关系,这可能引起错误的传播;后来出现了基于人工构建特征的 ...
论文阅读_ICD编码_TLSTM
Created2022-06-18|2_Note0_Technic1_医学医学_技术论文
介绍 英文题目:A Neural Architecture for Automated ICD Coding 中文题目:ICD 自动编码的神经体系结构 论文地址:http://www.cs.cmu.edu/~epxing/papers/2018/Xie_etal_acl18.pdf 领域:自然语言处理,生物医疗 发表时间:2018 作者:Pengtao Xie 等,卡内基梅隆大学,北京大学 出处:ACL 2018 被引量:55 阅读时间:2022.06.18 读后感 论文主要挖掘了ICD 编码之间的层级和相关性,同时还考虑到人工描述和 ICD 标准文本不同的语言风格,一对多的情况下,多个对应项的重要性排序,以及编码的协同和互斥。 泛读 针对问题:ICD 自动编码 核心方法: 使用树和序列 LSTM 计算基于语义的 ICD 编码表示 使用对抗学习协调人工输入和 ICD 描述的语言风格 利用等张约束做重要性排序 利用注意力机制实现一对多、多对一映射 泛读后理解程度: 一个半小时精读,两个小时整理。 方法 概览 Pasted image 20220618143519.png ...
论文阅读_ICD编码_MSATT-KG
Created2022-06-16|2_Note0_Technic1_医学医学_技术论文
介绍 英文题目:EHR Coding with Multi-scale Feature Attention and Structured Knowledge Graph Propagation 中文题目:基于多尺度特征关注和结构化知识图传播的 EHR 编码 论文地址:https://sci-hubtw.hkvisa.net/10.1145/3357384.3357897 领域:自然语言处理,生物医疗,ICD 编码 发表时间:2019 作者:Xiancheng Xie 等,复旦大学 出处:ACM CIKM 被引量:25 阅读时间:2022.06.16 读后感 很好地结合了现有的资源和方法:利用编码的内在关系,结合了注意力机制,知识图谱,密连接网络等方法。 泛读 针对问题:ICD 自动编码 核心方法: 通过对每个词上下文邻居的 n-gram,选择多尺度特征 利用 ICD 标签的语义:编码越相近,含义越相近,利用图卷积网络捕捉 ICD 编码的层次关系和语义 基于 ICD 标签的注意力;结合多尺度特征,用注意力选择信息量最大的 n-gram 特征 理解程度: 一个半小时精读,又花了约两 ...
论文阅读_ICD编码_MSMN
Created2022-06-14|2_Note0_Technic1_医学医学_技术论文
介绍 英文题目:Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding 中文题目:自动 ICD 编码的同义词匹配网络 论文地址:https://export.arxiv.org/pdf/2203.01515.pdf 领域:自然语言处理、生物医疗 发表时间:2022 作者:Zheng Yuan 等,清华大学,阿里巴巴 出处:ACL 代码和数据:https://github.com/GanjinZero/ICD-MSMN 阅读时间:2022.06.14 读后感 通过代入外部资源 UMLS,论文收集了每个编码的同义词,从而弥补了电子病历与 ICD 编码描述中同义不同词的问题。 其算法并没有像之前一些模型那么精巧,但引入外部资源后,效果的确提升不少。 泛读 针对问题:ICD 编码中一义多词问题 核心方法: 提出了多同义词匹配网络 (MSMN) 使用LSTM+ 多头注意力 将编码的同义词作为 query 以关注描述中的不同短语,从而生成与 ICD 编码相关的表示。 使用双仿射的 ...
论文阅读_中文NLP精减模型ELECTRA
Created2022-06-14|2_Note0_Technic2_算法11_优化模型蒸馏
介绍:ELECTRA 由 Manning 联合谷歌发布,后来哈工大讯飞联合实验室训练了相应的中文模型。精减后的模型效果和 BERT 差不太多,而模型大小只有 BERT 的 1/10,ELECTRA-small 只有 46M。 代码&模型下载&详细说明:https://github.com/ymcui/Chinese-ELECTRA 使用:LTP 使用它为基础模型。 原理:使用生成对抗网络训练自然语言模型,时间短,参数少。模型分为两部分:生成器和判别器,生成实现 MLM,判别器用于识别每一个单词是否为模型生成。 效果:以中文阅读理解为例,其效果对比如下,其它实验详见 github Pasted image 20220620181324.png
1…454647…88
avatar
Yan.xie
顺流而下还是逆流而上?
Articles
878
Tags
282
Categories
185
Follow Me
Announcement
This is my Blog
Recent Post
什么情况下使用强化学习2025-10-11
围棋经典算法与股票市场预测2025-10-11
强化学习工具及优化方法2025-10-11
强化学习的核心概念与实践应用2025-10-11
金融相关的强化学习工具2025-10-11
Categories
  • 0_IMO90
    • 工作1
    • 方法1
      • 工作1
    • 说给一个人听88
      • 01_自我建构36
        • 实修3
        • 思考与觉悟17
Tags
推荐系统 自然语言处理/统计方法 机器学习 饮食 项目管理 Linux 开发 概率 模型增强 数据存储/PGSQL 主题笔记 民族 心理学 阅读/心理学 语音识别 Android/theme 数据存储 旅游 Python/图形图像 大型语言模型 讽刺 模型解释 图形图像 健康 笔记 SSH GitHub Actions 数据存储/Hadoop #编程语言/前端 思考 阅读/哲学 论文阅读 模型工具 Python 思维整理 情绪表达 多代理系统 生活 股票预测 文化反思
Archives
  • October 202515
  • September 20256
  • August 202518
  • July 202538
  • June 202537
  • May 202529
  • April 202516
  • March 20258
Info
Article :
878
Total Count :
1228.7k
UV :
PV :
Last Push :
©2020 - 2025 By Yan.xie
Framework Hexo|Theme Butterfly
京公网安备11010802043346号
京ICP备2023029600号-1
Search
Loading the Database