Yan 的杂物志_个人主页分享

Created2022-06-20|2_Note0_Technic1_医学医学_技术论文

123456789英文题目：EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining中文题目：中文医学文本挖掘的预训练语言模型论文地址：https://chywang.github.io/papers/apweb2021.pdf领域：自然语言处理，知识图谱，生物医疗发表时间：2021作者：Zerui Cai 等，华东师范大学出处：APWEB/WAIM 被引量：1阅读时间：22.06.22 读后感针对医疗领域，利用知识图中的同义词（只使用了词典，未使用图计算方法），训练类似 BERT 的自然语言表示模型。优势在于代入了知识，具体设计了三种自监督学习方法来捕捉细粒度实体间的关系。实验效果略好于现有模型。没找到对应代码，具体的操作方法写的也不是特别细，主要领会精神。比较值得借鉴的是，其中用到的中文医疗知识图，其中同义词的使用方法，AutoPhrase自动识别短语，高频词边界的切分方法等。介绍文中方法致力于：更好地利用大量未标注数据和预训练模型；使用实体级的知识增强；捕捉细粒度的语义关系。与 MC-BERT ...

论文阅读_中文语言技术平台LTP

Created2022-06-20|2_Note0_Technic2_算法6_自然语言工具

12345678英文题目：N-LTP: An Open-source Neural Language Technology Platform for Chinese中文题目：开源中文神经网络语言技术平台 N-LTP论文地址：https://arxiv.org/pdf/2009.11616v4.pdf代码：https://github.com/HIT-SCIR/ltp发表时间：2021作者：Wanxiang Che 等，哈工大出处：EMNLP被引量：18+ 1 读后感它是一个基于Pytorch的针对中文的离线工具，带训练好的模型，最小模型仅 164M。直接支持分词，命名实体识别等六种任务，六种任务基本都围绕分词、确定词的成份、关系。实测：比想象中好用，如果用于识别人名，效果还可以，直接用于垂直领域，效果一般，可能还需要进一步精调。 Pasted image 20220620152139.png 2 介绍 2.1 文章贡献支持六项中文自然语言任务。基于多任务框架，共享知识，减少内存用量，加快速度。高扩展性：支持用户引入的 BERT 类模型。容易使用：支持多语言接口 C+ ...

论文阅读_关系抽取_CASREL

Created2022-06-19|2_Note0_Technic2_算法6_自然语言特定功能模型

介绍英文题目：A Novel Cascade Binary Tagging Framework for Relational Triple Extraction 中文题目：抽取关系三元组的级联二元标注框架论文地址：https://aclanthology.org/2020.acl-main.136.pdf 领域：自然语言处理，知识抽取发表时间：2019 作者：Zhepei Wei, 吉林大学出处：ACL 被引量：3 代码和数据： https://github.com/xiangking/ark-nlp https://github.com/weizhepei/CasRel 阅读时间：2022.06.17 读后感主要解决了三元组重叠问题，相较之前模型，在架构上进行了大调整。介绍知识抽取 Information extraction (IE）是从文本构建知识图谱的重要环节。具体操作是从文中抽取关系三元组，它包含：主语 s，关系 r，宾语 o。早期一般使用管道 pipeline 方法：先识别句中的实体，然后对每个实体对建立关系，这可能引起错误的传播；后来出现了基于人工构建特征的 ...

论文阅读_ICD编码_TLSTM

Created2022-06-18|2_Note0_Technic1_医学医学_技术论文

介绍英文题目：A Neural Architecture for Automated ICD Coding 中文题目：ICD 自动编码的神经体系结构论文地址：http://www.cs.cmu.edu/~epxing/papers/2018/Xie_etal_acl18.pdf 领域：自然语言处理，生物医疗发表时间：2018 作者：Pengtao Xie 等，卡内基梅隆大学，北京大学出处：ACL 2018 被引量：55 阅读时间：2022.06.18 读后感论文主要挖掘了ICD 编码之间的层级和相关性，同时还考虑到人工描述和 ICD 标准文本不同的语言风格，一对多的情况下，多个对应项的重要性排序，以及编码的协同和互斥。泛读针对问题：ICD 自动编码核心方法：使用树和序列 LSTM 计算基于语义的 ICD 编码表示使用对抗学习协调人工输入和 ICD 描述的语言风格利用等张约束做重要性排序利用注意力机制实现一对多、多对一映射泛读后理解程度：一个半小时精读，两个小时整理。方法概览 Pasted image 20220618143519.png ...

论文阅读_ICD编码_MSATT-KG

Created2022-06-16|2_Note0_Technic1_医学医学_技术论文

介绍英文题目：EHR Coding with Multi-scale Feature Attention and Structured Knowledge Graph Propagation 中文题目：基于多尺度特征关注和结构化知识图传播的 EHR 编码论文地址：https://sci-hubtw.hkvisa.net/10.1145/3357384.3357897 领域：自然语言处理，生物医疗，ICD 编码发表时间：2019 作者：Xiancheng Xie 等，复旦大学出处：ACM CIKM 被引量：25 阅读时间：2022.06.16 读后感很好地结合了现有的资源和方法：利用编码的内在关系，结合了注意力机制，知识图谱，密连接网络等方法。泛读针对问题：ICD 自动编码核心方法：通过对每个词上下文邻居的 n-gram，选择多尺度特征利用 ICD 标签的语义：编码越相近，含义越相近，利用图卷积网络捕捉 ICD 编码的层次关系和语义基于 ICD 标签的注意力；结合多尺度特征，用注意力选择信息量最大的 n-gram 特征理解程度：一个半小时精读，又花了约两 ...

论文阅读_ICD编码_MSMN

Created2022-06-14|2_Note0_Technic1_医学医学_技术论文

介绍英文题目：Code Synonyms Do Matter: Multiple Synonyms Matching Network for Automatic ICD Coding 中文题目：自动 ICD 编码的同义词匹配网络论文地址：https://export.arxiv.org/pdf/2203.01515.pdf 领域：自然语言处理、生物医疗发表时间：2022 作者：Zheng Yuan 等，清华大学，阿里巴巴出处：ACL 代码和数据：https://github.com/GanjinZero/ICD-MSMN 阅读时间：2022.06.14 读后感通过代入外部资源 UMLS，论文收集了每个编码的同义词，从而弥补了电子病历与 ICD 编码描述中同义不同词的问题。其算法并没有像之前一些模型那么精巧，但引入外部资源后，效果的确提升不少。泛读针对问题：ICD 编码中一义多词问题核心方法：提出了多同义词匹配网络 (MSMN) 使用LSTM+ 多头注意力将编码的同义词作为 query 以关注描述中的不同短语，从而生成与 ICD 编码相关的表示。使用双仿射的 ...

论文阅读_中文NLP精减模型ELECTRA

Created2022-06-14|2_Note0_Technic2_算法11_优化模型蒸馏

介绍：ELECTRA 由 Manning 联合谷歌发布，后来哈工大讯飞联合实验室训练了相应的中文模型。精减后的模型效果和 BERT 差不太多，而模型大小只有 BERT 的 1/10，ELECTRA-small 只有 46M。代码&模型下载&详细说明：https://github.com/ymcui/Chinese-ELECTRA 使用：LTP 使用它为基础模型。原理：使用生成对抗网络训练自然语言模型，时间短，参数少。模型分为两部分：生成器和判别器，生成实现 MLM，判别器用于识别每一个单词是否为模型生成。效果：以中文阅读理解为例，其效果对比如下，其它实验详见 github Pasted image 20220620181324.png

论文阅读_BEVSegFormer

Created2022-06-05|2_Note0_Technic2_算法8_图形图像自动驾驶

介绍英文题目：BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs 中文题目：BEVSegFormer: 基于任意相机的鸟瞰图语义分割论文地址：https://arxiv.org/abs/2203.04050 领域：机器视觉,自动驾驶发表时间：2022 年 3 月作者：来自上海的自动驾驶创业公司 Nullmax 阅读时间：2022.05.28 其它相关网文：https://blog.csdn.net/Yong_Qi2015/article/details/124311369 介绍之前从摄像机视图转成 BEV 的方法多以 IPM 为主，该方法需要知道摄像机的内外参数以及位置信息。在有遮挡及距离比较远的情况下，都无法达到很好的效果。近年来更多应用了深度学习方法。优点不需要摄像机的参数有效聚合多摄像头数据优化了图像分割效果核心算法（论文正文第 3 页）三个步骤：从一个共享 Backbone 处理各摄像机，输出 Feature map。基于 Transfor ...

论文阅读_一对多的手术名称规范化

Created2022-06-04|2_Note0_Technic1_医学医学_技术论文

介绍英文题目：A Knowledge-driven Generative Model for Multi-implication Chinese Medical Procedure Entity Normalization 中文题目：知识驱动的多含义中文医疗实体规范化生成模型论文地址：https://www.aclweb.org/anthology/2020.emnlp-main.116.pdf 领域：自然语言处理，实体规范化，医疗发表时间：2020 作者：Jinghui Yan 等，北京交通大学，中国科学院，繁宇科技有限公司出处：EMNLP 被引量：4 阅读时间：22.06.04 针对问题：中文 ICD9 手术名称的规范化结果：支持手术名称一对多规范化核心方法：使用生成模型；利用知识约束；用子类数据精调模型读后感如果单纯依赖数据和模型，极可能产生一些完全不靠谱的匹配，文本规范化优化方法，多是针对这一问题的改进，比如代入知识。论文使用生成模型解决文本规范化问题，想法比较有意思，另外，使用约束的方式把知识代入了深度学习模型。介绍命名实体规范化（Named entity ...

论文阅读_图神经网络GIN

Created2022-06-01|2_Note0_Technic2_算法12_图神经网络

介绍英文题目：How Powerful are Graph Neural Networks？中文题目：图神经网络有多强大？论文地址：https://arxiv.org/pdf/1810.00826.pdf 领域：图神经网络，知识表示发表时间：2018 作者：Keyulu Xu 等，MIT，斯坦福大学出处：ICLR 被引量：1506 阅读时间：22.06.11 读后感这也是一篇引用量很大的图神经网络精典论文。之前研究方法着重于表示节点，引文着眼于表征图的结构。作者认为之前方法难以区分不同的图结构，并提出了一种基于 GNN 的方法 GIN，它的区分效果与 WL-Test 效果相当。介绍一般情况下一个节点的表式通过聚合它 k 跳之内的邻近节点计算，而全图的表示则通过对所有节点的池化计算。近年来新型 GNN 的设计主要基于经验直觉、启发式和实验试错法，而对神经网络的性质和局限性的理论较少。文中提出理论框架来分析 GNN 的能力，这里主要是评价模型是否能够区分网络结构。文中使用了 WL-test 方法，即图同构测试，它是一个区分网络结构的强效方法，也是通过迭代聚合邻居的方法来 ...