Yan 的杂物志_个人主页分享

Created2022-08-20|2_Note0_Technic2_算法14_模型解释

英文题目：Intelligible Models for Classification and Regression 中文题目：可理解的分类和回归模型论文地址：https://www.doc88.com/p-41099846725043.html 领域：模型可解释性，广义加性模型，机器学习发表时间：2012 作者：Yin Lou，Rich Caruana（模型可解释性大佬），康耐尔大学，微软出处：KDD 被引量：256 代码和数据：https://github.com/interpretml/interpret 阅读时间：220819 读后感加性模型的准确性优于线性模型，差于梯度决策树和深度学习模型．它在模型精度和可解释性间取平衡．其核心原理是针对单个特征建立模型（可以是非线性模型），然后把这些复杂模型加在一起形成最终模型．本文描述了具体实现方法．介绍复杂模型虽然预测精度高，但可解释性较差，因为很难判断单个特征在复杂模型中的贡献度．本文目标是建立尽量准确且可解释的模型，让用户可以理解每个特征的贡献度．使用广义加性模型（GAMs）方法，其核心算法如下： Pasted im ...

论文阅读_对比学习_SimCLR

Created2022-08-14|2_Note0_Technic2_算法5_模型结构网络结构

12345678910英文题目：A Simple Framework for Contrastive Learning of Visual Representations中文题目：视觉表征对比学习的简单框架论文地址：https://arxiv.org/abs/2002.05709v2领域：深度学习，知识表示，半监督学习，对比学习发表时间：2020作者：Ting Chen，Hinton 团队，Google Research出处：ICML被引量：1734代码和数据：https://github.com/leftthomas/SimCLR阅读时间：22.08.14 读后感众所周知，有监督学习相比于无监督学习和半监督学习速度更快，效果更好，但也存在一些问题，比如难以泛化解决其它问题，需要高成本的标注等等．对比学习是一种半监督学习（自监督学习），它可以生成一种表示，用一组数表征一个时间序列，一句话，一张图... 然后再代入下游任务．具体方法是用实例间的相似和差异学习怎么描述这个实例，从而捕捉内在的不变性；从高维到低维，构建更抽象地表示．个人感觉有监督和半监督学习各有优势，实际建模时有效结合 ...

啥是图神经网络

Created2022-08-07|2_Note0_Technic2_算法13_知识图谱

昨天有个朋友问我：＂你了解图神经网络么？＂，想了半天，不知从何说起．这半年，读了一些相关论文，TransR，TransE，GNN，GCN，GIN，还有一些综述性的．好像大概能说明白，它是怎么做的，但又不能完全说明白它是干啥的，进而扩展到自然语言模型，知识图谱，你说它们是干啥的？在网上一搜，出来的往往是具体实现方法（how），而具体干啥讲得很抽象（what）．试试说说我的理解，也不一定对：从根本上看，它们都是知识表示，文本向量化．通俗地讲就是把文本编码成一串数，文本可能是一个字（＂生＂），一个词（＂苹果＂），一个短语（＂你说呢＂）或者一个句子（＂我是一个句子＂）... 让文字可以量化，比较，计算．比如：提到自然语言模型，可能首先想到的是 BERT，GTP，它可以用来做阅读理解，完型填空，判断对错，续写文章等等．模型将一段文字转换成一串数，再传入下游任务（比如：阅读理解），参与决策具体问题．而 BERT 类模型解决的问题是某个字（比如＂生＂）在不同上下文环境下到底是什么意思？然后把它在这里的意思转换成一串数．再如：知识图谱，一度困惑它是干啥的？把文献或者网站上的大段文字通过命名识体识 ...

论文阅读_胶囊网络_CapsNet

Created2022-07-31|2_Note0_Technic2_算法5_模型结构网络结构

介绍英文题目：Dynamic Routing Between Capsules 中文题目：胶囊之间的动态路由论文地址：https://papers.nips.cc/paper/2017/file/2cad8fa47bbef282badbb8de5374b894-Paper.pdf 领域：深度学习发表时间：2017 作者：Sara Sabour，Nicholas Frosst，Geoffrey E. Hinton 出处：NIPS（机器学习和计算神经科学的国际会议）被引量：3466 代码和数据：https://github.com/naturomics/CapsNet-Tensorflow 阅读时间：22-03-29 其它介绍大牛 Geoffrey E. Hinton 提出的 “胶囊网络” 到底是啥？精读 1 摘要胶囊是一组神经元，其激活向量能表示特定类型的特征，比如一个对象或对象部分。文中用激活向量的长度表示存在的概率，用方向表示参数。一层激活胶囊通过变换矩阵为高层胶囊提供实例化参数。当多个低层胶囊预测一致时，高层胶囊被激活。实验部分使用 MNIST 数据集，证明在识别高度 ...

论文阅读_多任务学习_MMoE

Created2022-07-24|2_Note0_Technic2_算法5_模型结构网络结构

介绍 12345678910英文题目：Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts中文题目：多门专家混合多任务学习中的任务关系建模论文地址：https://dl.acm.org/doi/pdf/10.1145/3219819.3220007领域：深度学习，多任务学习发表时间：2018作者：Jiaqi Ma，密歇根大学，谷歌出处：KDD被引量：137代码和数据：https://github.com/drawbridge/keras-mmoe阅读时间：22.07.24 读后感多任务学习一般用于相同输入特征，用一个模型同时学习多个任务．一次预测多个标签，这样可以节约训练和预测时间，也能节约存储模型的空间．之前的方法主要是底层共用网络，上层针对每个任务分别训练自己的网络．这样做的问题是，如果多个任务相关性不强，可能向不同方向拉扯共享参数，虽然理论上多个任务可以互为辅助，提供更多信息，但实现效果往往不如单独训练模型效果好．介绍多任务学习效果一般取决于不同任务之间的 ...

论文阅读_中文医疗模型 eHealth

Created2022-06-25|2_Note0_Technic1_医学医学_技术论文

英文题目：Building Chinese Biomedical Language Models via Multi-Level Text Discrimination 中文题目：基于多层次文本辨析构建中文生物医学语言模型论文地址：https://arxiv.org/pdf/2110.07244.pdf 发表时间：2021 作者：Quan Wang 等，百度模型下载：https://huggingface.co/nghuyong/ernie-health-zh 模型介绍：https://github.com/PaddlePaddle/Research/tree/master/KG/eHealth 模型代码：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-health 阅读时间：22.06.25 读后感目前效果最好的生物医学预训练模型，在 CBLUE 比赛数据上亲测真的有明显提升。介绍之前生物医疗领域的预训练模型只是使用专门的数据训练，且大多是英文模型，垂直领域的模型常在通用模型的基础 ...

论文阅读_清华ERNIE

Created2022-06-25|2_Note0_Technic2_算法6_自然语言BERT类

英文题目：ERNIE: Enhanced Language Representation with Informative Entities 中文题目：ERNIE: 使用信息实体增强语言表示论文地址：https://arxiv.org/pdf/1905.07129v3/n 领域：自然语言处理发表时间：2019 作者：Zhengyan Zhang，清华大学出处：ACL 被引量：37 代码和数据：https://github.com/thunlp/ERNIE 阅读时间：2002.06.25 读后感 2019 年前后清华和百度都提出了名为 ERNIE 的模型，名字相同，方法不同。清华的 ERNIE 把知识图融入了文本的向量表示，也叫 KEPLM，想法比较有意思，模型改进效果：使用少量数据训练模型时，ERNIE 比其它模型效果更好。从技术角度，它示范了整合异构数据的方法。介绍本文提出 ERNIE，它是结合知识图和大规模数据的预训练语言模型。引入知识图面临两个重要挑战：如何在文本表示中提取和表示知识图中的结构整合异构数据：将预训练模型表示和知识图表示映射到同一向量空间 ERNI ...

TFIDF与BM25

Created2022-06-25|2_Note0_Technic2_算法6_自然语言机器学习

TFIDF 先复习一下 tfidf，tf 是词频，即某个词 i 在文章 j 中出现的频率。分母是文章中所有词的个数，分母是词 i 出现的次数。tf 越高说明该词越重要，对于短文本匹配，每个词一般只出现一次，tf 的大小就取决于分母，即文章的长度。 \[ tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}} \] idf 是逆文档频率，计算该词出现在所有文章中的频率，此时，分母是包含该关键字 i 的文章数，分子是所有文章数 N。用 log 相当于趋势不变，数值变小了。该词出现越多，分子越大，idf 值越小，比如：" 的 " 经常出现，因此不是关键词。当词 i 在文章 j 中完全不出现，分母为 0，因此给分母加 1。 \[ idf_i=log\frac{N}{df_i+1} \] tf 和 idf 的乘积就是词 i 在文章 j 中的重要性。 \[ tfidf_{i,j}=tf_{i,j} \times idf_i \] 在搜索中，计算搜索串中的多个关键词与文章 j 的相似度：将各词的 tfidf 相加： $$ similarity = {i} tfidf{i ...

论文阅读_ICD编码_BERT

Created2022-06-20|2_Note0_Technic1_医学医学_技术论文

英文题目：BERT-based Ranking for Biomedical Entity Normalization 中文题目：基于 bert 的生物医学实体标准化排序论文地址：https://arxiv.org/pdf/1908.03548 领域：自然语言处理，生物医学，实体标准化发表时间：2019 作者：Zongcheng Ji, 德克萨斯大学被引量：6 阅读时间：22.06.20 读后感中规中矩的方法，评测了各个预训练模型的差异。介绍 BERT 是常用的自然语言处理深度学习模型, BoiBERT 和 ClinicalBERT 是针对医疗领域预训练的模型，文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题．实体规范化 Entity linking，主要面临以下挑战：歧义问题：同一实体可能与多个概念相连变体问题：同一概念可能与不同的实体相连缺失问题：实体不与知识库中的任务概念相连（这里指的概念是规范化后的文本）在医疗领域主要任务是对实体的规范化和编码，变体问题是医疗领域的主要问题。方法已知文档的句子中的有实体 m，以及包含很多概念的知识知识库 ...

论文阅读_医疗NLP模型_EMBERT

Created2022-06-20|2_Note0_Technic1_医学医学_技术论文

123456789英文题目：EMBERT: A Pre-trained Language Model for Chinese Medical Text Mining中文题目：中文医学文本挖掘的预训练语言模型论文地址：https://chywang.github.io/papers/apweb2021.pdf领域：自然语言处理，知识图谱，生物医疗发表时间：2021作者：Zerui Cai 等，华东师范大学出处：APWEB/WAIM 被引量：1阅读时间：22.06.22 读后感针对医疗领域，利用知识图中的同义词（只使用了词典，未使用图计算方法），训练类似 BERT 的自然语言表示模型。优势在于代入了知识，具体设计了三种自监督学习方法来捕捉细粒度实体间的关系。实验效果略好于现有模型。没找到对应代码，具体的操作方法写的也不是特别细，主要领会精神。比较值得借鉴的是，其中用到的中文医疗知识图，其中同义词的使用方法，AutoPhrase自动识别短语，高频词边界的切分方法等。介绍文中方法致力于：更好地利用大量未标注数据和预训练模型；使用实体级的知识增强；捕捉细粒度的语义关系。与 MC-BERT ...