Yan 的杂物志_个人主页分享

Created2022-05-28|2_Note0_Technic2_算法8_图形图像自动驾驶

介绍英文题目：BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers 中文题目：BEVFormer: 通过时空 Transformers 从多摄像头图像学习鸟瞰图表示论文地址：https://arxiv.org/pdf/2203.17270v1.pdf 领域：机器视觉，自动驾驶发表时间：2022 年 3 月作者：Zhiqi Li 等出处：南京大学，上海人工智能实验室，香港大学代码和数据：https://github.com/zhiqi-li/BEVFormer 阅读时间：2022.05.22 读后感文中方法和特斯拉视频（特斯拉2021人工智能日AI Day完整视频）架构相似。比较有意思的地方是在BEV 层面结合了时间和空间信息。介绍在 3D 感知领域，雷达已取得了很好效果，机器视觉近几年也受到关注，除了成本低，相对雷达，它还能感知远距离物体，以及识别道路标识。 BEV 鸟瞰图从多个摄像头信息计算表征，用于描述周 ...

论文阅读_中文生物医学语言理解评价CBLUE

Created2022-05-15|2_Note0_Technic1_医学医学_技术论文

介绍英文题目：CBLUE: A Chinese Biomedical Language Understanding Evaluation 中文题目：CBLUE：中文生物医学语言理解评价基准论文地址：https://arxiv.org/pdf/2106.08087.pdf 领域：自然语言处理，知识图谱发表时间：2021 年作者：Ningyu Zhang，医渡云、平安医疗科技、阿里夸克、鹏城实验室、北京大学、哈尔滨工业大学 (深圳）、同济大学、郑州大学等共同协办出处：ACL（自然语言处理顶级会议）被引量：3 数据：https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414 (需要提交申请) 代码：https://github.com/CBLUEbenchmark/CBLUE 阅读时间：2022.05.09 读后感训练和评测数据非常全面，还可以在天池打榜。介绍之前生物医学方面数据以英文为主，本文收集了真实世界的生物医学数据，提出了第一个中文生物医学语言理解评估标准 CBLUE。其内容覆盖命名实体识别，知识抽取，诊断标 ...

论文阅读_多类型实体的图对齐_CGMuAlign

Created2022-05-15|2_Note0_Technic2_算法12_图神经网络

读后感文中的一个重要思想是：认为被对齐的图中的知识都是不完备的，所以在图间对齐时，主要对齐对些能齐上的，忽略那些对不上的；同时结构了自注意力模型，对不同关系分配不同权重。多类型实体的图对齐 _CGMuAlign 英文题目：Collective Multi-type Entity Alignment Between Knowledge Graphs 中文题目：基于知识图的集合多类型实体对齐论文地址：https://assets.amazon.science/ff/7a/b96282984a0fbe5e31a8fcf68d17/scipub-1202.pdf 领域：知识图谱，实体对齐发表时间：2020 年作者：Qi Zhu，伊利诺伊大学，亚马逊出处：the web conference 被引量：17 代码和数据：https://github.com/GentleZhu/CG-MuAlign 阅读时间：2022.04.25 介绍实体对齐的目标是识别不同图中的同一实体。不同的图在建构的时候由于目标不同，各有偏重。比如图 -1 中的左右两张图： Pasted image 202 ...

论文阅读_BERT-wwm

Created2022-05-15|2_Note0_Technic2_算法6_自然语言BERT类

1 介绍英文题目：Pre-Training with Whole Word Masking for Chinese BERT 中文题目：中文 BERT 的全词掩码预训练论文地址：https://arxiv.org/pdf/1906.08101.pdf 领域：自然语言处理发表时间：2019 作者：Yiming Cui，社会计算和信息检索研究中心，哈工大，讯飞出处：第二届“讯飞杯”中文机器阅读理解评测，CMRC 2018 被引量：255 代码和数据：https://github.com/ymcui/Chinese-BERT-wwm 阅读时间：2022.05.10 2 读后感中文和英文不同，一般通过词而非字来表意，而分词也有难度，BERT 以字单位建模，这样损失了词义。文中将之前用于英文的全词 MASK 方法应用于中文，文中没什么公式，原理也简单，但对中文确实是一个重要的方法，该模型也被广泛使用。 3 介绍 BERT(2019) 利用 Transformer，未标注的数据，综合上下文信息，使模型达到很好效果，之后，BERT 的作者又提出升级版 WWM，它利用全词 MASK 进一步提 ...

实战_用TFIDF算法对比相似度

Created2022-05-15|2_Note0_Technic2_算法6_自然语言机器学习

实战 _ 用 TF/IDF 算法对比相似度原理 TF/IDF 方法于 1983 年题出，它先计算每个单词出现的频率，然后适当归一化。利用 TF-IDF 方法将任意长度的文档缩减为固定长度的数字列表，然后对比文本相似度，gensim 工具包提供该方法。简单复习一下具体算法：词频 TF \[ tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}} \] 其中 n 是句中词，i 是词的索引号，j 是文章索引号，k 是文章中所有词，上式计算的是词 i 在本篇出现的比率。请注意：在短文本的情况下，绝大多数词只出现一次，tf 就只和文章长短有关了。逆向文档频率 IDF \[ idf_{i}=log \frac{|D|}{|j:t_i\in d_j|} \] 其中分母是文章总数，分子是包含词 i 的文章数。 TF/IDF \[ tfidf_{i,j}=tf_{i,j} \times idf_{i} \] tfidf 值反映的是每个词在文档中的重要程度。请注意：这是一种基于计数的方法，不直接使用词义。该算法的优点在于算法简单，计算量小；而缺点在于无法处理对同一概念的不同 ...

论文阅读_中文医学预测训练模型_MC-BERT

Created2022-05-07|2_Note0_Technic1_医学医学_技术论文

论文阅读 _ 中文医学预训练模型 _MC-BERT 介绍英文题目：Conceptualized Representation Learning for Chinese Biomedical Text Mining 中文题目：中文生物医学文本挖掘中的概念化表征学习论文地址：https://arxiv.org/pdf/2008.10813.pdf 领域：自然语言处理，知识抽取发表时间：2020 作者：Ningyu Zhang，阿里巴巴被引量：14 代码和数据：https://github.com/alibaba-research/ChineseBLUE 模型下载：https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok 阅读时间：2022.05.07 我的收获获得了现成可用的医学 BERT 模型，以及大量带标注的数据集。针对问题医疗数据集与普通数据集分布不同，医疗词汇的长尾分布也很难从普通语料中学习，中文的词和短语更复杂一些。需要训练一个类似 BERT 的针对医疗的中文预训练模型。本文贡献提出了 ...

论文阅读_大图的节点表征GraphSAGE

Created2022-05-03|2_Note0_Technic2_算法12_图神经网络

介绍英文题目：Inductive Representation Learning on Large Graphs 中文题目：基于大图的归纳表示学习论文地址：https://arxiv.org/abs/1706.02216 领域：知识图谱，知识表征发表时间：2017 作者：William L. Hamilton，斯坦福大学出处：NIPS 被引量：2398 代码和数据：https://github.com/williamleif/GraphSAGE，pyg 和 dgl 均有对该方法的支持阅读时间：2022.05.03 读后感学习大图、不断扩展的图，未见过节点的表征，是一个很常见的应用场景。GraphSAGE 通过训练聚合函数，实现优化未知节点的表示方法。之后提出的 GAN（图注意力网络）也针对此问题优化。文中提出了：传导性问题和归纳性问题，传导性问题是已知全图情况，计算节点表征向量；归纳性问题是在不完全了解全图的情况下，训练节点的表征函数（不是直接计算向量表示）。图工具的处理过程每轮迭代（一次 propagation）一般都包含：收集信息、聚合、更新，从本文也可以更好地理解 ...

论文阅读_图注意力网络GAN

Created2022-05-02|2_Note0_Technic2_算法12_图神经网络

介绍 12345678910英文题目：GRAPH ATTENTION NETWORKS中文题目：图注意力网络论文地址：https://export.arxiv.org/pdf/1710.10903.pdf领域：知识图谱，知识表示发表时间：2018 年作者：Petar Veliˇckovi ́c，剑桥大学出处：深度学习顶会 ICLR被引量：1000代码和数据：https://github.com/PetarV-/GAT阅读时间：2022.04.25 读后感简介部分复习了当时主流做法的演进过程，是很好的导读，其中 GNN（基于 RNN），GCN（基于 CNN），GAN（基于 Attention）都比较重要，MoNet 和 GraphSAGE 也可以读一下（GraphSAGE 用于大规模数据）。泛读针对问题：基于图结构的节点分类结果：在小数据集传导测试中 GAN 与 GCN 效果不相上下，略好一点；在大数据集归纳测试中，无法使用 GCN 等方法，GAN 更有优势。核心方法：把注意力机制引入图神经网络。难点：如果之前了解 Attention 和图的基本表示方法，本篇原理和代码都不 ...

论文阅读_GCN知识图对齐

Created2022-04-23|2_Note0_Technic2_算法12_图神经网络

介绍英文题目：Cross-lingual Knowledge Graph Alignment viaGraph Convolutional Networks 中文题目：基于 GCN 的跨语言知识图对齐论文地址：https://aclanthology.org/D18-1032.pdf 领域：知识图谱，知识对齐发表时间：2018 作者：Zhichun Wang 北京师范大学出处：EMNLP 被引量：198 代码和数据：https://github.com/1049451037/GCN-Align 阅读时间：2022.04.15 其它介绍文章亮点：复习了之前的对齐方法提出了邻接矩阵的计算以及属性的代入方法技巧 GCNAlign 和同类文件相比，引用量大，速度快，效果好，常作为默认工具文章偏重真实场景中，多种关系，属性类别，属性值的应用。泛读针对问题：不同语言知识图中的实体对齐结果：使用比较简单的方法，超过或得到与之前的方法近似的效果核心方法：调整 GCN 层计算方法，可同时对结构和属性编码难点：无泛读后理解程度：直接精读（看完题目、摘要、结论、图表及小 ...

论文阅读_KnowPrompt知识抽取

Created2022-04-17|2_Note0_Technic2_算法6_自然语言特定功能模型

读后感针对问题：few-shot 场景下从文本中抽取关系（知识检索、对话、问答）。结果：在 5 个数据集，及少量标注情况下，测试效果优于之前模型核心方法：希望在 pretrain 后不再 fine-tuning，于是引入了提示 prompt，通过构建提问（提问方法/答案范围）来实现类似 tuning 的效果。难点：之前对知识抽取和提示学习都不太了解；后来读了代码才了解，文中指的知识不是来自外界引入，而是将词嵌入作为知识。泛读后理解程度：60% （看完题目、摘要、结论、图表及小标题）围绕句子的逻辑，利用之前定义好的模板提问，回答基于知识的提示学习 KnowPrompt 12345678910英文题目：KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimizationfor Relation Extraction中文题目：KnowPrompt: 基于协同优化的知识感知快速调优**关系提取**论文地址：https://arxiv.org/pdf/2104.07650.pdf领域：自然语言处理，关系提 ...