实战_用TFIDF算法对比相似度
实战 _ 用 TF/IDF
算法对比相似度
原理
TF/IDF 方法于 1983
年题出,它先计算每个单词出现的频率,然后适当归一化。利用 TF-IDF
方法将任意长度的文档缩减为固定长度的数字列表,然后对比文本相似度,gensim
工具包提供该方法。
简单复习一下具体算法:
词频 TF
\[
tf_{i,j}=\frac{n_{i,j}}{\sum_kn_{k,j}}
\]
其中 n 是句中词,i 是词的索引号,j 是文章索引号,k
是文章中所有词,上式计算的是词 i
在本篇出现的比率。请注意:在短文本的情况下,绝大多数词只出现一次,tf
就只和文章长短有关了。
逆向文档频率 IDF
\[
idf_{i}=log \frac{|D|}{|j:t_i\in d_j|}
\]
其中分母是文章总数,分子是包含词 i 的文章数。
TF/IDF
\[
tfidf_{i,j}=tf_{i,j} \times idf_{i}
\]
tfidf
值反映的是每个词在文档中的重要程度。请注意:这是一种基于计数的方法,不直接使用词义。
该算法的优点在于算法简单,计算量小;而缺点在于无法处理对同一概念的不同 ...
论文阅读_中文医学预测训练模型_MC-BERT
论文阅读 _
中文医学预训练模型 _MC-BERT
介绍
英文题目:Conceptualized Representation Learning for Chinese
Biomedical Text Mining
中文题目:中文生物医学文本挖掘中的概念化表征学习
论文地址:https://arxiv.org/pdf/2008.10813.pdf
领域:自然语言处理,知识抽取
发表时间:2020
作者:Ningyu Zhang,阿里巴巴
被引量:14
代码和数据:https://github.com/alibaba-research/ChineseBLUE
模型下载:https://drive.google.com/open?id=1ccXRvaeox5XCNP_aSk_ttLBY695Erlok
阅读时间:2022.05.07
我的收获
获得了现成可用的医学 BERT 模型,以及大量带标注的数据集。
针对问题
医疗数据集与普通数据集分布不同,医疗词汇的长尾分布也很难从普通语料中学习,中文的词和短语更复杂一些。需要训练一个类似
BERT 的针对医疗的中文预训练模型。
本文贡献
提出了 ...
论文阅读_大图的节点表征GraphSAGE
介绍
英文题目:Inductive Representation Learning on Large Graphs
中文题目:基于大图的归纳表示学习
论文地址:https://arxiv.org/abs/1706.02216
领域:知识图谱,知识表征
发表时间:2017
作者:William L. Hamilton,斯坦福大学
出处:NIPS
被引量:2398
代码和数据:https://github.com/williamleif/GraphSAGE,pyg 和 dgl
均有对该方法的支持
阅读时间:2022.05.03
读后感
学习大图、不断扩展的图,未见过节点的表征,是一个很常见的应用场景。GraphSAGE
通过训练聚合函数,实现优化未知节点的表示方法。之后提出的
GAN(图注意力网络)也针对此问题优化。
文中提出了:传导性问题和归纳性问题,传导性问题是已知全图情况,计算节点表征向量;归纳性问题是在不完全了解全图的情况下,训练节点的表征函数(不是直接计算向量表示)。
图工具的处理过程每轮迭代(一次
propagation)一般都包含:收集信息、聚合、更新,从本文也可以更好地理解 ...
论文阅读_图注意力网络GAN
介绍
12345678910英文题目:GRAPH ATTENTION NETWORKS中文题目:图注意力网络论文地址:https://export.arxiv.org/pdf/1710.10903.pdf领域:知识图谱,知识表示发表时间:2018 年作者:Petar Veliˇckovi ́c,剑桥大学出处:深度学习顶会 ICLR被引量:1000代码和数据:https://github.com/PetarV-/GAT阅读时间:2022.04.25
读后感
简介部分复习了当时主流做法的演进过程,是很好的导读,其中 GNN(基于
RNN),GCN(基于 CNN),GAN(基于 Attention)都比较重要,MoNet 和
GraphSAGE 也可以读一下(GraphSAGE 用于大规模数据)。
泛读
针对问题:基于图结构的节点分类
结果:在小数据集传导测试中 GAN 与 GCN
效果不相上下,略好一点;在大数据集归纳测试中,无法使用 GCN 等方法,GAN
更有优势。
核心方法:把注意力机制引入图神经网络。
难点:如果之前了解 Attention
和图的基本表示方法,本篇原理和代码都不 ...
论文阅读_GCN知识图对齐
介绍
英文题目:Cross-lingual Knowledge Graph Alignment viaGraph
Convolutional Networks
中文题目:基于 GCN 的跨语言知识图对齐
论文地址:https://aclanthology.org/D18-1032.pdf
领域:知识图谱,知识对齐
发表时间:2018
作者:Zhichun Wang 北京师范大学
出处:EMNLP
被引量:198
代码和数据:https://github.com/1049451037/GCN-Align
阅读时间:2022.04.15
其它介绍
文章亮点:
复习了之前的对齐方法
提出了邻接矩阵的计算以及属性的代入方法技巧
GCNAlign
和同类文件相比,引用量大,速度快,效果好,常作为默认工具
文章偏重真实场景中,多种关系,属性类别,属性值的应用。
泛读
针对问题:不同语言知识图中的实体对齐
结果:使用比较简单的方法,超过或得到与之前的方法近似的效果
核心方法:调整 GCN 层计算方法,可同时对结构和属性编码
难点:无
泛读后理解程度:直接精读
(看完题目、摘要、结论、图表及小 ...
论文阅读_KnowPrompt知识抽取
读后感
针对问题:few-shot
场景下从文本中抽取关系(知识检索、对话、问答)。
结果:在 5 个数据集,及少量标注情况下,测试效果优于之前模型
核心方法:希望在 pretrain 后不再 fine-tuning,于是引入了提示
prompt,通过构建提问(提问方法/答案范围)来实现类似 tuning
的效果。
难点:之前对知识抽取和提示学习都不太了解;后来读了代码才了解,文中指的知识不是来自外界引入,而是将词嵌入作为知识。
泛读后理解程度:60%
(看完题目、摘要、结论、图表及小标题)
围绕句子的逻辑,利用之前定义好的模板提问,回答
基于知识的提示学习
KnowPrompt
12345678910英文题目:KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimizationfor Relation Extraction中文题目:KnowPrompt: 基于协同优化的知识感知快速调优**关系提取**论文地址:https://arxiv.org/pdf/2104.07650.pdf领域:自然语言处理,关系提 ...
论文阅读_知识图对齐PRASE
介绍
英文题目:Unsupervised Knowledge Graph Alignment by Probabilistic
Reasoning and Semantic Embedding
中文题目:基于概率推理和语义嵌入的无监督知识图对齐
论文地址:https://arxiv.org/abs/2105.05596v1
领域:自然语言处理,知识图谱
发表时间:2021
作者:腾讯天衍实验室
出处:IJCAI(国际人工智能联合会议)
被引量:1
代码和数据:
https://github.com/qizhyuan/PRASE-Python
https://github.com/dig-team/PARIS
阅读时间:22.04.08
泛读
针对问题:实体对齐(不是本体对齐)
结果:效果优于之前模型
核心方法:提出
PRASE,基于概率推理和语义嵌入,使用不断更新种子的方法迭代训练上述两个子模型。
难点:先需要了解一下 PARIS 模型
泛读后理解程度:70%
(看完题目、摘要、结论、图表及小标题)
精读
摘要
目前常用的实体对齐方法包括:基于词嵌入的对齐、常识推理和字典匹配。前者 ...
markdown_LaTeX
#笔记/markdown
1 希腊字母
字母
LaTex
字母
LaTex
\(\alpha\)
\(\xi\)
\(\beta\)
\(\pi\)
\(\gamma\)
\(\rho\)
\(\delta\)
\(\sigma\)
\(\epsilon\)
\(\tau\)
\(\zeta\)
\(\upsilon\)
\(\eta\)
\(\phi\)
\(\theta\)
\(\chi\)
\(\iota\)
\(\psi\)
\(\kappa\)
\(\omega\)
\(\lambda\)
\(\nu\)
\(\mu\)
\(\Gamma\)
\(\Sigma\)
\(\Delta\)
\(\Upsilon\)
\(\Theta\)
\(\Phi\)
\(\Lambda\)
\(\Psi\)
\(\Xi\)
\(\Omega\)
\(\Pi\)
2 常用符号
2.1 关系表达式
符号
LaTex
...
markdown_页面中跳转
#笔记/markdown
1 标题跳转
1.1 页内跳转
1[[#本页标题名]]
1.2 页间跳转
1[[文档名#标题名]]
1.3 跳转时显示特定文本
1[显示的内容](#标题标号-标题文本)
1.4 注意
() 小括号内部声明跳转目标标题,以 # 开头
(无论几级标题,都只要一个井号),标题题号如果包含 .、
下划线直接忽略掉,标题文本中如果有空格,使用 -
横杠符号替代,标题文本中的大写字母转换成小写。
2 块跳转
Obsidian 支持块跳转功能,Help 中有详细说明,简要概括如下:
使用^号定义块
1正文 ^dcf64c
跳转
1[[#^dcf64c]]
在文档中嵌入块内容
1![[#^dcf64c]]
形如:
Pasted image
20220102231907.png
3 脚注
调用脚注写法:
1点击跳到脚注 [^aa]
脚注本身写法:
1[^aa]:我是脚注本身(点击右测可返回调用处)
4 参考
#
Markdown实用语法之实现页面内跳转
论文阅读_关系表征的在线学习DeepWalk
读后感
针对问题:学习图中节点的表征,解决多分类、异常检测等问题。通过优化算法,可应用于大规模数据。
结果:当标签数据稀疏时,F1 分数比之前方法提升
10%;在一些实验中,使用 60% 训练数据,结果即可优于其它方法。
核心方法:借鉴自然语言处理方法,利用统计原理,使用无监督数据学习。
难点:优化部分较难理解。
泛读后理解程度:直接精读。
(看完题目、摘要、结论、图表及小标题)
介绍
英文题目:DeepWalk: Online Learning of Social Representations
中文题目:DeepWalk:关系表征的在线学习
论文地址:http://perozzi.net/publications/14_kdd_deepwalk.pdf
领域:知识图谱
发表时间:2014
出处:KDD
被引量:5094
代码和数据:https://github.com/phanein/deepwalk/
阅读时间:2022.3.28
精读
1. 介绍
Pasted image
20220328211733.png
编码的目标是使用相对较低的维度表征数据,如图以 2
维为例 ...