几种词嵌入方法

在自然语言处理中常常使用词嵌入。先来看看词嵌入是什么，以及为什么使用词嵌入。

为什么要使用词嵌入

以中文为例，词库中至少包括几千个字，几万个词，将其代入模型时，如果使用 onehot 编码，则变量有成千上万个维度，参数数量和计算量都非常庞大；且无法计算词间的近似性，无法使用“类比”方法将学到的规则泛化到近义词上，也不利于进一步的迁移学习。

词嵌入可将词的特征映射到较低的维度，比如用 200 维特征描述词库中所有的词，使用模型参数更少，训练更快。

词嵌入可视为给每个组一个 n 维的编码，能某一维度可能描述词性，另一维度描述感情色彩；用特征描述取代符号描述，类似于机器视觉中使用深度网络提取图片的基本特征。也便于对比、泛化、以及知识迁移。比如使用大量自然语言数据训练了足够好的词表征，在具体任务中使用少量实例 fine-tune 和 pretrain 训练好的词嵌入数据训练模型。模型对于 fine-tune 训练集中从未出现，但在词嵌入中出现的词也能有很好效果，从而实现知识迁移。

除了作为特征提取器，还可通过词嵌入实现运算，比如：男 - 女=国王 - 王后，因此可通过国王 - 男 + 女的运算得出王后，从而实现一些类比相关的逻辑推理功能，以及性质变换。

将 onehot 编码转换成词嵌入

通过矩阵乘法可完成 onehot 编码到词嵌入的转换，假设词库中包含 10000 个词，词嵌入 200 维，onehot 变量乘矩阵 E 可得到词嵌入，E 的大小为 10000x200，onehot 编码型如 [0,0,…1,…0]，因此乘法相当于过滤出 E 矩阵中的某一列，作为该词的词向量表示。矩阵中的权重通过训练得到。可以视为用每一列描述一个具体词的特征。

训练 Embedding 层

训练深度学习模型是一种有监督学习，为了利用互联网上庞大的文本数据。一般使用前 N 个词预测第 N+1 个词，比如使用“白日依山”作为 x，通过词嵌入编码为 200x4=800 维的输入特征，预测下一个字为 y’，y’是词库中每个词是第 N+1 字的概率。通过上述算法，即可使用未人工标注的数据训练模型。像 BERT，GPT-2 等目前流行的模型都使用这种方法训练，它们不仅训练了词向量，还使用深度网络学习了语法语义等其它关系。

Word2Vec 的 skip-gram 模型

skip-gram 的原理是根据相关词同时出现的情况估计词义。它在句中随机选定一个词作为上下文 context，然后从其附近 n 个词的范围内随机选择一词作为目标 target，构建有监督学习的训练集，用上下文训练目标。模型包含词嵌入矩阵，并在最后一层加入 Softmax，以便输出概率。它只有一个词输入和一个词输出，比上面介绍的模型更加简单。训练出的模型并不用于解决具体问题，只用于训练词嵌入。上述只是基本原理，具体使用时，还涉及采样时对停用词以及低频词的处理，优化 Softmax 速度等方法。

腾讯词向量使用了 skip-gram 的改进版本，其中包括 800 多万中文词和短语，将每个词展开成 200 维向量。

Word2Vec 的 CBOW 模型

CBOW 是连续词袋模型 Continuous Bag-of-Word Model 的简称，它用上下文词来预测中间词。

如图所示，使用前两个和后两个词（共 C=4 个）预测中间的词 w，其中每个词被映射成 V 维的词向量；每个词向量乘以参数矩阵 A(VN 维矩阵)，转换成 N 维数据，然后将所有词对应的 N 维的数据相加取均值，计算出 N 维的隐藏层 Hidden；再用隐藏层乘参数矩阵 B(NV 维)，计算待预测的词 w 对应的 V 维词向量；最终用预测出的 w 与真实的 w 作比较计算误差函数，然后用梯度下降调整 A,B 两个参数矩阵。由此，使用简单的神经网络就完成了预测任务。

GloVe 词向量

GloVe 方法比较简单，全称是 Global vectors of word representation。它计算目标 target 有多少次出现在上下文 context 中。对于每一个句子，其中的词 a 出现时词 b 出现与 b 出现时 a 也出现的次数是一致的，因此二者具有对称性。

比如 k 是单词 orange，那么它 juice（设为单词 i）同时与它出现的概率肯定比它与 book（设为单词 j）同时出现的概率高。相比单词同时出现的概率，单词同时出现的概率的比率能够更好地区分单词。经过推导，最终得到公式：

其中 V 为词库中的所有词，X 为词汇共现矩阵，Xik 表示词 k 出现在词汇 i 上下文中的次数总和，wi,wk 分别为词 i 和 k 对应的词向量，f 是权重函数，如果 ik 未同时出现过，则 f(Xik)=0，不将其计入目标函数，f 还用于均衡高频词于低频词的影响。通过统计词库中各个词组合同时出现的概率训练模型。