词嵌入Word Embedding

1. 背景

         词嵌入定义为NLP中语言建模和特征学习技术的总称,是一种将文本中的词汇转化成数值向量的方法(将字典中的单词和词组映射成实向量)。
         one-hot编码存在的一个主要问题是它无法表示出词汇间的相似度。

2. 分布式表示

        分布式表示试图通过考虑上下文词汇间的关系来捕捉词汇语义。分布式表示的目标是找出一个通用的转换函数,把词汇转换成(与它关联的)向量,使它们之间的相似性符合词汇间语义的相性。

2.1 word2vec 词嵌入

        word2vec 是一个模型组,这些模型是无监督的,它以大型文本语料作为输入,并生成词汇的向量空间。其向量空间的维度通常低于one-hot编码的字典大小的向量空间维度。尽管word2vec创建了用于深度学习NLP模型的向量,但它却是浅层NN。

        word2vec将每个词表示成一个定长的向量,并使得这些向量能较好地表达不同词之间的相似和类比关系。它主要包含了下面两个模型:

2.1.1  skip-gram 跳字模型

        skip-gram 模型训练的目标是通过给定的当前词(中心词)来预测周围词。skip-gram 方法会对正样例可能性的结果池进行随机采样;对用于生成负样例的负样本取样处理,会包含从文本中随机组对的任意token。

        负采样通过考虑同时含有正类样本和负类样本的相互独立事件来构造损失函数,其训练中每一步的梯度计算开销与采样的噪声词的个数线性相关;

        层序softmax使用了二叉树,并根据根结点到叶结点的路径来构造损失函数,其训练中一步的梯度计算开销与词典大小的对数相关。

        二次采样试图尽可能减轻高频词对训练词嵌入模型的影响;

       可以将不同长度的样本填充至长度相同的小批量,并通过掩码变量区分填充和非填充,然后只令非填充参与损失函数的计算。

2.2.2  CBOW 连续词袋模型

        CBOW(Continuous Bag Of Words)模型通过周围的词汇预测当前词,且上下文词汇的顺序不会影响预测结果(即词袋的假定)。

CBOW更快,但skip-gram在预测非常用词时比较出色。

2.2.3 从模型中提取word2vec向量

        把字典中的词转换成稠密的低维的分布式表示时所用的权重矩阵。

        Gensim库提供了一个word2vec的实现。

        对于英语语言文本,比较好用的是google的word2vec模型,它是在google新闻数据集中超10亿词汇上训练好的模型,其字典大小约为300W,词向量维度为300,模型大小约1.5G。

2.2 GloVe-全局向量的词嵌入

        GloVe(goble vector)是一种获取词的向量表示的非监督学习算法,其训练基于语料中全局聚合的共现词的统计进行,结果表示展示了词向量空间中有趣的线性子结构。(字典表示中的全局向量叫GloVe向量。)

       GloVe和word2vec的不同点在于,word2vec是一个预测模型,而GloVe是一个基于计数的模型。首先构造一个训练语料中共现的(word, context)的大型矩阵,矩阵中的每个元素代表了以行表示的词,与以列表示的周围词共现的频数。然后GloVe处理过程把共现矩阵转换成了一对(word, feature) 和 (feature, context)的矩阵。这个过程就是矩阵分解,它是通过随机梯度下降的方法完成的,SGD是一种数值迭代方法。当SGD收敛时矩阵(word, feature)就是GloVe向量,为了加快收敛,SGD通常采用并发模式。

        基于预测NN的模型(如word2vec)和基于计数的模型(如GloVe)在思路上是相似的。它们都构造了一个向量空间,其中词的位置会被它的邻近词影响。NN模型以共现词的各个样例开始,而基于计数的模型通过语料中所有词的聚合共现统计开始。

          任意词的中心词向量和背景词向量在GloVe模型中是等价的,对于不同的初始值,同一个词最终学习到的两组词向量可能不同。当学习得到所有词向量以后,GloVe模型使用中心词向量与背景词向量之和作为该词的最终词向量。

       在有些情况下,交叉熵损失函数有劣势,GloVe模型采用平方损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。

        尽管GloVe通常比word2vec有更高的准确率,而且使用并发时比word2vec训练的更快,但其相关python工具不如word2vec的那么成熟。


3. 使用预训练好的词向量

        一般来说只有出现大量生僻文本时,才会从头训练word2vec或GloVe模型。在网络中使用(预训练好的)词向量的三种方式:

3.1 从头开始学习词向量

        向量权重被随机初始化为较小的值并用BP算法进行训练。

       可以使用NLP工具包NLTK来把文本解析成句子和词。

3.2 从预训练好的word2vec/GloVe模型中微调学习到的词向量

        从预训练好的模型中构建权重向量,并用它初始化嵌入层,因为权重的初始值较好,模型也收敛得更快。


3.3 从预训练好的word2vec/GloVe模型中查找词向量

        从预训练好的模型中查找词向量,并把输入转换成词向量。之后可以训练任意ML模型。

4. fastText-子词嵌入

        fastText提出了子词嵌入(subword embedding)的方法,从而试图将构词信息引入word2vec的跳字模型。它在skip-gram模型的基础上,将中心词向量表示成单词的子词向量之和。

        子词嵌入利用构词上的规律,通常可以提升生僻词表征的质量。

你可能感兴趣的:(深度学习,embedding)