Word2Vec ——gensim实战教程

最近斯坦福的CS224N开课了,看了下课程介绍,去年google发表的Transformer以及最近特别火的Contextual Word Embeddings都会在今年的课程中进行介绍。NLP领域确实是一个知识迭代特别快速的领域,每年都有新的知识冒出来。所以身处NLP领域的同学们要时刻保持住学习的状态啊。笔者又重新在B站上看了这门课程的第一二节课。这里是课程链接。前两节课的主要内容基本上围绕着词向量进行。所以这篇文章笔者想简单的介绍一下词向量,以及如何利用python的gensim训练一个自己的词向量。

词向量简介

词向量指的是一个词的向量表示。如果你希望计算机能够进行一些复杂点的文本语义学习,你必须得将文本数据编码成计算机能够处理的数值向量吧,所以词向量是一个自然语言处理任务中非常重要的一环。

one-hot representations

很久很久之前,一个词用onehot进行编码,如下图所示,这种方式简单粗暴,将一个词用一个只有一个位置为1,其他地方为0的向量表示。1的位置就代表了是什么词。


词的one-hot编码

这种表示有如下缺点:

  • 占用空间大
  • 词与词之间的向量是正交关系,没有任何语义关联
Distributional representations

为了克服onehot表示的两个缺点,Distributional representations的词向量应运而生。Distributional representations的词向量指的是将单词从原先所属的空间(一般是one-hot编码)映射到新的低维空间中去,同时,低维空间的词向量还能表达出一些语义,比如,词的相似性(similarity)或者一对词与一对之间的类比关系(analogy)。
词的相似性(similarity): 老婆 和 妻子
类比关系(analogy): 国王 - 男人 = 王后 -女人

词向量模型

Word2vec简介

那我们如何得到上述具有语义Distributional representations的词向量呢,2013年提出的word2vec的方法就是一种非常方便得到高质量词向量的方式。其主要思想是:一个词的上下文可以很好的表达出词的语义,它是一种通过无监督的学习文本来用产生词向量的方式。word2vec中有两个非常经典的模型:skip-gram和cbow。

模型任务:
  • skip-gram:已知中心词预测周围词
  • cbow:已知周围词预测中心词

比如 "the quick brown fox jumps over the lazy dog" 如果定义window-size为2的话,
就会产生如下图所示的数据集,window-size决定了目标词会与多远距离的上下文产生关系:
Skip-Gram:(the,quick) ,其中the 是模型的输入,quick是模型的输出。
Cbow: ((quick,brown),the) ,其中 (quick,brown)是模型的输入,the是模型的输出。


Skip-Gram和Cbow的训练数据生成
模型架构:

skip-gram,cbow的模型架构都是一层单层的神经网络,如下图所示,需要注意的部分是:神经网络的参数就是我们最后得到的词向量,神经网络训练过程就是学习词向量(网络参数)的过程。

Skip-Gram和Cbow的模型架构

Fasttext简介

gensim 中Fasttext 模型架构和Word2Vec的模型架构差几乎一样,只不过在模型词的输入部分使用了词的n-gram的特征。这里需要讲解一下n-gram特征的含义。举个例子,如果原词是一个很长的词:你吃了吗。jieba分词结果为["你","吃了","吗"]。
unigram(1-gram)的特征:["你","吃了","吗"]
bigram(2-gram) 的特征: ["你吃了","吃了吗"]
所以大家发现没,n-gram的意思将词中连续的n个词连起来组成一个单独的词。
如果使用unigram和bigram的特征,词的特征就会变成:["你","吃了","吗","你吃了","吃了吗"]这么一长串。使用n-gram的词向量使得Fast-text模型可以很好的解决未登录词(OOV——out-of-vocabulary)的问题。

gensim实战部分

首先导入必要的python包,jieba,gensim等必要的包。

from gensim.models import fasttext
from gensim.models import word2vec
import pandas as pd
import logging
import jieba

数据载入与预处理

这里笔者用的是某个比赛的一些评论文本数据,读入评论文本数据之后对每一条评论进行分词。代码如下:

data = pd.read_csv("data_train.csv",sep="\t",encoding='gbk',header=None)
sentance  = list(data[2])
## 对句子进行分词分词
def segment_sen(sen):
    sen_list = []
    try:
        sen_list = jieba.lcut(sen)
    except:
            pass
    return sen_list   
# 将数据变成gensim中 word2wec函数的数据格式
sens_list = [segment_sen(i) for i in sentance]

最终将文本数据处理如下格式:一个list ——包含每一条分词后的文本list。

[['烤鸭', '还是', '不错', '的', ',', '别的', '菜', '没什么', '特殊', '的'],
['使用', '说明', '看不懂', '!', '不会', '用', ',', '很多', '操作', '没', '详细', '标明', '!'],
['越来越', '不好', '了', ',', '菜品', '也', '少', '了', ',', '服务', '也', '不', '及时', '。'],
['是', '在', '是', '不', '知道', '该', '吃', '什么', '好', '、', '就', '来', '了'],
......]

Word2vec模型训练

这里笔者简单介绍一下word2vec.Word2Vec这个API的一些重要参数。

  • size: 表示词向量的维度,默认值是100。
  • window:决定了目标词会与多远距离的上下文产生关系,默认值是5。
  • sg: 如果是0, 则是CBOW模型,是1则是Skip-Gram模型,默认是0即CBOW模型。

这里笔者都是采用默认参数。即采用CBOW模型——通过周围词预测中心词的方式训练词向量。

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = word2vec.Word2Vec(sens_list,min_count=1,iter=20)
model.save("word2vec.model")

模型训练过程如下图所示,笔者的数据一个有61678不同的词,所以会得到一个61678个词向量模型。


训练cbow

Fasttext模型训练

fasttext.FastText API一些重要参数:

  • size: 表示词向量的维度,默认值是100。
  • window:决定了目标词会与多远距离的上下文产生关系,默认值是5。
  • sg: 如果是0, 则是CBOW模型,是1则是Skip-Gram模型,默认是0即CBOW模型。

上方参数和word2vec.Word2Vec API的参数一模一样。

  • word_ngrams :({1,0}, optional) 1表示使用n-gram的信息,0代表不使用n-gram的信息,如果设置为0就等于CBOW或者Skip-gram。

下方是模型训练代码:

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model1 = fasttext.FastText(sens_list,min_count=1,iter=20)
model1.save("fast_text.model")

模型训练过程如下图所示,由于数据没变:同样有61678不同的词,依然会得到一个61678个词向量模型。


训练fast-text

两种模型词向量优劣势的对比

接下来笔者随机找了几个词测试了下两种方式训练的词向量效果如何,model 是 cbow的词向量模型,model1是fasttext的词向量模型。从下方两张图片可以看出,cbow的词向量的语义相似度的判断能力要好于fasttext的词向量。


cbow词向量相似度

fasttest词向量相似度

可是倘若碰到未登录词(OOV),cbow的词向量模型就无法处理这些没有见过的词。


cbow无法处理未登录词

而fasttext可以计算未登录词n-gram词(subword)的词向量的平均值,从而得到未登录词的词向量,最终求得和未登录词比较相似的词。
fasttext可以处理未登录词

结语

这里笔者只是简单的介绍了一下词向量的含义,两种训练词向量的方法,同时对比了一下这两种方法的优劣势。对于词向量的训练技术依然有很多没有介绍到,比如负采样,分层softmax等加速模型训练技术,还有对于高频词的下采样技术。这里笔者在参考文献放了一些博客供你学习,当然这些技术gensim都封装好了,你只需调用就可以啦。

参考文献:

https://blog.csdn.net/sinat_26917383/article/details/83041424
http://mccormickml.com/tutorials/

你可能感兴趣的:(Word2Vec ——gensim实战教程)