NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】

NLP-词向量-发展:

  • 词袋模型【onehot、tf-idf】
  • 主题模型【LSA、LDA】
  • 基于词向量的静态表征【Word2vec、GloVe、FastText】
  • 基于词向量的动态表征【Bert】

一、词袋模型(Bag-Of-Words)

1、One-Hot

词向量的维数为整个词汇表的长度,对于每个词,将其对应词汇表中的位置置为1,其余维度都置为0。

缺点是:

  • 维度非常高,编码过于稀疏,易出现维数灾难问题;
  • 不能体现词与词之间的相似性,每个词都是孤立的,泛化能力差。

NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】_第1张图片

2、tf-idf

NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】_第2张图片

二、主题模型

缺点:在词对推理任务上表现特别差;可解释性差;

1、LSA(SVD)

1.1 “term-document” type

NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】_第3张图片

1.2 “term-term” type

词共现矩阵

  1. I enjoy flying。
  2. I like NLP。
  3. I like deep learning。
    在这里插入图片描述
    缺点:在词对推理任务上表现特别差;可解释性差;

2、pLSA

3、LDA

三、基于词向量的固定表征

神经网络将词汇表中的词作为输入,输出一个低维的向量表示,然后使用反向传播优化参数。

生成词向量的神经网络模型分为两种:

  • 一种的目的是训练可以表示语义关系的词向量,能被用于后续任务中,如word2vec、glove;
  • 另一种是将词向量作为副产品产生,根据特定任务需要训练得到词向量,如fastText。

1、word2vec

Word2Vec:其输出是单词同时出现的概率分布(共现概率分布)

2、glove

GLove:相比单词同时出现的概率(共现概率分布),单词同时出现的概率的比率能够更好地区分单词。

  • 比如,假设我们要表示“冰”和“蒸汽”这两个单词。对于和“冰”相关,和“蒸汽”无关的单词,比如“固体”,我们可以期望P冰-固体/P蒸汽-固体较大。类似地,对于和“冰”无关,和“蒸汽”相关的单词,比如“气体”,我们可以期望P冰-气体/P蒸汽-气体较小。相反,对于像“水”之类同时和“冰”、“蒸汽”相关的单词,以及“时尚”之类同时和“冰”、“蒸汽”无关的单词,我们可以期望P冰-水/P蒸汽-水、P冰-时尚/P蒸汽-时尚应当接近于1。

官方glove: https://github.com/stanfordnlp/GloVe,C实现

Python 实现: https://github.com/maciejkula/glove-python

安装
pip install glove_python

NLP-词向量-发展:词袋模型【onehot、tf-idf】 -> 主题模型【LSA、LDA】 -> 词向量静态表征【Word2vec、GloVe、FastText】 -> 词向量动态表征【Bert】_第4张图片

3、fastText

四、基于词向量的动态表征

特征提取器:

  • elmo采用LSTM进行提取;
  • GPT和bert则采用Transformer进行提取;
  • 很多任务表明Transformer特征提取能力强于LSTM,elmo采用1层静态向量+2层LSTM,多层提取能力有限,而GPT和bert中的Transformer可采用多层,并行计算能力强

单/双向语言模型:

  • GPT采用单向语言模型,ELMo和BERT采用双向语言模型
  • GPT和BERT都采用Transformer,Transformer是Encoder-Decoder结构,GPT的单向语言模型采用Decoder结构,Decoder的部分见到的都是不完整的句子;BERT的双向语言模型则采用Encoder部分,能够看到完整句子

1、elmo

2、GPT

3、Bert

五、各种词向量的特点

  • One-hot
    • 维度灾难、语义鸿沟
  • 矩阵分解 (LSA)
    • 利用全局语料特征,但SVD求解计算复杂度大;
  • 分布式表示 (distributed representation)
    • 基于分布式假设 – 相同上下文语境的词有似含义
    • 基于NNLM/RNNLM的词向量:词向量为副产物,存在效率不高等问题;
    • word2vec、fastText:优化效率高,但是基于局部语料;
    • glove:基于全局预料,结合了LSA和word2vec的优点;
    • elmo、GPT、bert:动态特征,可以解决一词多义的问题。

你可能感兴趣的:(#,NLP/词向量_预训练模型,word2vec,bert,自然语言处理)