1. 向量语义(Vector Semantics)与词嵌入(Word Embeddings)
向量语义的核心思想是用数学向量来表示单词的意义。传统的 NLP 方法(如基于规则的语言模型)需要人为定义单词的语义规则,而向量语义方法则通过分析单词在大量文本中的使用模式来学习其语义。
关键词:
- 词向量(Word Representations):单词被表示为一个多维向量,每个维度对应于该单词的某种语义特征。
- 分布式表示(Distributed Representations):单词的意义被分布在多个维度上,而不是由单独的维度决定。
- 静态嵌入(Static Embeddings) vs. 动态嵌入(Dynamic Embeddings):
- 静态嵌入(如 Word2Vec, GloVe):每个单词的向量固定,不随上下文变化。
- 动态嵌入(如 BERT, GPT):单词的向量会根据上下文调整,以捕捉多重语义。
2. 为什么使用词嵌入?
词嵌入比传统的**独热编码(one-hot encoding)**更高效:
- 维度更低:one-hot 编码的词向量维度等于词汇表大小,而词嵌入通常是 50-300 维。
- 捕捉语义相似性:相似的单词(如 king 和 queen)在向量空间中距离较近。
- 可进行数学运算:如 king - man + woman ≈ queen,说明向量表示学习到了性别这一维度的信息。
3. 表征学习(Representation Learning)
表征学习的核心目标是让模型自动学习输入数据的有效表示,而不是依赖手工特征工程。这是一种**自监督学习(Self-Supervised Learning)**方法,它不需要人工标注数据,而是从原始数据中自动学习模式。
为什么表征学习重要?
在 NLP 任务中,传统的**特征工程(Feature Engineering)**通常需要手工设计特征,例如:
然而,这种方法存在局限性:
- 需要专家知识:不同的语言和领域需要不同的特征,特征工程难以泛化。
- 特征选择受限:人为设计的特征可能遗漏了一些潜在的语义关系。
表征学习的优点在于:
✅ 自动学习特征:模型可以从大规模数据中自动发现有效特征,无需人为设计。
✅ 泛化能力强:学习到的词嵌入可以应用于不同任务(如翻译、情感分析)。
✅ 适用于深度学习:现代 NLP 方法(如 BERT)依赖深度学习,而深度学习需要良好的数据表征。
4. 静态嵌入 vs. 动态嵌入
类型 |
特点 |
例子 |
静态嵌入(Static Embeddings) |
词向量固定,不随上下文变化 |
Word2Vec, GloVe |
动态嵌入(Dynamic Embeddings) |
词向量根据上下文变化,能区分多重语义 |
BERT, GPT |
静态嵌入的局限性
- 不能处理一词多义(如 bank 可以是“银行”或“河岸”)。
- 无法利用句子上下文信息,导致语义理解受限。
动态嵌入的优势
- 能够根据上下文调整语义,例如:
- He deposited money in the bank.(bank = 银行)
- He sat on the bank of the river.(bank = 河岸)
- 适用于更复杂的 NLP 任务,如机器翻译、阅读理解等。
5. 词向量如何学习?(自监督学习)
自监督学习通过从无标注数据中自动学习特征表示。以下是两种典型方法:
(1) CBOW & Skip-gram(Word2Vec 训练方式)
Word2Vec 通过**上下文预测目标词(CBOW)或用目标词预测上下文(Skip-gram)**来学习词向量:
- CBOW(Continuous Bag-of-Words):
- 例子:给定上下文 [The cat is ___ the mat],模型预测缺失单词 on。
- Skip-gram:
- 例子:给定单词 cat,模型预测它可能出现在 [The ___ is on the mat] 之类的上下文中。
(2) BERT(双向 Transformer)
- Masked Language Model(MLM):
- 例子:句子 The cat sat on the [MASK].,BERT 学习预测 mat。
- Next Sentence Prediction(NSP):
- 例子:BERT 通过判断两句话是否相关来学习句子关系。
6. 总结
✅ 向量语义:单词的意义可以用向量表示,并通过上下文分布学习。
✅ 词嵌入:让单词的表示更加紧凑,同时能捕捉语义关系。
✅ 表征学习:自动学习特征,不再依赖手工特征工程。
✅ 静态 vs. 动态嵌入:静态嵌入(如 Word2Vec)固定,而动态嵌入(如 BERT)能随上下文变化。
✅ 自监督学习:利用大规模无标注文本训练高效的 NLP 模型,如 Word2Vec 和 BERT。
记忆口诀:
- “词义在上下文,嵌入可学习”(分布式假设)。
- “静态死板,动态灵活”(静态 vs. 动态嵌入)。
- “自动学习特征,省去手工标注”(表征学习)。