课程地址:happy-llm NLP基础概念
时期 | 代表技术 | 核心思想 | 局限性 |
---|---|---|---|
1940s-1960s | 字典翻译、生成语法理论 | 基于人工规则 | 泛化能力差,依赖专家知识 |
1970s-1990s | 符号主义、统计机器翻译 | 从数据中学习概率规律 | 忽略上下文语义 |
2000s至今 | Word2Vec、Transformer、BERT、RNN & LSTM | 深度学习,端到端学习语言表征 | 数据/算力需求巨大 |
核心目标:离散符号→连续向量
方法 | 核心思想 | 典型缺陷 |
---|---|---|
One-Hot | 词=维度坐标 | 维度灾难(万维稀疏向量) |
TF-IDF | 词频加权突出关键词 | 忽略语义关联 |
N-gram | 词序列概率统计 | 数据稀疏 & 忽略词之间的依赖关系 |
模型 | 关键技术 | 突破性贡献 | 核心局限 |
---|---|---|---|
Word2Vec | ▶️ CBOW:根据目标词上下文中的词向量计算目标词的向量表示,适用于小数据集 ▶️ Skip-Gram模型:利用目标词的向量表示计算上下文中的词向量适用于大型语料 |
生成低维密集向量 可以进行向量运算 |
静态编码,忽略词语的多义性 缺乏词语之间的关系 |
ELMo | ▶️ 双向LSTM ▶️ 预训练+微调范式 |
动态词向量,能够捕捉到词汇的多义性和上下文信息 | RNN训练慢 长距离依赖捕捉弱 |
Bert | ▶️ Transformer架构:使用自注意力机制 ▶️ 掩码语言模型 |
双向语境建模 自注意力机制实现全局感知 |
参数量过大导致训练成本高 |