happy-llm 第一章 NLP 基础概念

文章目录

  • 一、什么是NLP?
  • 二、NLP发展三大阶段
  • 三、NLP核心任务精要
  • 四、文本表示演进史
      • 1. 传统方法:统计表征
      • 2. 神经网络:语义向量化


课程地址:happy-llm NLP基础概念

一、什么是NLP?

  • 核心目标:让计算机理解、生成、处理人类语言,实现人机自然交互。
  • 现状与挑战
    • 成就:深度学习推动文本分类、翻译等任务达到近人类水平。
    • 瓶颈:歧义性、隐喻理解、跨文化差异等。

二、NLP发展三大阶段

时期 代表技术 核心思想 局限性
1940s-1960s 字典翻译、生成语法理论 基于人工规则 泛化能力差,依赖专家知识
1970s-1990s 符号主义、统计机器翻译 从数据中学习概率规律 忽略上下文语义
2000s至今 Word2Vec、Transformer、BERT、RNN & LSTM 深度学习,端到端学习语言表征 数据/算力需求巨大

三、NLP核心任务精要

  • 中文分词:切分连续汉字序列
  • 子词切分:词汇稀疏的时候可以用于理解未知词,涉及到的方法包括Byte Pair Encoding (BPE)、WordPiece、Unigram、SentencePiece
  • 词性标注:标注单词的词性,可以使用的方法包括基于机器学习的隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(Conditional Random Field,CRF);以及基于深度学习的循环神经网络 RNN 和长短时记忆网络 LSTM 等
  • 文本分类:理解文本的含义和上下文,并将文本映射到特定的类别
  • 实体识别(NER):抽取出人名/地点/时间等具有特定意义的实体及其类别
  • 关系抽取:识别实体间语义关系
  • 文本摘要:抽取式摘要 & 生成式摘要
  • 机器翻译:跨语言语义转换,可以使用基于神经网络的Seq2Seq模型
  • 自动问答:检索式问答(搜索引擎),知识库问答(结构化知识库),社区问答(用户生成的问答数据)

四、文本表示演进史

核心目标:离散符号→连续向量

1. 传统方法:统计表征

方法 核心思想 典型缺陷
One-Hot 词=维度坐标 维度灾难(万维稀疏向量)
TF-IDF 词频加权突出关键词 忽略语义关联
N-gram 词序列概率统计 数据稀疏 & 忽略词之间的依赖关系

2. 神经网络:语义向量化

模型 关键技术 突破性贡献 核心局限
Word2Vec ▶️ CBOW:根据目标词上下文中的词向量计算目标词的向量表示,适用于小数据集
▶️ Skip-Gram模型:利用目标词的向量表示计算上下文中的词向量适用于大型语料
生成低维密集向量
可以进行向量运算
静态编码,忽略词语的多义性
缺乏词语之间的关系
ELMo ▶️ 双向LSTM
▶️ 预训练+微调范式
动态词向量,能够捕捉到词汇的多义性和上下文信息 RNN训练慢
长距离依赖捕捉弱
Bert ▶️ Transformer架构:使用自注意力机制
▶️ 掩码语言模型
双向语境建模
自注意力机制实现全局感知
参数量过大导致训练成本高

你可能感兴趣的:(自然语言处理,人工智能,学习)