【AI大模型】15、从GPT-1到GPT-3:大语言模型核心技术演进与能力涌现全解析

【AI大模型】15、从GPT-1到GPT-3:大语言模型核心技术演进与能力涌现全解析_第1张图片

一、GPT-1:预训练微调范式的奠基者(2018)

(一)架构创新:单向Transformer解码器的诞生

GPT-1首次将Transformer架构应用于语言模型领域,其核心采用12层Transformer解码器,摒弃了传统RNN的递归结构,通过自注意力机制实现并行计算。与Encoder-Decoder架构不同,GPT-1仅使用解码器部分,每个解码器层包含:

  • 多头自注意力模块:8个头,每个头维度64,总隐藏层维度768
  • 前馈神经网络:中间层维度3072,采用GELU激活函数
  • 层归一化:采用Pre-LayerNorm(归一化层位于子层输入前)

其语言建模目标为自回归分布:
P ( w 1 , w 2 , . . . , w n ) = ∏ i = 1 n P ( w i ∣ w 1 , . . . , w i − 1 ) P(w_1, w_2, ..., w_n) = \prod_{i=1}^n P(w_i | w_1, ..., w_{i-1}) P(w1,w2,...,wn)=i=1nP(wiw1,...,wi1)

(二)训练策略:开启预训练+微调时代

  1. 预训练阶段

    • 数据集:BookCorpus(7000本未出版书籍,4.5GB文本)
    • 优化目标:最小化负对数似然损失
      L = − 1 N ∑ i = 1 N log ⁡ P ( w i ∣ w i − k , . . . ,

你可能感兴趣的:(【AI大模型】15、从GPT-1到GPT-3:大语言模型核心技术演进与能力涌现全解析)