AI产品经理技术篇:从传统AI到生成式AI,解密大模型的核心概念

 在人工智能技术飞速发展的今天,AI产品经理不仅需要理解业务逻辑,还需深入技术底层,把握从传统AI到生成式AI的演进脉络。传统AI以分类、预测和规则驱动为核心,而生成式AI则颠覆了这一范式,通过大模型实现内容创作、对话生成等创造性任务。这种转变背后,是参数规模、模型架构和训练方式的根本性革新。

作为AI产品经理,理解大模型的核心概念至关重要。从“参数”的意义到“Token”的向量化,从Transformer的上下文理解到模型如何生成下一个Token,每一个环节都直接影响产品的设计逻辑和用户体验。本文将解析这些关键技术概念,帮助产品经理在技术浪潮中找准方向,打造更具竞争力的AI产品。

目录

1 生成式AI与传统AI的差异

2 什么是参数

2.1 参数分类

2.2 参数:大模型 vs 非大模型

2.3 大模型的模型参数

3 Token与Embedding向量化

4 Transformer和上下文

5 大模型如何生成下一个Token 


1 生成式AI与传统AI的差异

生成式AI是指能够生成新内容的人工智能模型,如文本、图像、音频等。与传统的判别式AI(如分类模型)不同,生成式AI不仅能够理解输入数据,还能基于学习到的模式生成新的数据。这种能力使得生成式AI在自然语言处理、图像生成和音乐创作等领域展现出巨大的潜力。

传统AI:判别式模型的任务与局限

传统AI通常依赖于规则和逻辑推理,使用明确的算法和模型来解决特定问题。它基于已有数据,学习输入(X)到输出(Y)的映射。其局限性在于只能处理已有模式,无法生成新内容。

生成式AI:创造新内容的核心能力

生成式AI通过学习数据的分布规律,能够生成新的、合理的内容。它不仅识别模式,还能模拟数据分布,创造性地生成与训练数据相似但不完全相同的输出(如续写文章、生成代码)。典型应用包括ChatGPT对话、Midjourney绘图、代码补全(GitHub Copilot)等。

对比维度

传统AI(判别式)

生成式AI

核心任务

用于特定任务的解决,分类、预测、判断(如垃圾邮件的识别)

创造新内容(文本/图像生成)

数据关系

基于已有数据建立输入-输出的映射

学习数据分布并生成符合分布的新样本

学习方式

包括监督学习和无监督学习

主要通过无监督学习和自监督学习进行训练

典型应用

推荐系统、图像分类

内容创作、对话系统、代码生成

可解释性

通常较高(规则或概率明确)

较低(黑箱生成过程)

数据敏感性

对数据质量要求高,噪声敏感

依赖数据规模,需多样性避免生成偏差

示例模型

决策树、支持向量机(SVM)、传统神经网络

Transformer、GAN、VAE等

关键差异总结:

传统AI通常关注于 y = f(x) 的确定性映射,这种方法强调的是对已知数据的学习和预测,目标是优化决策效率

生成式AI关注于分布建模,即通过学习数据的分布 P(x_{new}) 来生成新样本,这种方法不仅仅是预测结果,而是追求内容的创新和多变性。

例如:传统AI可以将一张图片分类为猫或狗,而生成式AI可以生成一张新的猫或狗的图像。

2 什么是参数

2.1 参数分类

参数类型

定义

常见参数

模型参数

通过训练数据自动学习的内在参数,直接影响模型输出

神经网络的权重W、偏置b

超参数

人工预设的训练控制参数,决定模型的学习过程

学习率、正则化系数

生成控制参数

推理阶段调节生成内容特性的参数(仅生成式模型特有)

top-K、重复惩罚系数

大模型中,模型参数(权重&偏置)是核心,原因:

1)直接编码知识表示(参数规模可达千亿级别)

2)决定模型推理能力和任务表现

3)占据存储/计算资源的主体(例如GPT-3的175B参数,此处的175B参数指的是模型参数)

超参数及生成控制参数具体内容请见:产品经理技术篇:必知的模型参数&调优

2.2 参数:大模型 vs 非大模型

参数占比对比

参数占比

大模型(如GPT、DeepSeek)

大模型(如线性回归、小型神经网络

模型参数占比

极高(>99.9%)

量级通常在亿级以上,模型参数主导(如Qwen-72B)。

较高(70%-95%)

千级以下,模型参数仍占多数但相对可控;

例如,线性回归的权重W和偏置b占主导,但参数量级较小(可能仅几千)。

超参数占比

极低(0.01%~0.1%)

训练流程固定,超参数调优空间小;学习率等超参数数量固定且较少(通常几十个)。

相对重要(5%~30%)

超参数调优对性能影响显著,例如SVM的核函数选择、决策树的深度等。

生成控制参数

少量,关键推理时需通过调节T、top-K等参数控制生成质量,但参数本身不参与训练

仅生成式小模型具备,传统判别模型无此类参数

模型参数占比分析:

1. Transformer架构:当前的GPT、Qwen、DeepSeek等系列LLM模型基于Transformer架构,参数集中在自注意力层和前馈网络层,模型参数随层数、维度指数增长。

2. 超参数固化:学习率等超参数数量固定,不随模型规模增加而显著变化。

3. 参数规模庞大:当前的GPT、Qwen、DeepSeek等系列LLM模型均为百亿至千亿级参数的大模型,权重矩阵占据绝对主导。

ps:DeepSeek-MoE-16B混合专家模型,模型参数仍占99.9%,超参数控制专家路由权重。虽引入MoE(混合专家),模型参数总量增加,但单设备激活参数有限,不影响整体占比。

结论:无论模型规模大小,模型参数占比始终最高

大模型因参数量极大,其训练和推理的复杂度呈指数级增长,这种设计是为了最大化模型容量,同时通过自动化训练(如学习率自适应)和标准化接口(如固定T的范围),降低人工调参成本。

  • 模型参数>99.9%,决定模型的核心能力。
  • 超参数与生成控制参数<0.1%,仅优化训练流程或调节生成结果。 

非大模型的模型参数与超参数占比不固定,会根据具体任务、数据集和模型复杂性产生变化,更依赖超参数调优和结构设计(如特征工程)。

  • 例如线性回归:模型参数(W,b)占比80%,超参数(学习率等)占比20%
  • 例如决策树:模型参数(分裂特征、阈值)占70%,超参数(最大深度)占30%。
  • 如上例子中的比例也需依据实际任务来进行调整.

2.3 大模型的模型参数

参数是模型内部的权重和偏置,数量越多,模型的表达能力越强,但也可能导致过拟合。

权重(Weights)——食材的配比

  • 权重是连接神经网络中两个节点的参数,控制输入特征对输出的影响程度。例如,在矩阵乘法 y = Wx + b 中,W 就是权重矩阵。
  • 做菜类比:权重相当于食谱中每种食材的用量比例。  
    • 例如:做一道鱼香肉丝,权重决定「肉丝:笋丝:木耳 = 5:3:2」的配比。 
  • 为什么重要?
    • 权重过大(如盐放太多)会掩盖其他味道(过拟合);
    • 权重过小(如糖太少)则风味不足(欠拟合)。

偏置(Biases)——调味料的基准值

  • 偏置是加到神经元输出上的常数项,用于调整模型的灵活性。例如公式 y = Wx + b 中的 b。
  • 做菜类比:偏置相当于菜品的默认口味基线,比如「基础咸度」或「默认辣度」。  
    • 例如:即使不放辣椒(输入为0),宫保鸡丁也有微甜味(偏置保证输出不为零)。  
  •   为什么重要?没有偏置(如完全不放盐),菜品可能寡淡无味(模型无法拟合简单模式)。

结合做菜的全流程类比
假设要训练一个「学会做鱼香肉丝」的模型:

  1. 输入数据(x):食材(肉、笋、木耳、调料等)。  
  2. 权重(W):每种食材的用量比例(肉丝50g,笋30g…)。  
  3. 偏置(b):默认口味(必加1勺酱油提鲜)。  
  4. 输出(y):最终的鱼香肉丝。  
  5. 损失函数:食客的评价(太甜/太咸→反向传播调整配方)。  
  • 过拟合:就像死板照搬食谱,无法适应新食材(测试数据)。  
  • 正则化:限制调料用量(权重衰减),防止味道过重(过拟合)。  
  • 注意力机制:动态调整配比(如炒菜时临时多放辣椒)。

训练过程  

  • 初期:随机分配权重和偏置(乱放调料,难吃)。  
  • 训练中:根据食客反馈(损失函数)逐步调整配比(梯度下降)。  
  • 最终:找到最佳权重和偏置(完美配方)。

权重与偏置的角色

权重的角色:决定不同特征(食材)的相对重要性。例如,GPT-3中某些权重会让「猫」和「动物」的关联更强。  
偏置的角色:提供基础偏移量。例如,即使输入为0(无文字),模型也可能输出一个默认概率分布。

3 Token与Embedding向量化

Token:

  • Token是文本的基本单位,可以是单词、子词或字符。在处理自然语言时,文本首先被分解为Token,以便模型能够理解和处理。
  • 将文本分解成这些单位的过程称为Tokenization。例如。句子“我爱学习”可以被分解为三个Token:[“我”,“爱”,“学习”]。Token化的目的是将文本转换为计算机可以处理的格式。

向量:

  • 在NLP中,每一个Token通常对应着一个向量。这个向量用一组数字来表示,用于表示Token的特征和语义信息。
  • 将单词、句子、用户ID、商品等转换为固定长度的数字向量(例如 [0.2,-0.5,1.3,...])。

    • 例如,"猫" → [0.7,0.2], "狗" → [0.6,0.3](二维简化示例)。

Embedding:

  • Embedding是将Token转换为向量的过程,即将离散数据(如文字、图像、类别等)转换为连续向量的技术。它通过将高维、稀疏的原始数据映射到低维、稠密的向量空间,同时保留关键信息,从而方便机器学习模型进行计算和学习。
  • 每个Token被映射到一个向量空间中的稠密向量,这种向量化表示保留了Token之间的语义关系,使得模型能够更好地理解文本的含义。
  • 保留语义关系:语义相似的实体在向量空间中距离更近。
    • 比如,有三个Token:"猫" → [0.7,0.1,0.1], "狗" → [0.8,0.2,0.1], "汽车" → [0.1,0.9,0.3]。“猫”和“狗”的向量比较近,表面它们在语义上有相似性;而“汽车”的向量与它们相距较远,表明它与动物的语义关系较弱。

为什么需要Embedding?

  1. 解决稀疏性:One-Hot编码效率低下,Embedding更紧凑。

  2. 捕捉隐藏关系:向量空间中的几何关系(如加减)反映现实语义。

  3. 适配模型需求:深度学习等模型需要连续数值输入。

4 Transformer和上下文

在NLP领域,传统的模型(如RNN、LSTM)存在着记性太差的缺陷。  

  • RNN的问题:像金鱼一样,只能记住前面几个词,长文本就懵了。  
  • LSTM的改进:记忆稍强,但计算慢,仍然难以捕捉长距离依赖。  

于是,2017年,Google的论文《Attention is All You Need》提出了Transformer,彻底改变了NLP的游戏规则。它的核心思想是:不要逐词计算,而是让模型学会"注意力",直接关注最重要的信息

原论文:[1706.03762] Attention Is All You Need

Transformer的核心:自注意力机制(Self-Attention)

1)什么是自注意力?
想象在读一本小说,读到"他拿起苹果咬了一口"时,大脑会:  

  1. 自动关联:"苹果"可能指水果,而不是公司(除非上下文在聊iPhone)。  
  2. 动态调整重点:如果前文提到"水果摊",那"苹果"大概率是水果。  

Transformer的自注意力机制,就是让AI模拟这个过程!  

2)自注意力的计算过程
Transformer通过三个关键矩阵计算注意力:  

  1. Query(Q):当前词在问:"我应该关注谁?"  
  2. Key(K):其他词回答:"我和你的相关性有多高?"  
  3. Value(V):最终贡献的信息。  

计算步骤:  

  1. 计算Q和K的相似度(点积),得到注意力分数。  
  2. 用Softmax归一化,得到权重(哪些词更重要)。  
  3. 用权重加权求和V,得到最终表示。  
  • 数学公式:  {Attention}(Q, K, V) = {Softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

3)多头注意力(Multi-Head Attention)
单一注意力可能不够:就像人会用"视觉、听觉、触觉"多角度理解世界。  
Transformer的做法:  使用多组Q/K/V矩阵(比如8个头),让模型从不同角度学习上下文关系,最后拼接结果。  

Transformer如何理解上下文? 

1)位置编码(Positional Encoding)
RNN/LSTM 是按顺序处理词的,但Transformer是并行计算,所以需要额外告诉模型"词的顺序"。  

  • 方法:给每个词嵌入(Embedding)加上一个位置信号(如正弦/余弦函数)。  
  • 效果: "猫 追 狗" ≠ "狗 追 猫"(模型能区分顺序)。  

2)层叠的Transformer Block
Transformer由多个相同的层堆叠而成,每一层都包含:  

  1. 自注意力层(捕捉词间关系)。  
  2. 前馈神经网络(进一步处理信息)。  
  3. 残差连接 & LayerNorm(稳定训练)。  

3)深层模型的作用

  • 浅层:学习局部语法(如"苹果"是名词)。  
  • 深层:理解全局语义(如"苹果"指公司还是水果)。  

为什么Transformer适合长文本?

1)并行计算,效率极高 

  • RNN/LSTM 必须逐词计算,速度慢。  
  • Transformer 可同时处理所有词(适合GPU加速)。  

2)长距离依赖不再困难

  • 传统RNN:信息传递会衰减(如第1个词很难影响第100个词)。  
  • Transformer:自注意力可直接关联任意两个词(如"开头的主语"直接影响"结尾的谓语")。  

Transformer的魔法  

  1. 自注意力:让模型动态关注重要信息。  
  2. 并行计算:比RNN/LSTM快得多。  
  3. 位置编码:解决词序问题。  
  4. 深层堆叠:逐步理解复杂语义。  

Transformer让AI真正学会了"联系上下文",而不是像金鱼一样健忘! 

5 大模型如何生成下一个Token 

AI产品经理技术篇:从传统AI到生成式AI,解密大模型的核心概念_第1张图片

生成下一个Token的流程:

1. 输入处理:将输入文本(如句子)进行Token化,将其分解为Token序列。

2. 上下文编码:使用神经网络(如Transformer)对输入的Token序列进行编码,生成上下文表示。这些表示捕捉了Token之间的关系和语义信息。

3. 预测下一个Token:模型根据上下文表示,计算每个可能Token的概率分布。通常使用Softmax函数将模型的输出转换为概率分布。

4. 选择下一个Token:根据概率分布选择下一个Token。

  • 可以使用不同的策略,如:
  1. 贪婪搜索:选择概率最高的Token。
  2. 随机采样:根据概率分布随机选择Token。
  3. 束搜索:保留多个候选Token,进行更复杂的选择。

5. 更新输入:将新生成的Token添加到输入序列中,形成新的输入,重复上述过程,直到生成结束标志(如达到最大长度或生成特定的结束Token)。

示例:假设要生成一个句子,起始部分是“今天的天气真”。

1. 输入处理:Token化后,输入为[“今天”,“的”,“天气”,“真”]。

2. 上下文编码:模型对这四个Token进行编码,生成上下文表示,捕捉到“今天的天气真”这一短语的语义信息。

3. 预测下一个Token:

模型计算下一个Token的概率分布,假设输出为:

“好”:0.6;  “差”:0.2;  “冷”:0.1;  “热”:0.1

4. 选择下一个Token:使用贪婪搜索,选择概率最高的Token“好”。

5. 更新输入:新的输入序列为[“今天”,“的”,“天气”,“真”,“好”]。

6. 再次预测下一个Token:“啊”:0.7;  “!”:0.5;  “,”:0.2;  “真”:0.1。

7. 选择下一个Token:选择概率最高的Token“啊”。

8. 更新输入:新的输入序列为[“今天”,“的”,“天气”,“真”,“好”,“啊”]。


以下网站为对Transformer的直观解释:

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.

Transformer Explainer: LLM Transformer Model Visually Explained

你可能感兴趣的:(人工智能,产品经理,学习,深度学习,自然语言处理)