在人工智能技术飞速发展的今天,AI产品经理不仅需要理解业务逻辑,还需深入技术底层,把握从传统AI到生成式AI的演进脉络。传统AI以分类、预测和规则驱动为核心,而生成式AI则颠覆了这一范式,通过大模型实现内容创作、对话生成等创造性任务。这种转变背后,是参数规模、模型架构和训练方式的根本性革新。
作为AI产品经理,理解大模型的核心概念至关重要。从“参数”的意义到“Token”的向量化,从Transformer的上下文理解到模型如何生成下一个Token,每一个环节都直接影响产品的设计逻辑和用户体验。本文将解析这些关键技术概念,帮助产品经理在技术浪潮中找准方向,打造更具竞争力的AI产品。
目录
1 生成式AI与传统AI的差异
2 什么是参数
2.1 参数分类
2.2 参数:大模型 vs 非大模型
2.3 大模型的模型参数
3 Token与Embedding向量化
4 Transformer和上下文
5 大模型如何生成下一个Token
生成式AI是指能够生成新内容的人工智能模型,如文本、图像、音频等。与传统的判别式AI(如分类模型)不同,生成式AI不仅能够理解输入数据,还能基于学习到的模式生成新的数据。这种能力使得生成式AI在自然语言处理、图像生成和音乐创作等领域展现出巨大的潜力。
传统AI:判别式模型的任务与局限
传统AI通常依赖于规则和逻辑推理,使用明确的算法和模型来解决特定问题。它基于已有数据,学习输入(X)到输出(Y)的映射。其局限性在于只能处理已有模式,无法生成新内容。
生成式AI:创造新内容的核心能力
生成式AI通过学习数据的分布规律,能够生成新的、合理的内容。它不仅识别模式,还能模拟数据分布,创造性地生成与训练数据相似但不完全相同的输出(如续写文章、生成代码)。典型应用包括ChatGPT对话、Midjourney绘图、代码补全(GitHub Copilot)等。
对比维度 |
传统AI(判别式) |
生成式AI |
核心任务 |
用于特定任务的解决,分类、预测、判断(如垃圾邮件的识别) |
创造新内容(文本/图像生成) |
数据关系 |
基于已有数据建立输入-输出的映射 |
学习数据分布并生成符合分布的新样本 |
学习方式 |
包括监督学习和无监督学习 |
主要通过无监督学习和自监督学习进行训练 |
典型应用 |
推荐系统、图像分类 |
内容创作、对话系统、代码生成 |
可解释性 |
通常较高(规则或概率明确) |
较低(黑箱生成过程) |
数据敏感性 |
对数据质量要求高,噪声敏感 |
依赖数据规模,需多样性避免生成偏差 |
示例模型 |
决策树、支持向量机(SVM)、传统神经网络 |
Transformer、GAN、VAE等 |
关键差异总结:
传统AI通常关注于 的确定性映射,这种方法强调的是对已知数据的学习和预测,目标是优化决策效率。
生成式AI关注于分布建模,即通过学习数据的分布 来生成新样本,这种方法不仅仅是预测结果,而是追求内容的创新和多变性。
例如:传统AI可以将一张图片分类为猫或狗,而生成式AI可以生成一张新的猫或狗的图像。
参数类型 |
定义 |
常见参数 |
模型参数 |
通过训练数据自动学习的内在参数,直接影响模型输出 |
神经网络的权重W、偏置b |
超参数 |
人工预设的训练控制参数,决定模型的学习过程 |
学习率、正则化系数 |
生成控制参数 |
推理阶段调节生成内容特性的参数(仅生成式模型特有) |
top-K、重复惩罚系数 |
大模型中,模型参数(权重&偏置)是核心,原因:
1)直接编码知识表示(参数规模可达千亿级别)
2)决定模型推理能力和任务表现
3)占据存储/计算资源的主体(例如GPT-3的175B参数,此处的175B参数指的是模型参数)
超参数及生成控制参数具体内容请见:产品经理技术篇:必知的模型参数&调优
参数占比对比
参数占比 |
大模型(如GPT、DeepSeek) |
非大模型(如线性回归、小型神经网络) |
模型参数占比 |
极高(>99.9%) 量级通常在亿级以上,模型参数主导(如Qwen-72B)。 |
较高(70%-95%) 千级以下,模型参数仍占多数但相对可控; 例如,线性回归的权重W和偏置b占主导,但参数量级较小(可能仅几千)。 |
超参数占比 |
极低(0.01%~0.1%) 训练流程固定,超参数调优空间小;学习率等超参数数量固定且较少(通常几十个)。 |
相对重要(5%~30%) 超参数调优对性能影响显著,例如SVM的核函数选择、决策树的深度等。 |
生成控制参数 |
少量,关键推理时需通过调节T、top-K等参数控制生成质量,但参数本身不参与训练 |
仅生成式小模型具备,传统判别模型无此类参数 |
模型参数占比分析:
1. Transformer架构:当前的GPT、Qwen、DeepSeek等系列LLM模型基于Transformer架构,参数集中在自注意力层和前馈网络层,模型参数随层数、维度指数增长。
2. 超参数固化:学习率等超参数数量固定,不随模型规模增加而显著变化。
3. 参数规模庞大:当前的GPT、Qwen、DeepSeek等系列LLM模型均为百亿至千亿级参数的大模型,权重矩阵占据绝对主导。
ps:DeepSeek-MoE-16B混合专家模型,模型参数仍占99.9%,超参数控制专家路由权重。虽引入MoE(混合专家),模型参数总量增加,但单设备激活参数有限,不影响整体占比。
结论:无论模型规模大小,模型参数占比始终最高。
大模型因参数量极大,其训练和推理的复杂度呈指数级增长,这种设计是为了最大化模型容量,同时通过自动化训练(如学习率自适应)和标准化接口(如固定T的范围),降低人工调参成本。
非大模型的模型参数与超参数占比不固定,会根据具体任务、数据集和模型复杂性产生变化,更依赖超参数调优和结构设计(如特征工程)。
参数是模型内部的权重和偏置,数量越多,模型的表达能力越强,但也可能导致过拟合。
权重(Weights)——食材的配比
偏置(Biases)——调味料的基准值
结合做菜的全流程类比
假设要训练一个「学会做鱼香肉丝」的模型:
训练过程
权重与偏置的角色
权重的角色:决定不同特征(食材)的相对重要性。例如,GPT-3中某些权重会让「猫」和「动物」的关联更强。
偏置的角色:提供基础偏移量。例如,即使输入为0(无文字),模型也可能输出一个默认概率分布。
Token:
向量:
将单词、句子、用户ID、商品等转换为固定长度的数字向量(例如 [0.2,-0.5,1.3,...])。
例如,"猫" → [0.7,0.2], "狗" → [0.6,0.3](二维简化示例)。
Embedding:
比如,有三个Token:"猫" → [0.7,0.1,0.1], "狗" → [0.8,0.2,0.1], "汽车" → [0.1,0.9,0.3]。“猫”和“狗”的向量比较近,表面它们在语义上有相似性;而“汽车”的向量与它们相距较远,表明它与动物的语义关系较弱。
为什么需要Embedding?
解决稀疏性:One-Hot编码效率低下,Embedding更紧凑。
捕捉隐藏关系:向量空间中的几何关系(如加减)反映现实语义。
适配模型需求:深度学习等模型需要连续数值输入。
在NLP领域,传统的模型(如RNN、LSTM)存在着记性太差的缺陷。
于是,2017年,Google的论文《Attention is All You Need》提出了Transformer,彻底改变了NLP的游戏规则。它的核心思想是:不要逐词计算,而是让模型学会"注意力",直接关注最重要的信息!
原论文:[1706.03762] Attention Is All You Need
Transformer的核心:自注意力机制(Self-Attention)
1)什么是自注意力?
想象在读一本小说,读到"他拿起苹果咬了一口"时,大脑会:
Transformer的自注意力机制,就是让AI模拟这个过程!
2)自注意力的计算过程
Transformer通过三个关键矩阵计算注意力:
计算步骤:
3)多头注意力(Multi-Head Attention)
单一注意力可能不够:就像人会用"视觉、听觉、触觉"多角度理解世界。
Transformer的做法: 使用多组Q/K/V矩阵(比如8个头),让模型从不同角度学习上下文关系,最后拼接结果。
Transformer如何理解上下文?
1)位置编码(Positional Encoding)
RNN/LSTM 是按顺序处理词的,但Transformer是并行计算,所以需要额外告诉模型"词的顺序"。
2)层叠的Transformer Block
Transformer由多个相同的层堆叠而成,每一层都包含:
3)深层模型的作用
为什么Transformer适合长文本?
1)并行计算,效率极高
2)长距离依赖不再困难
Transformer的魔法
Transformer让AI真正学会了"联系上下文",而不是像金鱼一样健忘!
生成下一个Token的流程:
1. 输入处理:将输入文本(如句子)进行Token化,将其分解为Token序列。
2. 上下文编码:使用神经网络(如Transformer)对输入的Token序列进行编码,生成上下文表示。这些表示捕捉了Token之间的关系和语义信息。
3. 预测下一个Token:模型根据上下文表示,计算每个可能Token的概率分布。通常使用Softmax函数将模型的输出转换为概率分布。
4. 选择下一个Token:根据概率分布选择下一个Token。
5. 更新输入:将新生成的Token添加到输入序列中,形成新的输入,重复上述过程,直到生成结束标志(如达到最大长度或生成特定的结束Token)。
示例:假设要生成一个句子,起始部分是“今天的天气真”。
1. 输入处理:Token化后,输入为[“今天”,“的”,“天气”,“真”]。
2. 上下文编码:模型对这四个Token进行编码,生成上下文表示,捕捉到“今天的天气真”这一短语的语义信息。
3. 预测下一个Token:
模型计算下一个Token的概率分布,假设输出为:
“好”:0.6; “差”:0.2; “冷”:0.1; “热”:0.1
4. 选择下一个Token:使用贪婪搜索,选择概率最高的Token“好”。
5. 更新输入:新的输入序列为[“今天”,“的”,“天气”,“真”,“好”]。
6. 再次预测下一个Token:“啊”:0.7; “!”:0.5; “,”:0.2; “真”:0.1。
7. 选择下一个Token:选择概率最高的Token“啊”。
8. 更新输入:新的输入序列为[“今天”,“的”,“天气”,“真”,“好”,“啊”]。
以下网站为对Transformer的直观解释:
The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.
Transformer Explainer: LLM Transformer Model Visually Explained