想象一下,如果你能在 Excel 表格里亲眼看到大语言模型的运行过程,是不是会更容易理解这些神秘的“AI 模型”到底在做什么?
今天我们要介绍的就是这样一个令人震撼的项目:
项目名称:Spreadsheets are all you need
项目地址:点此下载 Excel 文件(v0.7.0)
功能:这个 Excel 表格里实现了 GPT‑2 的“下一个词预测”功能,完整重现大语言模型的计算流程。
这个 Excel 文件是目前互联网上最具“教学价值”的大语言模型工具之一。
它不需要写一行代码,也不需要联网,只用 Excel 表格里的公式,就能让你理解以下问题:
.xlsb
)访问 GitHub 官方项目:
点击进入下载页面
在页面下方点击:
GPT2-spreadsheets-are-all-you-need.v0.7.0.xlsb
文件大小约 1.2 GB(因为它包含了 GPT-2 Tiny 模型的全部参数)。
Mike is quick. He moves
Excel 会自动运行模型,预测接下来的一个词!
简而言之:
大语言模型是一种通过大量语料学习“说话规律”的 AI 模型。
它的目标是:预测一句话中最有可能出现的下一个词。
例如:
你输入:“我今天想吃”
它可能预测出:“火锅”“面条”“外卖”等词,选择最可能的一个。
我们来看看 Excel 中具体都做了什么:
第一步,模型会把你输入的句子:
Mike is quick. He moves
拆分为一个个 token(词元),比如:
每个 token 会被转换为一个 ID,比如 “Mike” → 13242,类似我们给每个单词贴上数字标签。
每个 token ID 会被转换成一个高维向量,比如:
[0.12, -0.33, 0.89, ...]
这些向量就是模型“理解”语言的方式,它用一串数字来代表一个词的意思。
在 Excel 中,这一步由
INDEX()
函数从一个巨大的嵌入矩阵中取出。
模型并不天然知道词语的“顺序”。所以我们需要告诉它,“Mike” 是第一个词,“is” 是第二个词……
这就是 位置编码 的作用,它通过一些数学公式(如 SIN
, COS
)生成数字并加到词向量上。
这是 Transformer 的核心。它会让每个词 “注意” 其他词,判断哪些词对当前词更重要。
例如:
SUMPRODUCT
, EXP
, SUM
等公式来实现这个过程。最终的结果是,每个词会得到一个新的向量,代表它综合考虑所有上下文后的信息。
这些新向量会被送入一个简单的神经网络(两层线性层),模型进一步提炼出“下一步要说什么”。
最后,模型会根据所有词的向量,输出一个概率表:
概率最高的词就是模型的“预测输出”。
在 Excel 中,这一步用
EXP()
和SUM()
构造出 Softmax 函数,自动选出概率最大值。
我们输入:
Mike is quick. He moves
Excel 最后输出:
fast
说明模型预测:这句话的下一个词最可能是 “fast”。
是不是有点像 ChatGPT 的“脑回路”?
概念 | 你会明白 |
---|---|
Token 是什么 | 是词语的编号(ID),是模型的单位 |
向量代表什么意思 | 用一组数字表示词的语义 |
注意力怎么计算 | 模型怎么“关注”上下文 |
Softmax 是怎么挑词的 | 如何选出最可能的下一个词 |
Transformer 怎么运行 | 从输入到输出完整流程 |
这个 Excel 表格不是用来生成段落的,它更适合:
如果你一直想搞懂 ChatGPT 是怎么“懂你”的,那不妨从这份表格开始。
下载地址再次附上:
点击下载 GPT-2 Excel 教学模型(v0.7.0)
通过上述内容,你就已经基本理解了这个方法,基础用法我也都有展示。如果你能融会贯通,我相信你会很强
Best
Wenhao (楠博万)