引言
生成式人工智能(Generative AI)无疑是当前科技领域最引人瞩目的革命性力量。从生成流畅的文本、逼真的图像,到谱写动人的乐曲,甚至编写复杂的代码,它的能力边界正以前所未有的速度扩张。为了帮助大家快速掌握这一领域的全貌,李宏毅教授的课程旨在用一堂课的时间,带领我们概览生成式AI近年来的技术突破与未来发展。本文将跟随教授的讲授思路,将课程内容整理成一篇结构清晰、内容详尽的技术文章。
文章将遵循以下四个核心部分展开:
要理解一项技术,最直观的方式是观察它的行为。今天的生成式AI已经远远超出了简单问答的范畴,展现出创造、推理乃至执行复杂任务的能力。
生成式AI最广为人知的能力便是其强大的内容创造能力。它不仅能生成文本、图像、音频,甚至能将这些元素组合成一个生动的数字虚拟人。
李宏毅教授以一个生动的例子展示了这一过程:
这个过程揭示了,从一份课程材料(PPT)到一堂由AI主讲的课程视频,技术上已完全可行。然而,教授指出,课程准备的真正难点在于构思内容和制作PPT,而非讲授本身。那么,AI能否胜任更核心的创造性工作——直接制作一整套课程PPT呢?
答案是肯定的,但效果仍有待提升。当教授指令ChatGPT Deep Research围绕“一堂课搞懂生成式AI”的主题生成一份有趣的课程大纲时,AI输出了长达一万三千字的详细内容,甚至为了“有趣”而穿插了一些它自认为的“冷笑话”。其中,一个关于扩散模型(Diffusion Model)的励志比喻颇具创意:“扩散模型告诉我们,就算人生一团乱,全是噪声(Noise),只要一步一步努力去除噪声,也能拼出美丽的风景。”
随后,利用Gamma等AI工具,可以将这上万字的内容一键生成一套设计精美的PPT。然而,教授评价这套AI生成的课程为“流水账式”的,虽然涵盖了基本概念、技术突破、应用案例和未来挑战,但内容较为浅显,缺乏深入的洞见和人类教师的独特视角。这表明,虽然AI能极大提高效率,但在创造真正高质量、有深度的教学内容方面,仍与人类专家有相当的差距。
现代生成式AI的另一大突破是展现出类似人类的“思考”或“推理”(Reasoning)能力。它们在回答复杂问题时,不再是直接给出答案,而是会展示一个“脑内小剧场”,即我们常说的“思维链”(Chain of Thought)。
这个过程通常是:模型接收问题后,会先自言自语地分析问题、提出可能的解法(如“先试试A方法”)、验证解法(“嗯,A方法好像不对”)、尝试新解法(“再试试B方法”),最终在演完内心戏后,给出一个经过深思熟虑的答案。
教授用一个有趣的问题来测试DeepSeek模型:“《封神演义》的姜子牙和《哈利·波特》的邓布利多,两位都会法术的老人,在巅峰状态下公平对决,谁会赢?”
DeepSeek的反应完美诠释了“脑内小剧场”:
这一过程表明,AI不仅能检索信息,更能对信息进行结构化分析、逻辑推理和情景模拟,展现出令人惊叹的复杂问题处理能力。
现实世界中的许多任务,如订餐、安排旅行,都无法通过一问一答完成,而是需要一个包含多个步骤的动态流程。能够执行这类多步骤、交互式任务的AI,被称为“AI智能体”(AI Agent)。
一个合格的AI智能体需具备多种能力:
目前,我们已经能看到AI智能体的雏形:
这些例子预示着,AI正从一个“对话者”转变为一个能自主规划、使用工具、执行复杂流程的“行动者”。
了解了AI能做什么之后,我们来探究其背后的共同原理。无论是生成文本、图像还是声音,其核心机制都可以归结为对“令牌(Token)”的预测和生成。
生成式AI处理的所有复杂对象(一篇文章、一张图片、一段音频),都可以被拆解成一系列有限的基本单位,这些单位在AI领域被称为“令牌”(Token)。
这个概念是生成式AI的基石。正如NVIDIA CEO黄仁勋所说:“万事万物皆为Token”。AI的任务,本质上就是学习如何根据输入的Token序列,来生成一个有意义的输出Token序列。
AI生成内容的过程,采用了一种名为“自回归生成”(Autoregressive Generation)的策略。这个过程就像一场“文字接龙”(或“Token接龙”):
x
),然后预测并生成第一个输出Token y1
。x
和已生成的y1
作为新的输入,预测并生成第二个Token y2
。yt
。<|endoftext|>
)来终止生成。因此,无论任务多么复杂,其核心都被简化为一个统一的、不断重复的基础任务:根据一个已有的Token序列,预测下一个最可能的Token是什么。
执行“预测下一个Token”这个任务的,是一个被称为“函数 f
”的数学模型,而这个f
在现代AI中,就是一个深度神经网络(Deep Neural Network)。
这个网络的工作方式是:
z1, z2, ..., zt-1
)。深度学习(Deep Learning)的“深”,指的是神经网络由许多“层”(Layer)串联而成。其真正的力量在于化繁为简。教授用一个比喻解释:计算A+B+C
。
10*10*10=1000
种输入组合的答案。A+B
(只需一个10*10=100
的表),第二层计算D+C
(其中D=A+B
,最多19种可能,只需一个19*10=190
的表)。总共需要记录的规则远少于一步到位的方法。深度学习通过将复杂问题分解为一系列更简单的、可学习的步骤,从而实现了强大的建模能力。
神经网络的层数(深度)是固定的。对于特别困难的问题,固定的深度可能不足以完成复杂的推理。这时,前面提到的“脑内小剧场”(思维链)就派上了用场。
让模型生成中间的思考步骤,相当于在推理时(Testing Time)动态地增加了计算的“长度”。每一次生成思考的Token,模型都在进行一次完整的计算。这可以看作是在用“计算长度”来弥补固定的“网络深度”。这个概念被称为“测试时间缩放”(Testing-Time Scaling)。研究表明,强迫模型“想得更久”(即生成更多的中间步骤),确实能显著提高其在复杂任务上的表现。
当前主流的生成式AI,其神经网络架构大多基于Transformer。一个Transformer层内通常包含两种关键的子层:
然而,Transformer也存在局限。其自注意力机制的计算量和内存占用会随着输入序列长度的增加而呈平方级增长,这使得它难以处理极长的文本或高分辨率的图像。为了解决这个问题,学术界和工业界正在积极探索新的架构,如Mamba等,它们有望在保持强大性能的同时,更高效地处理长序列。
我们已经了解了AI的运作机制,但这些复杂的神经网络是如何被“创造”出来的呢?答案是训练。
一个神经网络模型包含两个部分:
我们常说的“炼丹”、“调参”,通常指的是调整架构这类“超参数”(Hyperparameters),而真正的模型参数是通过训练数据自动学习得到的。
训练的目标,就是找到一组最优的参数θ,使得模型f_θ的行为尽可能地符合我们提供的训练数据。
训练数据由大量的“(输入序列, 正确的下一个Token)”样本对组成。例如:
"台湾大"
, "学"
)"令 x 等于"
, "1"
)"print("
, "Hello"
)训练过程就是一个不断优化的过程:模型根据输入进行预测,将其预测的概率分布与“正确答案”进行比较,计算出“损失”(Loss),然后通过梯度下降等算法调整参数θ
,以减小这个损失。这个过程在海量的互联网文本、代码、图片等数据上重复亿万次后,模型便学会了语言、逻辑、知识和世界模型。
今天的生成式AI之所以强大,关键在于其“通用性”的演进。这大致经历了三个阶段:
第一形态(约2018-2019):编码器(Encoder)时代。
第二形态(约2020-2022):预训练-微调时代。
第三形态(约2023-至今):指令微调时代。
这种演进不仅发生在文本领域,语音领域也经历了类似的发展,最终诞生了如DeSTA2这样,能听懂一段语音并根据不同指令回答关于其内容、情感、语种、说话人性别等多种问题的通用语音大模型。
我们现在拥有了强大的通用基础模型,如同有了一位知识渊博的大学毕业生。接下来,我们需要教它胜任具体的工作。这进入了“机器的终身学习”时代,我们有多种方法可以赋予AI新的能力。
这是最简单、最常用的方法。我们不需要改变模型的任何参数,只需在提示(Prompt)中提供它完成任务所需的知识或指令。
当我们需要让模型永久地掌握一项新技能(如学习一门全新的编程语言),或者其行为方式需要根本性改变时,就需要微调。
在微调之外,还有更精细的技术来修改模型:
李宏毅教授的课程为我们描绘了一幅宏大的生成式AI画卷。我们看到,AI的行为正从简单的内容生成,迈向复杂的推理和智能体交互。其背后,是基于“Token”和“自回归生成”的统一框架,由以Transformer为代表的深度神经网络驱动。AI的诞生,则源于在海量数据上的大规模训练,并经历了从专才到通才的三个关键演化阶段。如今,我们站在“机器终身学习”的起点,可以通过提示、微调、编辑、合并等多种手段,不断赋予这些强大基础模型新的能力。
未来,随着模型架构的创新(如Mamba)、训练方法的改进以及对齐(Alignment)技术的深化,生成式AI无疑将在更多领域扮演核心角色,成为与人类协同创造、解决问题的强大伙伴。理解其原理、掌握其能力、预见其未来,是我们拥抱这个智能新时代的关键。