你早晨醒来,手机上的大模型帮你写完邮件、翻译合同,却依旧不能帮你把厨房里洒掉的牛奶擦干。
你戴上的 AR 眼镜知道“那里有杯子”,却抓不到它——AI 会说不会做。
是不是哪里少了一截?
人工智能(AI)的发展历程中,我们见证了从简单的数据处理到复杂的语言生成能力的飞跃。
然而,尽管 AI 在虚拟世界中表现出色,它在物理世界中的表现却相对滞后。
为了填补这一空白,AI 正在进入一个新的发展阶段:行动驱动时代。
在本文中,我们将探讨 AI 发展的三个关键阶段:数据驱动、计算驱动和行动驱动。
每个阶段都代表了 AI 技术的一次重大转变,推动了其能力的边界,并为下一个阶段奠定了基础。
2012 年,AlexNet 在 ImageNet 图像识别挑战赛中以惊人的表现脱颖而出,将 top-5 错误率大幅降低。
这一突破标志着深度学习时代的到来,而其背后的驱动力正是大规模标注数据集 ImageNet 的出现。
ImageNet 包含了数百万张带标签的图像,涵盖了数千个类别,为训练复杂的神经网络提供了丰富的素材。
在这一阶段,AI 的性能主要由训练数据的规模和质量决定。
Andrew Ng 提出的“Data-Centric AI”理念强调,数据的质量和多样性往往比模型架构的微调更为重要。
例如,通过改进数据清洗和标注方法,AI 在图像识别和语音识别等任务中取得了显著进步。
然而,随着数据集规模的扩大,标注成本急剧上升。
隐私和伦理问题也日益凸显,例如数据收集可能涉及用户隐私。
为了应对这些挑战,研究者们开始探索自监督学习和弱监督学习等方法,试图减少对标注数据的依赖。
尽管如此,数据驱动的方法在需要深层次理解和推理的任务中遇到了瓶颈。
例如,AI 可以识别一只猫,但无法理解如何与猫互动。
这推动了 AI 向下一个阶段——计算驱动阶段的过渡。
2017 年,Vaswani 等人提出的 Transformer 架构彻底改变了自然语言处理(NLP)领域。
Transformer 利用自注意力机制,能够有效地捕捉长距离依赖关系,极大地提升了模型的性能。
与此同时,GPU 等计算资源的快速发展使得训练大规模模型成为可能。
OpenAI 的 GPT-3 模型拥有 1750 亿个参数,展示了惊人的语言生成和理解能力。
随后的模型,如 Google 的 PaLM 和 Gemini,参数规模进一步扩大,性能也随之提升。
2025 年,DeepSeek 发布的 DeepSeek R1 模型拥有 6710 亿个参数,在多项基准测试中表现优异。
研究表明,模型性能与参数规模和训练数据量呈正相关,这一现象被称为“Scaling Laws”。
大模型还扩展到了多模态领域,整合了图像、音频和视频等多种数据类型。
例如,DALL-E 可以根据文本描述生成图像,CLIP 可以理解图像和文本之间的关联。
这些进步使得 AI 在翻译、写作、甚至代码生成等任务中表现出色。
然而,大模型在与物理世界的交互中仍然存在局限。
它们可能会产生“幻觉”,即生成看似合理但实际上不正确的内容。
这是因为它们缺乏与现实世界的直接反馈和互动。
例如,一个模型可以描述如何拿起杯子,但无法实际执行这一动作。
这揭示了计算驱动阶段的瓶颈,促使 AI 向行动驱动阶段迈进。
为了克服大模型的局限,AI 研究正转向行动驱动的范式。
在这一阶段,AI 不仅需要处理信息,还需要通过物理动作与环境互动,从而获得更深层次的理解和学习。
具身智能(Embodied AI)将感知、认知、决策和执行整合到一个闭环系统中。
通过与环境的互动,AI 可以学习到更丰富的知识,并提高其在现实世界中的应用能力。
惯性测量单元(IMU)等传感器为 AI 提供了精确的姿态和运动数据。
这些数据帮助机器人更好地理解和适应物理环境,减少“幻觉”并提高决策的准确性。
例如,IMU 可以让机器人知道自己是否倾斜,从而避免摔倒。
2025 年,具身智能迎来了快速发展。
AI 驱动的机器人能够自主决策和执行任务,逐渐接近人类的操作能力。
例如,上海的 AgiBot 公司正在开发人形机器人,能够完成折叠衣服、制作三明治等任务。
全球范围内,Wayve 等公司也在推进自动驾驶技术,利用具身智能实现更安全的导航。
在中国,政府和企业正大力投资 AI 和机器人技术。
2025 年,中国国家发展和改革委员会宣布设立一个国家支持的风险投资基金,专注于机器人、AI 和尖端创新,预计在 20 年内吸引近 1 万亿元人民币的资本。
这一举措将进一步推动中国在制造业和自动化领域的技术进步。
行动驱动 AI 的应用前景广阔,涵盖制造业、医疗保健、家庭服务等领域。
例如,智能机器人可以在工厂中执行复杂任务,或在医院中协助医生进行手术。
然而,这一阶段也带来了新的挑战。
安全性和伦理问题是关键,如何确保机器人不会因错误决策造成伤害?
此外,从模拟环境到现实世界的迁移(Sim2Real)仍需技术突破。
AI 发展的三个阶段之间存在着内在的联系和演化逻辑。
当一个阶段在横向扩张(例如数据量或计算资源)达到一定程度时,会暴露出新的瓶颈和需求,从而推动技术向下一个阶段跃迁。
在数据驱动阶段,数据的横向扩张使得模型能够学习到丰富的模式,但缺乏深层次的理解。
在计算驱动阶段,计算资源的横向扩张使得模型规模和复杂度大幅提升,但缺乏与物理世界的互动。
在行动驱动阶段,通过与环境的互动,AI 将实现从“知道”到“做到”的转变。
这一“相变”过程类似于物理学中的状态变化:当能量积累到一定程度,就会引发质的飞跃。
例如,数据驱动阶段积累了大量模式,计算驱动阶段暴露了跨领域的隐含结构,而行动驱动阶段则通过反馈闭环实现更智能的行为。
随着 AI 进入行动驱动时代,不同领域的专业人士需要更新自己的技能和知识,以适应新的发展趋势。
以下是一些建议:
角色 | 推荐技能 | 原因 | 快速资源 |
---|---|---|---|
程序员 / 后端工程师 | Python、PyTorch、ROS 基础 | 参与大模型训练和机器人开发 | 官方文档、在线课程 |
数据科学家 | 传感器时序处理、计算机视觉、强化学习 | 处理具身 AI 的多模态数据 | 学术论文、开源项目 |
创业者 | 机器人硬件生态、云边协同技术 | 探索行动驱动 AI 的商业应用 | 行业报告、创业孵化器 |
程序员: 学习 Python 和 PyTorch 等工具,掌握数据处理和模型训练的基础知识,同时了解机器人操作系统(ROS)以进入机器人开发领域。
数据科学家: 深入研究传感器数据处理、时序分析和计算机视觉技术,这些是具身 AI 的核心。
创业者: 关注小型机器人硬件生态和云边协同技术,探索行动驱动 AI 在制造业、医疗和家庭服务中的应用机会。
AI 的发展正处于一个激动人心的转折点,从数据和计算的积累到行动的实践。
随着技术的不断进步,我们期待看到 AI 在物理世界中发挥更大的作用,为人类社会带来更多的便利和创新。
然而,这也带来了新的问题:当 AI 拥有了“身体”,它会如何改变我们的生活?
我们又该如何确保这些技术的安全和伦理?
这些问题值得我们每个人深思。
或许,正如哲学家所言:“若世界本无固定形状,那身体就是我们与空性之间的临时坐标。”
让我们共同迎接 AI 的行动驱动时代,探索技术与人类的无限可能。