DeepSeek关键技术创新及对AI生态的影响

DeepSeek 在春节期间引爆全球科技圈,虽然饶毅教授的观点“DeepSeek是自鸦片战争以来中国给人类科技最大的震撼”确实有点夸张了,但在欧美科技圈热议的所谓“DeepSeek时刻” 、国内盛赞的“国运级创新”所带来的震撼,从西方主流杂志或媒体包括《自然》、《纽约时报》、《经济学人》等的报道,以及在全球科学、技术、金融、政府、军事等领域的专家政要反应来看,DeepSeek的出圈和影响力不容忽视。

DeepSeek到底做了什么?所谓的“DeepSeek时刻”或者“国运级创新”到底意味着什么?

个人认为DeepSeek巨大的影响力不仅仅在于它在AI领域实现的几个方面的关键技术创新,更重要的是由其引发的对全球AI生态版图的升级和重塑。本文将从两个大的维度:(一)DeepSeek的关键技术创新;(二)DeepSeek对于大模型的生态意义 来谈谈我对DeepSeek的创新研究和思考。

DeepSeek****的关键技术创新

1. 开源强化学习引领推理计算范式转换

去年9月份OpenAI 发布的o1模型展现了强化学习在推理计算方面的卓越能力,但是OpenAI既没有开源,技术报告也语焉不详,全球AI界虽然对大模型将迎来从预训练到推理计算的范式转换抱有很高期待,但一直没有成功的复现。直到DeepSeek R1的出现,无论是在以推理为主的各项国际公认的评测指标上、还是实际使用感受上,都超越 Claude Sonnet 3.5 、OpenAI GPT-4o等一众前沿闭源模型。

DeepSeek的推理计算路线也让很多业内专家叹为观止,其使用纯粹RL(强化学习),无需SFT(监督微调),不依赖冷启动数据,成功地实现了靠纯RL(强化学习)来激励大模型的推理能力。DeepSeek在R1的训练中也观察到了模型推理时“喃喃自语反思错误的Aha Moment”(所谓大模型的“顿悟时刻”)。 DeepSeek的研究人员在其论文中谈到,这不仅是大模型的“Aha Moment”,也是研究团队的“Aha Moment”。

为什么说使用RL强化学习来做推理计算,为大模型带来了新的范式转换?人类智能的学习行为本质上分两种:模仿学习 和 探索学习。预训练就是大模型的模仿学习,在OpenAI o1和DeepSeek R1两个模型之前,大模型主要进行的是“预训练”为主的模仿学习。喂给大模型什么样的数据,大模型才能学会什么。没教的一概不会,非要回答就会幻觉说胡话。**强化学习就是大模型的探索学习,**这是在OpenAI o1和DeepSeek R1推理时主要的学习方式。在强化学习支持的推理计算下,大模型会不断探索优化、遇到错误会改正自己。不难理解,如果没有探索学习,仅仅基于预训练的模仿学习,大模型遇到复杂问题,很难超过人类专家。而有了探索学习,大模型才有可能发展出远超人类智能的水平,比如在AlphaGo当时大败围棋冠军李世石时著名的第37手(move 37),背后就是强化学习的功劳。

强化学习在AI领域并不新鲜,但将强化学习泛化地应用在大模型领域,成为大模型推理计算的

你可能感兴趣的:(人工智能,Deepseek,学习,大模型,大模型学习,AI,大模型教程)