【AI学习】DeepSeek为什么这么火爆?解密梁文锋的深谋远虑

重新回头,复盘一下DeepSeek的发展思路,以及未来的发展策略。越想越佩服梁文锋,思路之缜密,令人震惊!

DeepSeek发展复盘

这几天一直在想这个问题,DeepSeek为什么这么火爆?以及,后续的发展策略?
下面是我的思维链。

DeepSeek的真正火爆,是在R1发布之后。

如果没有发布R1,即使V3的效果好,震动了美国AI界,会有如此火爆吗?这是废话,肯定不会,但是原因呢?
我在想如果只发布了V3,即使开源了,整个业界是如何一种反应?开源之后,还在于整个业界能做些什么。从前面LLama的发展基本可以看清,业界最主要的做法,就是套壳。虽然少数的,可以基于开源大模型,继续再训练领域大模型,但是成本高,能玩得起的还是少数,影响力非常有限。而且,即使做了领域模型,又能怎么样,后续OpenAI等通用模型的能力增强又超过你了。所以,业界最能玩的,还是通过叠加RAG、Agent等,做套壳应用最划算。
但是V3发布之后,一个月,又有了R1,这就不一样了。
回顾一下时间点,2024年12月26日,V3发布;2025年1月20日,R1发布。在如此短的时间内先后发布两款模型,不难想象,这早是计划好的,大概在V3发布之时,DeepSeek内部就已经有了R1。

再向前回顾,去年9月的时候,OpenAI发布了o1,行业就已经在广泛讨论self-play RL。摘录李广密的对话中的一段:
“2018 年的时候 Lex Fridman 邀请 Ilya Sutskever 去 MIT 客座讲了一节课, Ilya 选的主题就是强化学习与 self-play ,他当时就认为,这是通往 AGI 路上最关键的方法之一。Ilya 用一句话概括了强化学习,非常准确:让 AI 用随机的路径尝试新的任务,如果效果超预期,那就更新神经网络的权重,使得 AI 记住多使用这个成功的事件,再开始下一次的尝试。”“目前整个业界,无论硅谷,还是中文媒体,其实提及强化学习这一路线都还很少,换言之大家今天还不知道如何做。今天的强化学习是 self-play 强化学习,这条路线是最合理、天花板最高的。Anthropic 的 Claude-Sonnet ,从 3 迭代至 3.5 后,我们能看到它的代码和数学能力提升很大,就是强化学习带来的。用 self-play 的方法提升模型的逻辑推理能力是接下来最重要的范式,也是一个最核心的变化。多模态、 10 万卡集群、强化学习这三条路线并不矛盾,可以并行。但公司如果资源有限,就需要下注在最相信的一条路径上。假如我是一个 AI 公司的 CEO ,我肯定会用 200%的资源押注于强化学习这一路线。这是目前最有机会走向 AGI 的路线。”

OpenAI发布了o1,效果惊艳,等于给了全世界一个谜题,让全世界来猜。据说,OpenAI本来不愿意发布o1,只是为了融资,需要发布一些新东西来打动投资方。但是OpenAI肯定知道,o1还不成熟,一旦发布,就容易让竞争对手迅速赶上。只不过,OpenAI可能也没有想到,谜语这么快就被解出,而且还是一家中国公司。

那为什么说R1发布,与之前的V3发布带来了新的重大变化?那就是,整个行业忽然发现,有非常多的事情可以做了,对比基础模型,开源生态在推理模型方面可以有更多的工作了。据说,V3的训练成本不到600万美金,预估R1的训练成本也就在几十万到一百万美金之间,大概的训练周期是两、三星期。R1发布之后,出现了大量的低成本的复刻方案。R1实际上是在告诉整个产业界,基于V3,大家可以用非常低的成本,做大量的新东西了,打开了一个新的蓝海。

那这里就带来了一个新的问题。R1发布之后,预计大量的厂家,在一两个月内就能跟上,那时候大家会不会抛弃DeepSeek,DeepSeek这波破天的流量就过去了?不会!
这里的关键的在于,V3是目前产业界推理成本最低的底座模型,这里的MLA、非常稀疏的MoE等技术架构,不是其他厂家短期可以跟上的。

DeepSeek V3的推理成本低,模型架构中的MLA、MoE和MTP等技术,应该均有贡献。这里尤其是MoE。关于DeepSeek MoE的效率之高,之前我是没有注意到其中的关键细节之处。在《Lex Fridman 五小时聊 DeepSeek:一文看懂 DeepSeek 的创新与2025 AI 趋势》一文中,对DeepSeek的MoE有如此评论:“虽然专家混合模型并非新技术,但通常的 MoE 模型只包含 8 个或 16 个专家,每次激活 2 个。我们通常用稀疏因子或使用率来衡量 MoE 模型的效率。例如,Mixtral 模型每次推理可能只激活 1/4 的模型参数。OpenAI 以及其他一些封闭实验室也使用了 MoE 模型。但 DeepSeek 的创新之处在于,他们采用了极高的稀疏因子。他们的 MoE 模型并非只激活 1/4 的参数,而是从 256 个专家中激活 8 个”。“Mixtral 等已公开 MoE 模型的稀疏度比例仅为 4:2 或类似水平。DeepSeek的稀疏度比例非常高”。
查阅了DeepSeek V3的技术报告,确实如此,摘录报告原文:“Each MoE layer consists of 1 shared expert and 256 routed experts, where the intermediate hidden dimension of each expert is 2048. Among the routed experts, 8 experts will be activated for each token."

模型的低推理成本就是DeepSeek在2025年的护城河。试想,哪家公司即使弄出比R1更好的RL算法,会选择一个比DeepSeek V3推理成本高数倍的基座模型吗?而基于DeepSeek V3的推理模型的开源生态持续发展后,DeepSeek V3作为基座模型的地位就已经牢不可破了。
同时,DeepSeek在开源之外,还做对了一件非常重要的事情,就是基于华为芯片进行部署,相当于同时控制住了底层GPU硬件的生态位。

后续策略

那DeepSeek接下来的发展策略?个人猜度,可以有两点。一、优化底座模型,继续巩固底座模型的低成本优势,继续开发推理成本更低的模型,同时增加模型的上下文长度,更大的上下文长度就能支撑RL更大的搜索空间。二、汲取开源生态的力量,将开源生态中更好的RL算法,与自己内部的最新的底座模型结合,不断推出更新的模型。

你可能感兴趣的:(AI学习,AI非常道,人工智能,学习)