解密prompt系列52. 闲聊大模型还有什么值得探索的领域

在DeepSeek-R1的开源狂欢之后,感觉不少朋友都陷入了技术舒适区,但其实当前的大模型技术只是跨进了应用阶段,可以探索的领域还有不少,所以这一章咱不聊论文了,偶尔不脚踏实地,单纯仰望天空,聊聊还有什么有趣值得探索的领域,哈哈有可能单纯是最近科幻小说看太多的产物~

尚未攻克的持续学习
当前的大模型训练还是阶段式的,OpenAI每隔几个月就会对模型进行重新训练,延长模型的世界知识截止时间。说白了就是全新、覆盖式的知识写入。就像西西弗斯推石头,每次全量训练都意味着对先前知识的系统性遗忘。而真正意义上的持续学习和试试学习,当前似乎还是个未解之谜。当然也有观点认为有机体的进化,本身就和无机体的进化存在完全不同的路径,所以大模型是否真的需要持续学习,不少人也是打问号的。

之前接触到的真正使用在线更新的主要在推荐领域,基于实时发生的用户长短行为序列进行持续的模型训练和迭代更新。但是这类模型本质只是行为表征和拟合,和当前的大模型还是有比较大的区别。而在NLP领域虽然之前有不少元学习,持续学习的论文发表,但是和R1的RL训练,ChatGPT的SFT指令训练一对比就会发现,它们可能还没找到正确的打开方式。其实从Word2Vec、Bert、CLIP、ChatGPT、R1不难看出,每个划时代的模型所使用的技术本身基本都符合大道至简的原理,匠气更少一些,Scaling曲线更长一些。

持续学习其实包含多个方面,比较重要的一个是单纯的增量世界知识的补充,也就是在模型上一次截止训练后至今世界上增量产生的知识和信息。之前训练模式在持续训练上最大的问题就是灾难遗忘,学了新的忘了旧的,捡了芝麻丢了西瓜。这里纯纯个人猜想的一个可能原因来自于当前Transformer模型结构中,模型习得的语言能力、世界知识、任务完成能力、思考推理能力,这些能力是纠缠在一起存储在Transformer参数中的。导致继续学习的过程中我们只学知识,就会遗忘任务完成能力;只补充任务完成能力,不更新知识就会增加模型幻觉(模型以为自己行了!其实并不行)。但如果有结构能把以上能力分层解耦,知识既客观事实的存储纯靠背诵,推理能力更多依赖模型基于反馈探索优化,而语言能力其实没有更新的必要。甚至模型可以在实现推理和语言能力不变的情况下,持续更新知识,或者对知识存储定期进行蒸馏压缩。之前一些知识编辑的论文其实就研究过大模型的知识存储,并发现在MLP层其实存在知识以Key-Value键值对形式存储。

持续学习的另一个方向是推理和任务完成能力,是基于大模型在使用工具完成任务的过程中,收到的环境给予的反馈,模型需要基于反馈优化行为路径和任务完成形式,这样才能在不断的练习中逐步提高任务完成的成功率。哈哈那借鉴《三体》中的文明进化机制,我们是否可以为模型构建虚拟生态圈,类似斯坦福小镇等"AI 沙盒",大模型本身是Policy,由沙盒本身生成大模型的任务todo,并评估模型的完成效果,生成反馈信号。沙盒中也允许模型接入各类MCP接口去和环境进行交互,还可以在沙盒环境中动态加入各类约束和竞争条件。

你可能感兴趣的:(程序员)