解密prompt系列52. 闲聊大模型还有什么值得探索的领域

在DeepSeek-R1的开源狂欢之后，感觉不少朋友都陷入了技术舒适区，但其实当前的大模型技术只是跨进了应用阶段，可以探索的领域还有不少，所以这一章咱不聊论文了，偶尔不脚踏实地，单纯仰望天空，聊聊还有什么有趣值得探索的领域，哈哈有可能单纯是最近科幻小说看太多的产物~

尚未攻克的持续学习
当前的大模型训练还是阶段式的，OpenAI每隔几个月就会对模型进行重新训练，延长模型的世界知识截止时间。说白了就是全新、覆盖式的知识写入。就像西西弗斯推石头，每次全量训练都意味着对先前知识的系统性遗忘。而真正意义上的持续学习和试试学习，当前似乎还是个未解之谜。当然也有观点认为有机体的进化，本身就和无机体的进化存在完全不同的路径，所以大模型是否真的需要持续学习，不少人也是打问号的。

之前接触到的真正使用在线更新的主要在推荐领域，基于实时发生的用户长短行为序列进行持续的模型训练和迭代更新。但是这类模型本质只是行为表征和拟合，和当前的大模型还是有比较大的区别。而在NLP领域虽然之前有不少元学习，持续学习的论文发表，但是和R1的RL训练，ChatGPT的SFT指令训练一对比就会发现，它们可能还没找到正确的打开方式。其实从Word2Vec、Bert、CLIP、ChatGPT、R1不难看出，每个划时代的模型所使用的技术本身基本都符合大道至简的原理，匠气更少一些，Scaling曲线更长一些。

持续学习其实包含多个方面，比较重要的一个是单纯的增量世界知识的补充，也就是在模型上一次截止训练后至今世界上增量产生的知识和信息。之前训练模式在持续训练上最大的问题就是灾难遗忘，学了新的忘了旧的，捡了芝麻丢了西瓜。这里纯纯个人猜想的一个可能原因来自于当前Transformer模型结构中，模型习得的语言能力、世界知识、任务完成能力、思考推理能力，这些能力是纠缠在一起存储在Transformer参数中的。导致继续学习的过程中我们只学知识，就会遗忘任务完成能力；只补充任务完成能力，不更新知识就会增加模型幻觉（模型以为自己行了！其实并不行）。但如果有结构能把以上能力分层解耦，知识既客观事实的存储纯靠背诵，推理能力更多依赖模型基于反馈探索优化，而语言能力其实没有更新的必要。甚至模型可以在实现推理和语言能力不变的情况下，持续更新知识，或者对知识存储定期进行蒸馏压缩。之前一些知识编辑的论文其实就研究过大模型的知识存储，并发现在MLP层其实存在知识以Key-Value键值对形式存储。

持续学习的另一个方向是推理和任务完成能力，是基于大模型在使用工具完成任务的过程中，收到的环境给予的反馈，模型需要基于反馈优化行为路径和任务完成形式，这样才能在不断的练习中逐步提高任务完成的成功率。哈哈那借鉴《三体》中的文明进化机制，我们是否可以为模型构建虚拟生态圈，类似斯坦福小镇等"AI 沙盒"，大模型本身是Policy，由沙盒本身生成大模型的任务todo，并评估模型的完成效果，生成反馈信号。沙盒中也允许模型接入各类MCP接口去和环境进行交互，还可以在沙盒环境中动态加入各类约束和竞争条件。

解密prompt系列52. 闲聊大模型还有什么值得探索的领域

你可能感兴趣的:(程序员)