【AI学习】了解OpenAI o1背后的self-play RL:开启新的智能道路

在ChatGPT刚刚出来的时候,沐神关于ChatGPT有一段视频,只有几分钟,却是讲得极其透彻的一段。大概意思就是,过去的AI智能水平,比如五年前,大概相当于人类5秒钟思考的程度,包括自动驾驶,大概也就是人类5秒钟的水平,现在的ChatGPT,大概相当于专业人士一个小时的智能,比如回答一个问题、给一段描述然后绘制一幅图片等等。这里面呢,从发展来看,就是每几年我们会把一类模型的智能做到顶点,十年前,那时的线性模型,做到智能顶点,所谓智能顶点就是说更多的数据、更大的模型很难带来智能的提升了,然后大约五年前,卷积神经网络做到了智能的上限,然后现在就是基于transformer的智能还在增长进步,我们还在不停的探索,再然后等到了新的顶点,我们可能就需要探索再新的模型。总的来说呢,深度学习还处在一个早期的阶段,现在开始学习是一个很好的时期。

本周OpenAI发布OpenAI o1,据说能够达到研究生的水平了,这应该相当于专业人士更长时间,有可能是几十个小时甚至更长时间的智能了。

本周OpenAI发布OpenAI o1,又是一阵热闹。凑热闹,看了几篇文章:
《张俊林:OpenAI o1的价值意义及强化学习的Scaling Law》
《Kimi创始人杨植麟最新分享:关于OpenAI o1新范式的深度思考》
《LLM 新范式:OpenAI o1,self-play RL 和 AGI 下半场》
看起来,大模型的预训练,虽然还在继续,但是似乎有点快到智能顶点了,self-play RL,是开启了新的智能道路。
在大模型发展的当下,主要是几个方向:多模态,Sora开启了这波浪潮;小模型,以GPT-4o和 GPT-4o mini为代表;以及后训练,self-play RL

GPT-4o和 GPT-4o mini

关于GPT-4o和 GPT-4o mini,之前看到微博@宝玉xp老师的一段总结,转载一下:
在大家都在翘首以盼 OpenAI 发布 GPT-5 的时候,OpenAI 却只是先后发布了 GPT-4o和 GPT-4o mini,甚至推理能力智能程度还不如当初的 GPT-4,但是这两个新模型不仅支持了多模态,而且参数都要小于 GPT-4,生成速度很快,推理成本也低了很多倍。
这背后,应该是因为新的 GPT-4o 模型用了更少但是质量更好的训练数据。GPT-4 之所以效果好成本高,是因为它用了几乎整个互联网公开的文本数据训练,所以它记住了相当多的内容,而这其中很多内容其实是重复的甚至是质量不高的数据。但是有了 GPT-4 这样强大的模型后,就可以从中提炼出高质量的合成的训练数据,然后用这些高质量的合成数据,去训练更小的模型,就像现在大家看到的 GPT-4o 和 GPT-4o mini。
可以预见未来的模型发展也会类似于 GPT-4 -> GPT-4o -> GPT-4o mini 这样的模式,先有一个大的模型,然后再用大的模型生成高质量的合成数据,用合成数据去训练小参数的模型,这些模型虽然能力不如大的模型,但是性价比极高。


Andrej Karpathy 的评价:
x.com/karpathy/st

你可能感兴趣的:(AI学习,AI文章转载,人工智能,学习,神经网络)