谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑

前言

23年12月6日,谷歌突然宣布推出大语言模型Gemini。 这一大模型最早在谷歌6月份的I/O 开发者大会上出现预告,而在这次发布时,谷歌更是将“最大”“最强”的字眼明晃晃放在标题,称这一模型将是AI模型的巨大飞跃,最终将影响谷歌几乎所有产品。

虽然谷歌并未明说,但作为一家近十年来一直称自己为“人工智能优先”,而事实上也是在AI领域内持续推出多个里程碑式技术和产品的公司,其Gemini大模型一经发布,便被不少外媒形容为对OpenAI的反击,甚至打上了“击败GPT-4”的名头。

那么,这一名叫Gemini的大模型能做些什么?到底有多强?又是否真的能复现当初ChatGPT引发的AI热潮,乃至超越?

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第1张图片

目录

前言

三大版本,32个基准测试中遥遥领先

上线一天遭质疑,网友实测对比GPT-4

总结


 

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第2张图片

三大版本,32个基准测试中遥遥领先

这次谷歌发布的Gemini模型共有三个版本:

Gemini Nano。轻量级版本,旨在移动端设备上进行本地和离线运行。

Gemini Pro。可扩展至各种任务的Gemini模型,会为许多谷歌的AI服务提供动力,并且自发布起便嵌入谷歌的AI聊天机器人产品Bard。

Gemini Ultra。谷歌迄今为止创建的最强大的大语言模型,适用于高度复杂的任务,未来还将用于数据中心和企业应用程序。

目前用户能直接接触到的是Gemini Pro版本,对标GPT-3.5,而对标GPT-4的Gemini Ultra则要在明年才能推出。而对于宣称的“最强”口号,谷歌也为Gemini Ultra拿出了直接证据——

在当前大语言模型研发所使用的32个数学基准中,Gemini Ultra在其中30个测试里都拿下了最佳结果,而在这30个测试中,Gemini Ultra在MMLU(大规模多任务语言理解)方面的得分为90%,甚至略优于人类专家(得分89.8%)。

值得注意的是,在谷歌官方给出的基准测试图表中,“对照组”有且只有一个GPT-4。而从图表数据来看,数学、物理、历史、法律、医学和伦理学等 57 个科目的组合测试得分来看,Gemini Ultra在绝大多数领域强于GPT-4。

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第3张图片

除了大语言模型的基础能力之外,谷歌这次重点宣传的还有Gemini的多模态能力,也就是模型可以概括、理解、操作和组合不同类型信息的能力,包括文本、代码、音频、图像和视频等信息。

比如,在科研领域常常会有需要科学家从海量文献中提取数据的情况,但很多垂直领域论文短短一两年就有数十万的新增论文,要求研究者全文阅读论文,还要手动提取相关信息显然不现实,而这时就可以在Gemini中直接输入“寻找相关论文”的自然语言,让大模型帮忙阅读海量论文,提取关键数据,添加注释,甚至还能要求它直接基于数据制作图表。

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第4张图片

而在谷歌的演示视频中,还给出了更多的例子:可以直接让Gemini判断一张手写物理题的对错,并让其针对某一具体步骤给出讲解;可以给出图片素材,让Gemini猜测所指电影名;可以让Gemini在几张图片之间找不同……

谷歌官方称,Gemini的多模态推理功能够理解复杂的书面和视觉信息,这就使其在大量数据中理解、过滤和提取信息的能力极为强大,未来将在科研、金融等领域发挥作用。此外,由于可以同时识别和理解文本、图像和音频等各类信息,因此,Gemini也擅长解释数学和物理等复杂学科的推理。

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第5张图片

上线一天遭质疑,网友实测对比GPT-4

这次谷歌Gemini背后的核心技术是原生多模态(natively multimodal),用官方的话来说,就是一开始就对不同模态进行预训练,再用额外的多模态数据进行微调。 这种“原声多模态”对比当下常见的为不同模态训练单独组件,再将它们拼接在一起的多模态大模型创建方法,性能更强,在面对更加复杂抽象的场景时,表现也更好。

整体而言,Gemini在演示中的效果确实极其亮眼,而对于已接入Gemini Pro的Bard,海内外社区也有不少专业人士迅速上手体验,并给出了极佳的反馈。因此,消息一出便在海内外引起了强烈反响。

不过,很快就开始有专业人士指出,这次Gemini引以为豪的基准测试标准结果上玩了点小花招——在号称优于人类专家的MMLU(大规模多任务语言理解)任务上,Gemini Ultra使用了思维链提示技巧、尝试了32次选最好结果,而作为对比的GPT-4则是“无提示词技巧给5个示例”。如果采用后者的标准,Gemini Ultra的效果就不如GPT-4了。

还有一位机器学习讲师Santiago Valdarrama在领英社区里提出,谷歌在宣传视频中的声明,“我们持续捕捉镜头,测试Gemini应对各种挑战的能力,向它展示一系列图像,并要求它对所看到的内容进行推理”,这是在暗示视频案例展示的是精心挑选、剪辑过的好结果,而并非实时录制。

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第6张图片

而在X平台上,也有网友实测对比了Gemini和GPT-4的能力。威斯康星大学麦迪逊分校的一位副教授提取了Gemini宣传视频中的14道题目,包括物理数学题解答、图像识别、逻辑推理、解释笑话、如何理清中国亲戚关系等等,并将其喂给GPT-4。

最终,GPT-4在其中12道题上都与Gemini水平相当,但在一道数据图像处理题和数学题上略逊于GPT-4。

谷歌发布“史上最强”大模型,全面对标GPT-4,又遭质疑_第7张图片

总结

事实上,在Gemini推出之后,谷歌股价跌了0.74%,在某种程度上也说明市场仍对新产品的前景存在疑虑。但无论怎样,谷歌Gemini的发布仍然向市场释放了一种信号,那就是OpenAI和它的GPT们不再是难以企及、独一无二的存在了。

你可能感兴趣的:(人工智能)