Grok-4发布,GPT-5一夜白干?马斯克复仇OpenAI的终极武器来了

 埃隆·马斯克向AI的牌桌上,扔下了一颗名为Grok-4的“核弹”。

这场发布会,原定北京时间中午11点,却硬生生迟了一个小时,过程也略显仓促,甚至让马斯克本人都显得有些紧张。但即便如此,Grok-4的登场,依然是一场蓄谋已久的宣言,一次针对AI世界旧神的“弑神”行动。被瞄准的,正是马斯克曾亲手缔造,如今却分道扬镳的OpenAI。一时间,整个科技圈的空气都变得紧张起来,一个尖锐的问题浮出水面:“GPT-5的研发,是不是一夜之间变得毫无意义?”


 要看懂这场牌局,先要理解马斯克的愤怒。这不只是商业竞争,这是个人恩怨。


马斯克是OpenAI的联合创始人,他最初的愿景是打造一个非营利的、开源的AI实验室,防止人工智能这头“利维坦”被少数巨头圈养。但OpenAI的发展轨迹背离了这条初心。它引入微软的巨额投资,拉下了开源的铁幕,变成了一个追求利润的封闭商业体。在马斯克眼中,这无异于背叛。


他选择另起炉灶,成立xAI,并为它赋予一个宏大的使命:“理解宇宙的真实本质”。Grok,就是承载这个使命,并向旧日盟友发起挑战的武器。Grok-1和1.5只是试探性的炮火,Grok-4的出现,才意味着战争的正式打响。


它带来的,是一个与GPT截然不同的“新物种”。

Grok-4的真实面貌:硬实力与软肋并存


如果说GPT-4像一位知识渊博、滴水不漏的学者,那么Grok-4则是一个混迹街头、消息灵通、性格有点叛逆的天才。这次发布,Grok-4和更强大的Grok-4Heavy双双亮相,它们并非完美无缺,但其展现出的某些能力,确实足以让竞争对手警惕。

 硬实力一:知识推理与长任务处理的“学霸”


Grok-4的训练量是Grok-2的100倍,强化学习的计算量更是现有任何模型的10倍。 这些投入直接体现在其知识推理能力上。在“人类最后的考试”(Humanity's Last Exam,HLE)中,Grok-4拿到了38.6%的成绩,而Grok-4 Heavy更是凭借多智能体协作,将准确率拉高到44.4%,刷新了最高纪录。


不仅如此,在GPQA、AIME25、HMMT25、USAMO25等学科竞赛中,Grok-4Heavy在其中4项夺冠,尤其在AIME25和HMMT25上,分别取得了100%和96.7%的近乎满分表现。这表明它在复杂知识理解和问题解决上,确实达到了顶尖水平。


更令人印象深刻的是其长任务处理能力。在名为“Vending-Bench”的商业模拟场景中,Grok-4需要像人一样经营自动售货机业务,最终平均净资产达到4684.15美元,是第二名Claude4的两倍。这证明Grok-4在需要持续规划和执行的复杂任务中,表现出卓越的韧性。

 硬实力二:实时联网与工具深度融合的“信息灵通人士”


这是Grok-4对GPT最致命的一击。 它与马斯克的社交平台X深度整合,拥有了实时访问全球信息的能力。这意味着它能参与此刻正在发生的对话,无论是分析瞬息万变的股市,还是讨论刚刚结束的球赛。

更重要的是,Grok-4在训练阶段就深度整合了工具使用能力,将代码解释器、搜索引擎等工具直接纳入训练流程。这使得它能更自然、更高效地调用外部工具来完成任务,而不是像传统模型那样,需要额外的提示词工程来引导。在ARC-AGI v2评测中,Grok-4的准确率达到15.9%,几乎是第二名Claude4(8.6%)的两倍,同时单位成本推理效率业界最佳。

 软肋:代码能力拉垮的“偏科生”

然而,发布会全程都在强调知识和推理,这隐隐让人感到不安。实测结果也证实了这种担忧:Grok-4的代码能力表现不佳,甚至可以说是“拉垮”。 这说明它在某些特定领域,依然存在明显的短板。

马斯克的生态野心:不止于聊天,志在万物互联


如果说OpenAI的策略是打造一个最强的“AI大脑”,那么马斯克的野心则是围绕这个大脑,建立一个无所不包的“帝国”。Grok不仅仅是一个聊天机器人。马斯克已经规划了清晰的路线图:8月将推出专门的代码模型,9月上线多模态智能代理,10月则会发布视频生成模型。 这表明Grok将无缝嵌入到他庞大的商业帝国中,从X平台到特斯拉,再到擎天柱机器人,形成“硬件+软件+内容”的生态闭环。

GPT-5的研发,真的会被动摇吗?


那么,回到最初的问题,Grok-4的横空出世,是否意味着正在研发中的GPT-5就失去了意义?

答案是:并不会,但压力空前巨大,且市场定位将更加清晰。


OpenAI和GPT系列依然拥有强大的护城河。尤其在代码生成、长文写作、复杂逻辑推理等专业领域,GPT的深度和可靠性经过了市场的长期检验,并获得了大量企业用户的信赖。Grok-4在知识推理和长任务上表现出色,但在代码能力上的明显短板,恰恰凸显了GPT在这些“硬核”生产力工具属性上的优势。


Grok-4的定价策略也值得玩味:免费版只能用Grok-3,Grok-4需要每月30美元的SuperGrok订阅,而更强大的Grok-4 Heavy则高达每月300美元的SuperGrok Heavy。这样的价格,尤其是Grok-4
  Heavy,无疑将其推向了高端用户或企业市场。


这使得两者在某种程度上走向了不同的赛道。GPT更像一个严谨、全面的“生产力工具”,而Grok-4则在知识推理、实时信息和长任务处理上展现出独特优势,同时带着马斯克式的“个性”和生态野心。


Grok-4的发布,就像一条鲶鱼,搅动了整个AI市场。它逼迫着OpenAI必须加快创新的步伐,思考如何弥补自己在实时性和生态上的短板。而对于谷歌、Meta等其他巨头来说,警钟也再次敲响。


我们该做什么,而不只是旁观?

 这场巨头间的战争,对我们普通人来说,不应仅仅是隔岸观火的谈资。它预示着AI交互方式的根本性转变,也提供了具体的行动方向。


首先,请立刻改变你与AI对话的方式。 过去我们学习“提示词工程”,是为了精确地从AI那里“榨取”信息。现在,你需要开始学习如何与一个“AI人格”打交道。试着去理解Grok的幽默,挑战它的边界,甚至与它争论。这是一种全新的全新技能,未来的人机协作,将不仅仅是下达指令,更是建立关系。


其次,重新审视你所在的领域。 问自己一个问题:我的工作或业务,是更需要GPT的深度,还是Grok的实时性与长任务能力?如果你是律师或程序员,GPT可能依旧是你的首选。但如果你是媒体人、金融交易员、市场营销专家,一个能实时感知世界脉搏、处理复杂商业模拟的AI,可能会彻底颠覆你的工作流。找到Grok能创造价值的缝隙,就是你的机会。


最后,关于选择。 面对每月300美元的Grok-4 Heavy,以及其在代码能力上的明显短板,我们或许会像许多人一样,在权衡之下,依然选择更成熟、更均衡的ChatGPT或Gemini。这并非否定Grok-4的强大,而是基于自身需求和性价比的理性考量。AI的未来是多元的,没有一款模型能通吃所有场景。


这场竞争的核心,是两种AI哲学的碰撞。OpenAI试图构建一个更完美、更安全的“超级智能”,而马斯克则试图创造一个能反映人性复杂、甚至缺陷的“数字镜像”。我们究竟需要一个永远正确的老师,还是一个能一起犯错的朋友?


这个问题,没有标准答案。但你的选择,将决定你如何在即将到来的新世界里,找到自己的位置。所以,去申请Grok的内测吧,亲自去感受它,这比读一百篇文章都更重要。

你可能感兴趣的:(gpt)