/ ai资讯

训练量暴增100倍!Grok 4推理碾压,马斯克预言两年内发现新物理定律

发布时间:2025-07-13 09:46:24




本站报道(文/莫婷婷)7月10日,马斯克的AI公司xAI正式发布旗舰大模型Grok 4、Grok 4 API,同时推出AI订阅计划Super Grok Heavy,每月300美元(约合2153元人民币)。

马斯克对Grok 4的能力给予了高度评价,他表示,Grok 4的推理能力已超越人类水平,甚至比几乎所有学科的研究生具备更强的综合理解与分析能力。

在被称为“人类的最后考试”(Humanity's Last Exam)的综合性测试中,Grok 4取得了25.4%的准确率,且完全不依赖任何外部“工具”辅助。相比之下,谷歌Gemini 2.5 Pro的得分为21.6%,而OpenAI的o3(高版本)仅为21%。在这场全球顶尖模型的较量中,Grok 4一举超越了多位此前公认的领先选手,成为新一代大模型中的佼佼者。



除了Humanity's Last Exam的测试,Grok 4还在GPQA、AIME25、LCB(Jan-May)、HMMT25等测试中,超过了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等大模型。

马斯克介绍,Grok 4未来将达到以下目标:它能在所有考试中答对所有题目;如果答错,它会指出问题出在哪里;如果题目存在歧义,它会将问题拆解为答案A、B和C,并消除歧义后的问题下,对选项A、B、C分别对应的解答。


马斯克表示,Grok 4每个学科都达到超博士水平,目前Grok 4还没有发明新技术或发现新物理定律的能力,但他认为在下半年、最迟也会在明年就能看到Grok 4发现具有实用价值的新技术,两年之内就会发现新物理定律。

Grok 4是如何实现如此高水平的推理能力。根据介绍,在训练层,每一代模型的训练规模都实现了数量级提升,Grok 4的训练量是Grok 2的100倍。马斯克明确表示,这个训练量还会持续增长。



训练算力有两种类型:一是Grok 2到Grok 3阶段的训练预算力,二是在Grok 3到Grok 4阶段,团队在强化学习的推理环节投入了大量算力。xAI团队通过训练Grok 2,首次实现了预训练规模的突破,团队发现如果真正精细地进行数据消融实验,以及基础设备、算法,就可以通过1.0倍的量大幅推进预训练,打造最佳的预训练基础模型。xAI将动用了有20万块H100 GPU的超级算力中心。

与Grok 3不同,Grok 4将工具直接融入训练过程,使其成为模型的原生能力。在单智能体情况下,团队能解决40%的问题;随着测试与计算规模的扩大,团队已经能解决HRE问题中纯文本子集超过50%的内容。这是一个极其困难的任务,xAI表示。

在发布会上,xAI也正式推出了多智能体版本Grok 4 Heavy。在人类的最后考试测试中,Grok 4 Heavy取得44.4%的准确率。

马斯克指出Grok最大的弱点在图像理解、图像生成,xAI正在进行相关的训练。Grok 4基于第六代基础模型,第七代基础模型将在几周后完成,届时将改善图像领域的不足。

在开通AI订阅计划Super Grok后,用户就可以访问Grok 4,订阅费为每月30美金。如果成为Super Grok Heavy用户,就可以同时访问Grok 4和Grok 4 Heavy,订阅费为每月300美金。xAI表示,届时你将成为“一群Grok研究智能体的任务主管”,让你变得更聪明。

Grok 4以其超人类推理能力与跨学科统治力引发关注。此次发布不仅让Grok 4成为大模型性能天花板,也意味着xAI正以算力筑壁垒。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com