号称“世界上最强AI模型”,马斯克发布Grok 4,能碾压人类博士背后的秘密

导读

十万块H100 GPU训练出的超级大脑,在数学竞赛中拿下满分,马斯克宣称它比所有领域的博士都聪明。

7月10日,马斯克掌舵的人工智能公司xAI正式推出了其最新一代大语言模型——Grok 4,并同时发布了具备多智能体协作能力的Grok 4 Heavy版本。xAI将Grok 4定位为“当前全球最先进的人工智能模型”。马斯克公开表示,Grok 4的智能表现已“全面超越博士水平”,尤其在处理学术问题时,其能力在所有学科领域均达到或超越了博士级别的标准。马斯克还满怀信心地预测,Grok 4有望在今年内助力人类实现“技术新发现”的突破,并可能在明年揭示新的物理现象。

据xAI介绍,Grok 4在训练所需的计算资源上实现了质的飞跃,与上一代Grok 2相比,其训练计算量激增了100倍。特别是在推理和强化学习(RL)领域,Grok 4投入了前所未有的计算资源,其RL计算量超过其他任何模型的10倍。这一成就得益于xAI打造的拥有10万块H100 GPU的“超级计算集群”。值得一提的是,仅在12个月前,Grok 2还只是一个初步构想,而按照如今的标准来评估,其模型智能水平已与高中生相当。

文字编辑|宋雨涵

1

博士级智力的AI助手

刷新纪录的基准测试

从理论数据层面来看,Grok 4已然在综合性能上实现了对所有竞争对手的全方位超越。其对手阵营涵盖了当下备受瞩目的顶级大模型,像OpenAI的o3、谷歌的Gemini 2.5 Pro,还有Anthropic的Claude 4等。在传统基准测试,以及美国高考SAT考试、各学科GRE水平测试等众多考核场景中,Grok 4均展现出了卓越的性能优势。

不过,相较于这些略显常规的传统基准测试,Grok 4还有一项更为亮眼的表现。它挑战了素有“人类最后一场闭卷考试”之称的Humanity’s Last Exam(简称HLE测试),并成功超越此前众多模型,取得了最高达44.4%的准确率。

在xAI的直播活动中,马斯克也着重强调了Grok 4的强大实力。他表示,Grok 4在知识储备和解题能力上,比几乎所有学科的研究生都要出色。而且,至少在学术领域的问题探讨与解决上,其水平优于所有学科的博士,“不存在任何例外情况”。

  • 在学科专项测试中,Grok 4 Heavy几乎霸榜:

美国数学邀请赛(AIME25):100% 满分

数学推理测试(HMMT25):96.7%

研究生水平问答(GPQA):88.9%

美国数学奥林匹克竞赛(USAMO25):61.9%

2

Grok 4和其未来蓝图

用工具来理解世界

与其他AI模型不同,Grok 4在训练阶段就深度整合了工具使用能力。这一设计选择成为其性能飞跃的关键。

“在训练中融入工具,不仅比不使用工具能取得更高分数,而且Scaling提升效率也更高。”xAI研究员在发布会上解释。增加同样的计算资源,工具融入训练能换来更显著的智能提升。

在直播演示中,团队展示了Grok 4的多样化能力:

基于预测市场数据,成功预测MLB世界大赛胜率,给出道奇队21.6%的胜率

通过后牛顿近似模型,模拟两个黑洞碰撞并生成真实的引力波可视化动画

在自动零售基准测试中,Grok 4创造的净资产达到4684美元,是第二名Claude 4的两倍。

  • 定价策略和其未来路线图

xAI此次推出两个版本:基础版Grok 4和多智能体协作版Grok 4 Heavy。后者支持四个代理同时工作,上下文窗口最高支持256K token。

定价策略引起广泛关注。基础版Grok 4订阅费为30美元/月,而Grok 4 Heavy的费用高达300美元/月,是目前市场上最昂贵的AI订阅服务之一。

免费用户只能继续使用Grok 3,Grok 4仅对付费用户开放。

xAI同时公布了明确的路线图:8月将推出编程模型,9月上线多模态智能代理,10月推出视频生成模型。

马斯克还透露,特斯拉最新固件已嵌入Grok全功能版本,预计下周将激活。未来Grok还将成为特斯拉汽车的语音助手,支持英语和汉语,彻底改变人车交互方式。

Grok 4背后:

十万GPU驱动Grok 4登顶全球最强AI

当马斯克在聚光灯下宣布“Grok 4在所有学科上超越人类博士”时,很少有人意识到,这场AI革命真正的战场不在发布会现场,而在孟菲斯这座不起眼的工业城市里。

xAI正式确认其第四代大模型基于10倍于前代(Grok 3)的训练算力开发完成。这一跨越式提升的核心,在于位于美国田纳西州孟菲斯的超算中心「Colossus」——这座被马斯克称为”AI算力珠峰”的超级计算机,初期部署即包含10万张英伟达H100 GPU,并预留了全球首个GB200计算节点的部署空间。

创纪录的算力工程

Colossus的建设速度本身就是一个科技奇迹。传统数据中心建设周期通常需要18个月,而xAI团队仅用122天就完成了首期10万块H100 GPU的部署,二期扩容更是压缩至92天,整个20万卡集群在214天内建成。

算力巨兽催生AI大脑

当马斯克宣布“Grok 4在所有学科超越人类博士”时,其底气源于Colossus创造的工程奇迹。这座算力要塞以革命性液冷技术突破散热极限,单机柜功率密度高达行业均值的160%;用400GbE网络架构编织出相当于“400条并行高速公路”的数据通道;更以14台超级发电机与特斯拉储能系统构建能源网络,将能耗效率优化23%。

通向AGI的硬件之路

Colossus的意义远不止于训练一个大语言模型。它代表着AI发展模式的根本转变——从算法优先转向算力优先。

当OpenAI的工程师还在优化transformer架构的细微参数时,xAI选择了另一条路径:用前所未有的算力规模“暴力破解”智能的边界。Colossus的建设证明,在足够的计算资源面前,许多模型瓶颈可以通过规模效应自然解决。

这种模式带来了惊人的成果,但也伴随着巨大挑战。Colossus的建设和运营成本高达数十亿美元,而xAI每月“烧钱”速度据称高达10亿美元。

如此高昂的成本直接也反映在Grok 4的定价策略上:基础版订阅费30美元/月,而多智能体协作版Grok 4 Heavy的费用高达300美元/月,成为市场上最昂贵的AI订阅服务。

结语:

当全球科技公司还在为万卡集群的建设周期以“年”计算时,Colossus已用“天”作为时间单位。122天部署十万GPU的奇迹背后,是模块化设计、液冷技术、网络架构和电力系统的全面创新。

这座位于孟菲斯的算力巨兽不仅是Grok 4的诞生地,更重新定义了AI基础设施的建设标准。当马斯克宣称“Grok 4比所有领域博士都聪明”时,他同时也在宣告:在通向AGI的竞赛中,算力规模已成为决定性变量。