号称“世界上最强AI模型”，马斯克发布Grok 4，能碾压人类博士背后的秘密-DOIT-数据产业媒体与服务平台

导读

十万块H100 GPU训练出的超级大脑，在数学竞赛中拿下满分，马斯克宣称它比所有领域的博士都聪明。

7月10日，马斯克掌舵的人工智能公司xAI正式推出了其最新一代大语言模型——Grok 4，并同时发布了具备多智能体协作能力的Grok 4 Heavy版本。xAI将Grok 4定位为“当前全球最先进的人工智能模型”。马斯克公开表示，Grok 4的智能表现已“全面超越博士水平”，尤其在处理学术问题时，其能力在所有学科领域均达到或超越了博士级别的标准。马斯克还满怀信心地预测，Grok 4有望在今年内助力人类实现“技术新发现”的突破，并可能在明年揭示新的物理现象。

据xAI介绍，Grok 4在训练所需的计算资源上实现了质的飞跃，与上一代Grok 2相比，其训练计算量激增了100倍。特别是在推理和强化学习（RL）领域，Grok 4投入了前所未有的计算资源，其RL计算量超过其他任何模型的10倍。这一成就得益于xAI打造的拥有10万块H100 GPU的“超级计算集群”。值得一提的是，仅在12个月前，Grok 2还只是一个初步构想，而按照如今的标准来评估，其模型智能水平已与高中生相当。

文字编辑｜宋雨涵

博士级智力的AI助手

刷新纪录的基准测试

从理论数据层面来看，Grok 4已然在综合性能上实现了对所有竞争对手的全方位超越。其对手阵营涵盖了当下备受瞩目的顶级大模型，像OpenAI的o3、谷歌的Gemini 2.5 Pro，还有Anthropic的Claude 4等。在传统基准测试，以及美国高考SAT考试、各学科GRE水平测试等众多考核场景中，Grok 4均展现出了卓越的性能优势。

不过，相较于这些略显常规的传统基准测试，Grok 4还有一项更为亮眼的表现。它挑战了素有“人类最后一场闭卷考试”之称的Humanity’s Last Exam（简称HLE测试），并成功超越此前众多模型，取得了最高达44.4%的准确率。

在xAI的直播活动中，马斯克也着重强调了Grok 4的强大实力。他表示，Grok 4在知识储备和解题能力上，比几乎所有学科的研究生都要出色。而且，至少在学术领域的问题探讨与解决上，其水平优于所有学科的博士，“不存在任何例外情况”。

在学科专项测试中，Grok 4 Heavy几乎霸榜：

美国数学邀请赛（AIME25）：100% 满分

数学推理测试（HMMT25）：96.7%

研究生水平问答（GPQA）：88.9%

美国数学奥林匹克竞赛（USAMO25）：61.9%

Grok 4和其未来蓝图

用工具来理解世界

与其他AI模型不同，Grok 4在训练阶段就深度整合了工具使用能力。这一设计选择成为其性能飞跃的关键。

“在训练中融入工具，不仅比不使用工具能取得更高分数，而且Scaling提升效率也更高。”xAI研究员在发布会上解释。增加同样的计算资源，工具融入训练能换来更显著的智能提升。

在直播演示中，团队展示了Grok 4的多样化能力：

基于预测市场数据，成功预测MLB世界大赛胜率，给出道奇队21.6%的胜率

通过后牛顿近似模型，模拟两个黑洞碰撞并生成真实的引力波可视化动画

在自动零售基准测试中，Grok 4创造的净资产达到4684美元，是第二名Claude 4的两倍。

定价策略和其未来路线图

xAI此次推出两个版本：基础版Grok 4和多智能体协作版Grok 4 Heavy。后者支持四个代理同时工作，上下文窗口最高支持256K token。

定价策略引起广泛关注。基础版Grok 4订阅费为30美元/月，而Grok 4 Heavy的费用高达300美元/月，是目前市场上最昂贵的AI订阅服务之一。

免费用户只能继续使用Grok 3，Grok 4仅对付费用户开放。

xAI同时公布了明确的路线图：8月将推出编程模型，9月上线多模态智能代理，10月推出视频生成模型。

马斯克还透露，特斯拉最新固件已嵌入Grok全功能版本，预计下周将激活。未来Grok还将成为特斯拉汽车的语音助手，支持英语和汉语，彻底改变人车交互方式。

Grok 4背后：

十万GPU驱动Grok 4登顶全球最强AI

当马斯克在聚光灯下宣布“Grok 4在所有学科上超越人类博士”时，很少有人意识到，这场AI革命真正的战场不在发布会现场，而在孟菲斯这座不起眼的工业城市里。

xAI正式确认其第四代大模型基于10倍于前代（Grok 3）的训练算力开发完成。这一跨越式提升的核心，在于位于美国田纳西州孟菲斯的超算中心「Colossus」——这座被马斯克称为”AI算力珠峰”的超级计算机，初期部署即包含10万张英伟达H100 GPU，并预留了全球首个GB200计算节点的部署空间。

创纪录的算力工程

Colossus的建设速度本身就是一个科技奇迹。传统数据中心建设周期通常需要18个月，而xAI团队仅用122天就完成了首期10万块H100 GPU的部署，二期扩容更是压缩至92天，整个20万卡集群在214天内建成。

算力巨兽催生AI大脑

当马斯克宣布“Grok 4在所有学科超越人类博士”时，其底气源于Colossus创造的工程奇迹。这座算力要塞以革命性液冷技术突破散热极限，单机柜功率密度高达行业均值的160%；用400GbE网络架构编织出相当于“400条并行高速公路”的数据通道；更以14台超级发电机与特斯拉储能系统构建能源网络，将能耗效率优化23%。

通向AGI的硬件之路

Colossus的意义远不止于训练一个大语言模型。它代表着AI发展模式的根本转变——从算法优先转向算力优先。

当OpenAI的工程师还在优化transformer架构的细微参数时，xAI选择了另一条路径：用前所未有的算力规模“暴力破解”智能的边界。Colossus的建设证明，在足够的计算资源面前，许多模型瓶颈可以通过规模效应自然解决。

这种模式带来了惊人的成果，但也伴随着巨大挑战。Colossus的建设和运营成本高达数十亿美元，而xAI每月“烧钱”速度据称高达10亿美元。

如此高昂的成本直接也反映在Grok 4的定价策略上：基础版订阅费30美元/月，而多智能体协作版Grok 4 Heavy的费用高达300美元/月，成为市场上最昂贵的AI订阅服务。

结语：

当全球科技公司还在为万卡集群的建设周期以“年”计算时，Colossus已用“天”作为时间单位。122天部署十万GPU的奇迹背后，是模块化设计、液冷技术、网络架构和电力系统的全面创新。

这座位于孟菲斯的算力巨兽不仅是Grok 4的诞生地，更重新定义了AI基础设施的建设标准。当马斯克宣称“Grok 4比所有领域博士都聪明”时，他同时也在宣告：在通向AGI的竞赛中，算力规模已成为决定性变量。

号称“世界上最强AI模型”，马斯克发布Grok 4，能碾压人类博士背后的秘密

lixiangjing

相关推荐

近期文章

热门标签