Grok 4 刚刚打破了AI的天花板——这就是为什么它会改变一切

xAI的Grok 4凭借其200,000个GPU的基础设施实现了前所未有的基准测试分数,在关键推理测试中的表现是竞争对手的两倍。该模型独特的多智能体方法以及与Tesla的CFD软件的集成,标志着从AI助手向真正推理伙伴的转变。

Grok 4 刚刚打破了AI的天花板——这就是为什么它会改变一切

这可真是急转直上。三周前,Elon Musk和xAI向毫无准备的世界发布了Grok 4,基准测试结果至今仍让资深AI研究者们瞠目结舌。想象一个AI能像一群喝了咖啡的博士团队在凌晨3点头脑风暴那样推理问题。既然最初的炒作已经平息,开发者们已经对Grok 4进行了全面测试,让我来告诉你为什么这个模型不仅仅是又一次发布——它是对AI成为真正智力伙伴未来的一瞥。

https://x.com/xai/status/1943158495588815072

震惊互联网(和一些记录)的发布

xAI于2025年7月9日通过直播发布了Grok 4,吸引了150万观众——对于夜间的技术展示来说还不错。¹发布时机很...有趣,就在Grok 3因一些争议性输出而成为负面头条的第二天。²但xAI决定最好的防守就是压倒性的进攻。

Musk推出了两个版本:标准Grok 4和Grok 4 Heavy,后者部署多个AI代理相互交叉检查工作,就像一个每个人都做了功课的学习小组。³访问通过Grok应用、网站或API,Heavy版本专供SuperGrok Heavy订阅者使用,每月300美元——这个价格点表明"我们是认真的"。⁴对于好奇者:https://x.ai/grok用于一般访问,https://x.ai/api用于开发者。

让其他AI看起来像计算器的功能

Grok 4配备256,000令牌的上下文窗口(大约是一本小说的文本量,它可以一次处理),图像分析、函数调用和语音模式自然到你可能忘记你在和硅片对话。⁵但真正精彩的地方在于:原生工具使用。xAI通过强化学习训练这个怪物使用代码解释器和网络浏览器——就像它思维的延伸。

跨X、网络和新闻的实时搜索保持回应新鲜——不再有"我的知识截止日期"借口。多模态能力让它无缝融合文本和视觉分析,而语音模式通过你的相机添加场景分析。⁶对于担心合规的企业用户:SOC 2 Type 2、GDPR和CCPA都已检查完毕。这就像拥有一个机智的研究助手,从不睡觉,从不抱怨加班,还能理解你糟糕的字迹。

秘诀:当蛮力遇到技巧

Grok 4魔力的背后是xAI的Colossus超级计算机——一个200,000 GPU的怪物,让大多数数据中心看起来像袖珍计算器。⁷但原始力量并不能说明全部故事。xAI通过将强化学习扩展到与预训练计算匹配,专注于来自数学、编程和科学领域的可验证数据,将效率提升6倍,将计算肌肉转化为精炼智能,彻底改革了他们的方法。⁸

真正的创新?他们在后训练强化学习上花费了与预训练本身同样多的资源。⁹Grok 4 Heavy进一步采用并行测试时计算——多个AI代理同时解决问题,然后比较结果。想象从一个单独的车库发明家升级到一个同步的诺贝尔奖获得者管弦乐队,每个人都在检查其他人的工作。

基础设施现实检查

Colossus超级计算机有200,000个GPU,这个数字我简直无法理解。大多数公司当他们获得几百个GPU的集群顺利运行时就很兴奋了。但200,000个?仅热量输出就像运行一个小型发电厂。

这还没考虑如何让它们都适当连接,保持数据供给,确保你的电网不会直接放弃....每个细节都很重要:如何安排机架,使用什么样的冷却系统(是的,你需要严肃的冷却因为这些东西很热),加上所有伴随的网络和电源分配噩梦。搞砸任何一块拼图,你就在性能不佳的硬件上烧钱。希望构建自己AI基础设施的公司,无论是10个GPU还是10,000,000个,需要从电力分配到保持数据以光速流动的复杂光纤连接等各方面的专业知识。在这里专业基础设施部署决定了理论规格和实际性能之间的差异。正如Introl团队从部署无数AI集群中了解到的,魔鬼真的在细节中——适当的基础设施可能意味着GPU运行在95%效率与浪费30%性能之间的差异。

让统计学家喜极而泣的数字

让我们深入探讨让AI社区议论纷纷的基准测试。在臭名昭著的残酷ARC-AGI-2测试上——模型必须用最少例子展示抽象推理——Grok 4(思考模式)以15.9%的成绩夺冠,每任务约4美元。¹⁰这几乎是Claude Opus 4的8.6%的两倍,在你嘲笑"仅15.9%"之前,记住大多数模型在这个测试上很难突破5%。¹¹这就像看到有人蒙眼解魔方,而其他人还在搞清楚哪面是红色。

扩展实验揭示了一些有趣的东西。仅通过训练计算,Grok 4在人类最后考试(纯文本子集)上达到约50%。添加工具后,它跳到50.7%。¹²测试时扩展在50%附近平台,证明更创新的推理策略——不仅仅是向问题投入更多计算——推动突破。

在AIME25(美国邀请数学考试)上,Grok 4 Heavy达到完美的100%,将Claude 4 Opus(75.5%)和Gemini 2.5 Pro(88.0%)远远甩在后面。¹³即使没有工具,标准Grok 4也得分91.7%——这比大多数人类数学竞赛参与者都好。

但真正的重头戏是:人类最后考试(完整版)。这个跨STEM和人文的2,500+问题挑战将记忆与真正推理区分开来。¹⁴Grok 4 Heavy得分44.4%,几乎是Gemini 2.5 Pro的25.4%的两倍,是o3的21.0%的两倍多。¹⁵当你的AI在如此大的幅度上超越其他AI时,你不是在迭代——你在革命。

重要的实际性能

除了学术基准测试,Grok 4在实际测试中占主导地位。在Vending-Bench上(是的,这是一个关于优化自动售货机操作的真实基准测试),它实现了4,694美元的净值和4,569单位销售——是Claude Opus 4的2,077美元的两倍多,是人类表现844美元的五倍。¹⁶

其他胜利:USAMO'25(61.9%)、GPQA Diamond(88%)、LiveCodeBench(79.4%)和MMLU-Pro(87%)。¹⁷Artificial Analysis的独立评估者在他们的智能指数上给Grok 4打了73分,险胜OpenAI的o3和Google的Gemini 2.5 Pro(都是70分)。¹⁸对于三周前才出现的模型来说还不错。

社区判决:兴奋、怀疑以及介于两者之间的一切

自发布以来,X(原Twitter)已成为Grok 4能力的试验场。开发者报告粘贴整个代码库进行调试,结果超越了Cursor等专门工具。¹⁹一位用户称它为"最接近AGI的东西",而科学家们查询未解决的材料问题并获得经得起检验的新颖见解。²⁰经过三周的实际使用,模式已经显现:该模型在复杂推理任务上表现出色,但在创意应用中显示出有趣的怪癖。

但并非全是起立鼓掌。用户注意到75令牌/秒的速度限制(可敬但不惊人),内容审核仍然很少——Grok 4比竞争对手过滤更少,引发关于AI中立性与安全性的辩论。²¹一些人欣赏原始、无修饰的回应;其他人担心潜在的滥用。这就是民主的实际行动。

这对明天意味着什么(剧透:一切都会改变)

这里是我的乐观主义开始发力的地方。Grok 4超越了聊天机器人类别——它是AI作为智力伙伴的预览。当一个AI在数学竞赛上达到博士水平并帮助科学家探索未解决的问题时,我们正在见证增强发现的黎明。

对科学而言:想象世界各地的研究者都能接触到一个真正理解复杂数学并能提出新颖假设的AI。药物发现、气候建模和材料科学——都在加速。

对工程而言:超越调试,我们在谈论理解系统架构并能提出人类可能永远不会考虑的优化建议的AI。这就像有Dijkstra和Turing随时待命。

对教育而言:个性化辅导不仅适应学生的错误,还适应他们的思维方式。每个学习者都获得一个耐心、聪明的导师,专为他们的认知风格量身定制。

对商业而言:从战略规划到市场分析,Grok 4的推理能力可能将决策制定从直觉感受转变为具有细致理解的数据驱动见解。

注意事项(因为诚实胜过炒作)

让我们实事求是——没有AI是完美的,Grok 4有成长空间。75令牌/秒的速度不会赢得与专门推理服务器的任何比赛。幻觉虽然减少了,但没有完全消失(这是全行业的挑战)。最小化的内容过滤引发了关于滥用潜力的有效担忧。

看,xAI对他们的训练数据什么都没告诉我们,这...不太好。我们都知道这是怎么回事——当你扩展到这么大时,数据的偏见会被放大。现在AI中的每个人都在像老鹰一样盯着xAI。随着Grok 4的传播,他们如何处理伦理问题?这很重要——非常重要。

前路:事情即将变得奇怪

所以,xAI在演示过程中展示了他们的一些计划,有一件事完全震撼了我。他们提到将Grok连接到Tesla的计算流体力学软件——Tesla工程师用于实际车辆空气动力学和热管理的同一个CFD。²²

我必须静下心来思考一分钟。我们已经习惯了知道事实、回答问题和编写代码的AI。但CFD集成代表了不同的东西。拥有能解释流体力学如何工作的AI是一回事。让那个AI能够使用CFD软件来设计在空气中移动并散热的东西完全是另一回事。这不是渐进式进步——这是一个全新的能力。

OpenAI、Anthropic和Google不会旁观。但Grok 4改变了游戏——我们从"有用助手"领域直接跳到"推理伙伴"。这种转变让我想起Ray Kurzweil谈论的智能爆炸——每个突破都让下一个突破发生得更快更快。我们正在实时观看它发生。

轮到你了:你要构建什么?

所以我一直在思考——当AI能够在各个领域进行博士水平的推理时会发生什么?什么看似不可能的问题突然被破解?当我们的工具可以与我们一起思考时,我们会发现什么?老实说,当AI变得如此聪明时,我们需要建立什么样的护栏?

如果你是开发者,你已经在计划用那些API构建什么。研究者们可能正在兴奋地思考什么突然变得可能了。如果你坐在这里想,"Grok 4的能力到底意味着什么?"——是的,我理解。这个概念需要时间来处理。

但事情是这样的:无论我们是否准备好,Grok 4都落在了我们的膝盖上。AI刚刚说,"这就是现在可能的,想想用它做什么吧。"

那么...你打算用它做什么?Grok API在https://x.ai/api,在X上有一个完整的开发者和研究者社区已经在突破极限。三周过去了,我们看到了发布时没人预测的应用。这里的机会是巨大的——让我们不要浪费它。

参考文献

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中