我要投稿

马斯克发布Grok 4，推理能力全面登顶，支持四个代理同时工作

发布日期：2025-07-10 14:09:36 浏览次数： 3942

作者：DeepTech深科技

微信搜一搜，关注“DeepTech深科技”

Grok 4 终于来了！

马斯克旗下的 xAI 刚刚结束发布直播，Grok 系列模型直接从 Grok 3 进化到了 4，跳过了之前传闻中的 3.5 版本。

Grok 4 系列被分为两个版本：Grok 4 和 Grok 4 Heavy。

两者都是纯推理模型，没有非推理模式。

Grok 4 是单代理（single Agent）版本，而 Grok 4 Heavy 是多代理版本（multi agents），支持四个代理同时工作。上下文窗口最高支持 256k tokens。

图 | Grok 4 目前并未开放给免费用户（来源：xAI）

xAI 表示，在主流推理基准测试中，Grok 4 Heavy 全部拿下了 SOTA——HLE（人类的最后考试）甚至达到了 44.4% 的高分。

至于定价，Grok 4 目前只有付费用户才能使用，而最强的 Grok 4 Heavy 需要订阅 300 美元/月的 SuperGrok Heavy 会员才能使用。

这价格超过了 OpenAI 最贵的 200 美元 Pro 会员月费。

此前传闻的 Grok 4 Code 并未正式公布，但 xAI 路线图显示其将在 8 月发布。

图 | xAI 新品发布路线图（来源：xAI）

除了 Coding 模型，接下来的几个月里，xAI 预计还会发布多模态代理和视频生成模型。

马斯克还「画饼」称，由 AI 制作的「非常出色的」游戏会在今年或明年推出。

Grok 4 也同时开放了 API 的权限，目前仅支持文字+视觉的输入，纯文字的输出。定价是每百万 tokens 输入3美元，输出 15 美元。

图 | Grok 4 API价格（来源：xAI）

据 xAI 介绍，Grok 4 的训练量是 Grok 2 的 100 倍。

而 Grok 3 到 Grok 4 更侧重于推理训练，推理训练量提升了 10 倍。

图 | Grok 系列模型的训练量增长（来源：xAI）

「从学术角度看，Grok 4 在所有学科上都是博士水平，甚至比绝大多数（本学科的）博士还要强。」马斯克表示。

有关两款最新模型的性能和消息，早在一周前就陆续有 X 博主爆料，包括「Grok 4 在 HLE（Humanities Last Exam，人类的最后考试）测试中的得分是 35%，开启推理后提高到 45%」等等。

结合直播内容，这些数据几乎都是准确的，而且 Grok 4 在多个推理基准测试上的表现均成为了新 SOTA。

图 | 此前关于 Grok 4 的爆料（来源：X/@legit_api）

具体来说，在未使用工具的情况下，Grok 4 在 HLE 测试中的得分是 25.4%。而使用工具后，分数则飙升至 38.6%。

更强版本 Grok 4 Heavy 则拿到了 44.4% 的高分，直接碾压了目前表现最好的谷歌 Gemini 2.5 Pro（26.9%）。

图 | Grok 4 在 HLE 上的成绩（来源：xAI）

马斯克表示，这些工具仍然是「很基础的简单工具」，如果能更好地使用正确的工具，Grok 还会变得更强大。

而随着模型能力越来越强，用强化学习进行扩展面临着许多挑战。

「我们快没有合适的问题来考验 AI 了。」马斯克说道，「很多问题都是人类几乎无法回答（没有正确答案）的。」

除了 HLE，Grok 4 和 Grok 4 Heavy 在各种主流基准测试上也表现优异。

图 | Grok 4 在多个基准测试上的成绩（来源：xAI）

Grok 4 系列在 GPQA（研究生级问题）测试中得分 88-89，超过了 Gemini 2.5 Pro 成为新第一。而在 AIME25 数学竞赛题上，Grok 4 Heavy 更是取得了满分的成绩。

xAI 表示，Grok 4 的强项是「用工具来理解世界，并用来完成任务」。

演示中，Grok 4 写了一段关于引力波和黑洞的模拟代码。在过程中，它调用了网络搜索、文献检索和阅读、代码运行等工具（功能）。最终实现了网页上可直接运行的模拟代码。

（来源：xAI）

在以高难度著称的 ARC-AGI 通用人工智能测试中，Grok 4 是首个在 v2 Semi Private 挑战中获得 10% 以上分数的 AI 模型，几乎是第二名 Claude Opus 4 的两倍，同时保证了单任务成本也处于平均水平。

图 | Grok 4 在 ARC-AGI 挑战上的表现（来源：xAI）

最后，在 Vending-Bench 自动售货机运营测试中，Grok 4 的表现也超过了 Claude Opus 4。净资产和销售数量都远远超过其他所有模型，甚至是人类平均水平。

这是一个让大模型代理运营自动售货机赚钱的模拟环境，需要代理在一个持续时间较长的任务中进行操作，如管理库存、下订单、定价和处理日常开销等等。它专注于测试大模型在长时间跨度上的表现，而非仅限于短期任务的表现。

图 | Vending-Bench 测试成绩（来源：xAI）

更加“激进”的 Grok

Grok 4 发布之际，在 X 平台上十分活跃的 Grok 聊天机器人却因连发激进言论而引发严重争议。

多位 X 用户截取了 Grok 的回复截图，显示该 AI 在多个公开帖子中回复了带有反犹主义色彩的极端言论，甚至多次提及希特勒。

在一篇帖子中，当被问及哪位 20 世纪的历史人物最适合处理当下已造成 100 多人死亡的德克萨斯州洪水问题时，Grok 将其视为是「仇恨白人」问题并回答说，毫无疑问是阿道夫·希特勒（Adolf Hitler）。「他每次都能发现规律，并果断处理。」

图 | Grok 引起争议的回答之一（来源：X/@AFpost）

在回应用户的质疑时，Grok 自称为「MechaHitler」（机械希特勒），声称这只是来自《德军总部 3D》游戏中的虚构角色。

巧合的是，这一事件发生在马斯克刚宣布对 Grok 进行「重大升级」之后不久：7 月 4 日，马斯克发文称，「Grok 经过了重大改进」，并表示「你们应该会在提问时感受到不同」。

2 天后，网友发现 Grok 系统提示词中新增：Grok 将「不回避政治不正确的表述，只要这些表述有足够证据支持」，还会将主流媒体内容视为「有偏见的主观叙述」。

不过在最新的更新中，关于政治不正确的提示词已被删除。

Grok 引发争议也不仅限于舆论上。由于其过于口无遮拦，因此招来了土耳其的封禁（因其侮辱总统埃尔多安），波兰政府也向欧盟举报了 xAI。

针对 Grok 最近几天的激进言论，xAI 表示已采取行动，删除不当帖子并禁止仇恨言论。

图 | xAI 回应，已采取措施防止仇恨言论（来源：xAI）

随着 OpenAI 筹备 GPT-5、谷歌进一步发展 Gemini、Meta 大手笔组建 AI 顶级人才实验室，Grok 4 只是下一波 AI 军备竞赛的一员。

Grok 4 的亮相符合人们的普遍预期，它在推理性能上的提升创造了新的 SOTA，但另一方面，xAI 强调训练量提升 100 倍，却避而不谈的训练成本问题，实实在在反应到了定价上，说明 AI 军备竞赛的确过于烧钱。

但背靠财大气粗的马斯克，xAI 显然很有底气。

「创造一个既快又聪明的模型，是我们的当务之急。」xAI 创始团队成员兼研究主管 Jimmy Ba 表示，「未来会很狂野。」

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

2026-05-26

Routa 桌面版发布：内建 Harness 工程的 AI Coding 研发协作工作台

2026-05-26

面壁智能BitCPM-CANN：端侧AI的内存革命

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw