我要投稿

刚刚，马斯克发布Grok-4，在各大基准测试上表现太猛了。

发布日期：2025-07-10 15:28:25 浏览次数： 2792

作者：AI进修生

微信搜一搜，关注“AI进修生”

马斯克的 xAI，刚刚发布 Grok-4

Grok 4 在各大基准测试上，表现太猛了。

基准测试亮点

AIME25 (数学竞赛): Grok 4 Heavy 直接拿了 100% 满分，而 Claude 4 Opus 是 75.5%。这属于碾压了。

GPQA (研究生水平问答): Grok 4 Heavy 跑了 88.9%，把 Gemini 2.5 Pro (86.4%) 和 Claude 4 Opus (79.6%) 都甩在后面。

LCB (法律常识): Grok 4 Heavy 79.4%，Gemini 2.5 Pro 是 74.2%。
HMMT25 (高中数学竞赛): Grok 4 Heavy 96.7%，Gemini 2.5 Pro 是 82.5%。
USAMO25 (美国数学奥赛): Grok 4 Heavy 61.9%，Gemini DeepThink (49.4%) 和 Gemini 2.5 Pro (34.5%) 根本没跟上。
“人类最后一考”: Grok 4 重度版拿了 50.7%。带工具版 41%，不带工具版 26.9%。

ARC-AGI 2 (抽象推理) 基准:15.9%。

直播中

“Grok 4 可能在 每个学科 上都比博士水平强，没有例外。”

"今年可能发现 新技术，两年内肯定发现 新物理学。”

“我预计明年会推出第一款真正优秀的 AI 视频游戏，今年可能会推出第一款出色的 30 分钟 AI 电视节目”

“ 我们可以在几周内分享一个快速而智能的编码模型”

— 这口气，还是那个熟悉的马斯克味道。

Vending-Bench (模拟经营): 模拟经营售货机，Grok 4 净赚 $4694，卖了 4569 件货，排第一。Claude 才 $2077，人类玩家 $844。这说明它的 Agentic (智能体) 运用和处理现实世界任务的能力很强。

API 功能: API 方面也给足了料：256k 上下文、前沿多模态能力、实时搜索、企业级安全。

第三方测评机构也下场了，Grok 4 确实是新王

独立 AI 模型分析机构 Artificial Analysis 说，他们拿到了 Grok 4 的早期访问权限，跑了一遍全套基准测试，结果出来了。

Grok 4 登顶了。

在他们的“人工智能指数 (Artificial Analysis Intelligence Index)”里，Grok 4 拿了 73 分，超过了 OpenAI o3 (70 分)、谷歌 Gemini 2.5 Pro (70 分)、Anthropic Claude 4 Opus (64 分) 和 DeepSeek R1 0528 (68 分)。

这是马斯克的 xAI 第一次 站到 AI 前沿的领头位置。

他们说，Grok 3 当时只是跟其他几家的大模型打得有来有回，但 Grok 4 是第一次让他们在自己的指数上把 xAI 排到第一。

他们是通过 xAI API 测试的 Grok 4，推特上那个版本可能会有不同。Grok 4 是个 推理模型，回答问题前会先“思考”，但 API 不会返回思考过程的 token。

价格和部署

Grok 4 的定价跟 Grok 3 一样：输入 3 刀/百万 token，输出 15 刀/百万 token。这个价格跟 Claude 4 Sonnet 一样，但比 Gemini 2.5 Pro 和 o3 (最近降价后) 要贵。

部署方面，除了 xAI API 和推特上的 Grok 聊天机器人，估计也会上微软的 Azure AI Foundry (Grok 3 和 3 mini 已经在上面了)。

关键跑分结果

Grok 4 不光是总的智能指数第一，在他们的 编码指数 和 数学指数 上也是第一。

GPQA Diamond 得分创历史新高，88%，超过了之前 Gemini 2.5 Pro 的 84%。
Humanity’s Last Exam 得分也创历史新高，24%，超过了之前 Gemini 2.5 Pro 的 21%。
MMLU-Pro 和 AIME 2024 得分并列最高，分别是 87% 和 94%。
速度: 75 token/秒，比 o3 (188)、Gemini 2.5 Pro (142) 慢，但比 Claude 4 Opus Thinking (66) 快。