微信扫码
添加专属顾问
我要投稿
马斯克的Grok-4在各大基准测试中全面碾压对手,AI领域迎来新王者。 核心内容: 1. Grok-4在数学、法律、推理等多领域测试中表现惊人 2. 马斯克预测AI将在多个领域实现突破性进展 3. 第三方测评机构确认Grok-4登顶AI模型排行榜
Grok 4 在各大基准测试上,表现太猛了。
基准测试亮点
AIME25 (数学竞赛): Grok 4 Heavy 直接拿了 100% 满分,而 Claude 4 Opus 是 75.5%。这属于碾压了。
GPQA (研究生水平问答): Grok 4 Heavy 跑了 88.9%,把 Gemini 2.5 Pro (86.4%) 和 Claude 4 Opus (79.6%) 都甩在后面。
LCB (法律常识): Grok 4 Heavy 79.4%,Gemini 2.5 Pro 是 74.2%。
HMMT25 (高中数学竞赛): Grok 4 Heavy 96.7%,Gemini 2.5 Pro 是 82.5%。
USAMO25 (美国数学奥赛): Grok 4 Heavy 61.9%,Gemini DeepThink (49.4%) 和 Gemini 2.5 Pro (34.5%) 根本没跟上。
“人类最后一考”: Grok 4 重度版拿了 50.7%。带工具版 41%,不带工具版 26.9%。
ARC-AGI 2 (抽象推理) 基准:15.9%。
“Grok 4 可能在 每个学科 上都比博士水平强,没有例外。”
"今年可能发现 新技术,两年内肯定发现 新物理学。”“我预计明年会推出第一款真正优秀的 AI 视频游戏,今年可能会推出第一款出色的 30 分钟 AI 电视节目” “ 我们可以在几周内分享一个快速而智能的编码模型”
— 这口气,还是那个熟悉的马斯克味道。
Vending-Bench (模拟经营): 模拟经营售货机,Grok 4 净赚 $4694,卖了 4569 件货,排第一。Claude 才 $2077,人类玩家 $844。这说明它的 Agentic (智能体) 运用和处理现实世界任务的能力很强。
API 功能: API 方面也给足了料:256k 上下文、前沿多模态能力、实时搜索、企业级安全。
第三方测评机构也下场了,Grok 4 确实是新王
独立 AI 模型分析机构 Artificial Analysis 说,他们拿到了 Grok 4 的早期访问权限,跑了一遍全套基准测试,结果出来了。
Grok 4 登顶了。
在他们的“人工智能指数 (Artificial Analysis Intelligence Index)”里,Grok 4 拿了 73 分,超过了 OpenAI o3 (70 分)、谷歌 Gemini 2.5 Pro (70 分)、Anthropic Claude 4 Opus (64 分) 和 DeepSeek R1 0528 (68 分)。
这是马斯克的 xAI 第一次 站到 AI 前沿的领头位置。
他们说,Grok 3 当时只是跟其他几家的大模型打得有来有回,但 Grok 4 是第一次让他们在自己的指数上把 xAI 排到第一。
他们是通过 xAI API 测试的 Grok 4,推特上那个版本可能会有不同。Grok 4 是个 推理模型,回答问题前会先“思考”,但 API 不会返回思考过程的 token。
价格和部署
Grok 4 的定价跟 Grok 3 一样:输入 3 刀/百万 token,输出 15 刀/百万 token。这个价格跟 Claude 4 Sonnet 一样,但比 Gemini 2.5 Pro 和 o3 (最近降价后) 要贵。
部署方面,除了 xAI API 和推特上的 Grok 聊天机器人,估计也会上微软的 Azure AI Foundry (Grok 3 和 3 mini 已经在上面了)。
关键跑分结果
Grok 4 不光是总的智能指数第一,在他们的 编码指数 和 数学指数 上也是第一。
GPQA Diamond 得分创历史新高,88%,超过了之前 Gemini 2.5 Pro 的 84%。
Humanity’s Last Exam 得分也创历史新高,24%,超过了之前 Gemini 2.5 Pro 的 21%。
MMLU-Pro 和 AIME 2024 得分并列最高,分别是 87% 和 94%。
速度: 75 token/秒,比 o3 (188)、Gemini 2.5 Pro (142) 慢,但比 Claude 4 Opus Thinking (66) 快。
其他关键信息
256k token 上下文窗口。比 Gemini 2.5 Pro 的 100 万小,但比 Claude 4 系列 (200k)、o3 (200k) 和 R1 0528 (128k) 大。
支持 文本和图像输入。
支持 函数调用和结构化输出。
成本方面的小细节: Artificial Analysis 还提到,Grok 4 在跑他们的智能指数时,输出的 token 用量比其他模型稍微多一点。这意味着,虽然单价一样,但实际用起来可能成本会高一些。
现在,Grok 4 的测评数据已经在他们的官网 artificialanalysis.ai 上线了。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-10
实战、通俗、落地:大模型浪潮指南
2025-07-10
从谨慎检查到一键接受,TRAE 如何成为我的主力 IDE?
2025-07-10
2025上半年,AI Agent领域有什么变化和机会?| 峰瑞研究所
2025-07-10
Grok4 发布:全整理
2025-07-10
马斯克发布Grok 4,推理能力全面登顶,支持四个代理同时工作
2025-07-10
xAI 发布 Grok 4,它具备超人级别的推理能力!
2025-07-10
刚刚,突发,炸裂!Grok 4发布,全科能力超越博士!
2025-07-10
垂直赛道 Agent 闷声发财指南:如何实现一年超千万营收?
2025-05-29
2025-04-12
2025-04-29
2025-04-29
2025-05-23
2025-04-12
2025-05-07
2025-05-07
2025-05-07
2025-06-01
2025-07-10
2025-07-10
2025-07-10
2025-07-09
2025-07-08
2025-07-07
2025-07-05
2025-07-04