我要投稿

刚刚，突发，炸裂！Grok 4发布，全科能力超越博士！

发布日期：2025-07-10 14:05:45 浏览次数： 3331

作者：字节笔记本

微信搜一搜，关注“字节笔记本”

大概也只有Grok 4才能配上“刚刚，突发，炸裂”这些美轮美奂的词汇了。

就在刚刚，xAI举办了一场信息密度极高的发布会，正式揭开了其最新、最强大模型——Grok-4的神秘面纱。

发布会上，xAI团队详细阐述了从Grok-2到Grok-4的飞跃式发展。其核心驱动力，是前所未有的计算规模投入。团队宣称，Grok-4的训练量比Grok-2增加了整整一百倍。

而Grok-4的实际表现也超出意外，全科能力超越博士，多智能体系统破解人类终极难题，在所有学术科目上实现了超越博士（PhD）的水平。

同期推出Grok-4 Heavy多智能体版本，通过“学习小组”式的协同推理，将“人类最终考试（HLE）”难题的解决率提升至50%以上。

参数上，在API基准测试中性能2倍领先，并在商业模拟、生物科研、游戏开发等真实场景中展现出强大的自动化和策略制定能力。

App上，全新发布的语音模式，延迟减半，声音更自然；下一代模型将重点补强视觉能力，实现从“部分失明”到真正的多模态理解。

同时，Grok 4的专精编码模型、视频生成大模型已在路上，目标是成为全球发展最快的AGI公司。

“我们正处在智能大爆炸的开端，活在历史上任何时期都无法比拟的有趣时刻，”马斯克表示，“随着智力的增长，这里的曲线是显著的。”

以下是详细：

Grok-4自理措施采用“人类最终考试”（Humanities Last Exam, HLE）的超高难度测试。该测试包含2500个问题，横跨数学、自然科学、工程学和人文学科，每个问题都由该领域的顶尖专家设计，难度均达到博士甚至更高水平。

即便是最先进的模型，在该基准上的准确率也仅为个位数。然而，通过海量计算资源的注入，Grok-4（单体版）在没有任何工具辅助的情况下，便成功解决了其中四分之一的问题。

“坦率地说，任何一个人类都不可能在所有这些问题上取得好成绩，”团队成员解释道，“Grok-4在每个科目上都比博士水平更好，没有例外。这并不意味着它已经发明了新技术或发现了新物理，但这只是时间问题。”

而在引入“多智能体协同”机制后，Grok-4的威力再次指数级增长。为了攻克更复杂的难题，xAI推出了Grok-4 Heavy版本。

Grok-4 Heavy版本模拟了一个高效的“学习小组”。系统会并行生成多个AI代理，让它们独立思考和解决问题。随后，这些代理会交换意见、比较思路，当某个代理找到了关键的“诀窍”或解决方案时，它会与所有其他代理分享，最终共同生成一个最佳答案。

通过这种“测试时计算”（test-time compute）的规模化扩展，Grok-4 Heavy成功将HLE难题的解决率提升至超过50%。

除了在学术基准上屠榜，Grok-4更在真实世界应用中展现了惊人的潜力。

在发布会现场，Grok-4 Heavy仅用4.5分钟就分析了Polymarket上的赔率，并计算出洛杉矶道奇队赢得世界大赛的概率为21.6%。它还能实时分析X平台，找出“头像最奇怪的xAI员工”，并自动生成事件时间线。

在API层面，Grok-4的性能同样卓越。

在被誉为“大模型圣杯”的R-KIVE基准测试中，Grok-4的准确率达到了15.8%，是第二名的两倍。

这是试水的还有一个商业模拟活动。

xAI与Andorra Labs合作，在一个名为“自动售货机基准”（Vending Machine Benchmark）的商业模拟中对Grok-4进行了测试。

结果显示，Grok-4不仅能制定并长期坚持有效的商业策略，其最终实现的净资产也是其他前沿模型的两倍。

此外，领先的生物医学研究机构ARC Institute已经在使用Grok-4自动化科研流程，帮助科学家在海量实验日志中快速筛选最佳假设。

一位游戏设计师更是在4小时内，利用Grok-4的API（特别是其强大的工具使用和资产搜集能力）制作出了一款第一人称射击游戏。

发布会还展示了全新的语音模式。新版语音交互的延迟减半，并引入了包括“Eve”（英式女声）和“Sal”（史诗男声）在内的多个全新声音，其自然度和韵律感都达到了新的高度。

现场演示中，Grok-4的语音助手Eve甚至能用歌剧咏叹调来赞美健怡可乐，展现了其惊人的创造力和情感表达能力。

不过团队也承认，Grok-4目前最大的弱点在于多模态能力，尤其是图像理解，他们形容其为“部分失明”。但这一短板将很快被补齐。

“我们正在训练我们基础模型的第七版，它将在几周内完成，”团队透露，“这将解决视觉方面的弱点。届时，模型将能真正地听到和看到世界。”

下一步，xAI的路线图在发布会上也表述的很清晰：

专精编码模型，一个“快速又智能”的专用编码模型正在紧张开发中，预计在未来几周内与用户见面。

计划在未来3到4周内，开始在超过10万个H200 GPU的集群上训练下一代视频模型，目标是在视频生成和理解方面再次飞跃。

Grok4目前已同步上架Grok App和 Web端。

目前网上流出的价格大概如下：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

2026-05-26

Routa 桌面版发布：内建 Harness 工程的 AI Coding 研发协作工作台

2026-05-26

面壁智能BitCPM-CANN：端侧AI的内存革命

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw