支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚,突发,炸裂!Grok 4发布,全科能力超越博士!

发布日期:2025-07-10 14:05:45 浏览次数: 1719
作者:字节笔记本

微信搜一搜,关注“字节笔记本”

推荐语

Grok-4震撼发布,全科能力超越博士,多智能体协同破解人类终极难题!

核心内容:
1. Grok-4训练量提升100倍,全科能力超越博士水平
2. 多智能体协同机制将难题解决率提升至50%以上
3. 在商业、科研、游戏等真实场景展现强大自动化能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大概也只有Grok 4才能配上“刚刚,突发,炸裂”这些美轮美奂的词汇了。

就在刚刚,xAI举办了一场信息密度极高的发布会,正式揭开了其最新、最强大模型——Grok-4的神秘面纱。

发布会上,xAI团队详细阐述了从Grok-2到Grok-4的飞跃式发展。其核心驱动力,是前所未有的计算规模投入。团队宣称,Grok-4的训练量比Grok-2增加了整整一百倍。

而Grok-4的实际表现也超出意外,全科能力超越博士,多智能体系统破解人类终极难题,在所有学术科目上实现了超越博士(PhD)的水平。

同期推出Grok-4 Heavy多智能体版本,通过“学习小组”式的协同推理,将“人类最终考试(HLE)”难题的解决率提升至50%以上。

参数上,在API基准测试中性能2倍领先,并在商业模拟、生物科研、游戏开发等真实场景中展现出强大的自动化和策略制定能力。

App上,全新发布的语音模式,延迟减半,声音更自然;下一代模型将重点补强视觉能力,实现从“部分失明”到真正的多模态理解。

同时,Grok 4的专精编码模型、视频生成大模型已在路上,目标是成为全球发展最快的AGI公司。

“我们正处在智能大爆炸的开端,活在历史上任何时期都无法比拟的有趣时刻,”马斯克表示,“随着智力的增长,这里的曲线是显著的。”

以下是详细:

Grok-4自理措施采用“人类最终考试”(Humanities Last Exam, HLE)的超高难度测试。该测试包含2500个问题,横跨数学、自然科学、工程学和人文学科,每个问题都由该领域的顶尖专家设计,难度均达到博士甚至更高水平。

8093262d-03f5-4a14-b575-137fbf229a3d.png

即便是最先进的模型,在该基准上的准确率也仅为个位数。然而,通过海量计算资源的注入,Grok-4(单体版)在没有任何工具辅助的情况下,便成功解决了其中四分之一的问题。

“坦率地说,任何一个人类都不可能在所有这些问题上取得好成绩,”团队成员解释道,“Grok-4在每个科目上都比博士水平更好,没有例外。这并不意味着它已经发明了新技术或发现了新物理,但这只是时间问题。”

而在引入“多智能体协同”机制后,Grok-4的威力再次指数级增长。为了攻克更复杂的难题,xAI推出了Grok-4 Heavy版本。

Grok-4 Heavy版本模拟了一个高效的“学习小组”。系统会并行生成多个AI代理,让它们独立思考和解决问题。随后,这些代理会交换意见、比较思路,当某个代理找到了关键的“诀窍”或解决方案时,它会与所有其他代理分享,最终共同生成一个最佳答案。

通过这种“测试时计算”(test-time compute)的规模化扩展,Grok-4 Heavy成功将HLE难题的解决率提升至超过50%。

除了在学术基准上屠榜,Grok-4更在真实世界应用中展现了惊人的潜力。

在发布会现场,Grok-4 Heavy仅用4.5分钟就分析了Polymarket上的赔率,并计算出洛杉矶道奇队赢得世界大赛的概率为21.6%。它还能实时分析X平台,找出“头像最奇怪的xAI员工”,并自动生成事件时间线。

998dd61c-9df1-4d43-b6b2-4582d863262f.png

在API层面,Grok-4的性能同样卓越。

在被誉为“大模型圣杯”的R-KIVE基准测试中,Grok-4的准确率达到了15.8%,是第二名的两倍。

这是试水的还有一个商业模拟活动。

xAI与Andorra Labs合作,在一个名为“自动售货机基准”(Vending Machine Benchmark)的商业模拟中对Grok-4进行了测试。

结果显示,Grok-4不仅能制定并长期坚持有效的商业策略,其最终实现的净资产也是其他前沿模型的两倍。

此外,领先的生物医学研究机构ARC Institute已经在使用Grok-4自动化科研流程,帮助科学家在海量实验日志中快速筛选最佳假设。

一位游戏设计师更是在4小时内,利用Grok-4的API(特别是其强大的工具使用和资产搜集能力)制作出了一款第一人称射击游戏。

发布会还展示了全新的语音模式。新版语音交互的延迟减半,并引入了包括“Eve”(英式女声)和“Sal”(史诗男声)在内的多个全新声音,其自然度和韵律感都达到了新的高度。

现场演示中,Grok-4的语音助手Eve甚至能用歌剧咏叹调来赞美健怡可乐,展现了其惊人的创造力和情感表达能力。

不过团队也承认,Grok-4目前最大的弱点在于多模态能力,尤其是图像理解,他们形容其为“部分失明”。但这一短板将很快被补齐。

“我们正在训练我们基础模型的第七版,它将在几周内完成,”团队透露,“这将解决视觉方面的弱点。届时,模型将能真正地听到和看到世界。”

下一步,xAI的路线图在发布会上也表述的很清晰:

专精编码模型, 一个“快速又智能”的专用编码模型正在紧张开发中,预计在未来几周内与用户见面。

计划在未来3到4周内,开始在超过10万个H200 GPU的集群上训练下一代视频模型,目标是在视频生成和理解方面再次飞跃。

Grok4目前已同步上架Grok App和 Web端。


目前网上流出的价格大概如下:

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询