微信扫码
添加专属顾问
我要投稿
马斯克发布Grok4,号称"世界上最智能的AI",在超高难度基准测试中全面超越竞争对手。 核心内容: 1. Grok4的性能突破:推理能力与基准测试表现 2. 实际应用演示:从市场预测到多模态理解 3. 订阅模式与未来发展:每月30美元起的服务计划
长话短说
马斯克发布了 Grok4,推理模型,对标 o3
Grok 4 需要订阅才能使用,$30/月起
网站在 https://grok.com/
下面是本次发布会的具体,整理如下
原视频在这(下面有地址)
5:22 Elon Musk 登台,发布会正式开始。
马斯克表示 Grok 4 是“世界上最智能的 AI”,并称其进化速度“远超任何人类”。Grok 4 具备卓越的推理能力,即使面对从未见过的考题,也能在 SAT 和 GRE 等高难度考试中取得近乎完美的成绩。
马斯克表示:Grok 系列展现出“荒谬的进步速度”(Ludicrous rate of progress)。从 Grok 2 到 Grok 4,每一代模型的训练计算量增加约 10 倍,总增幅达 100 倍。
除了预训练计算,还大量投入在推理(RL compute)计算上,以增强思考与解决问题的能力。
介绍名为“人类最终考试”(Humanity's Last Exam)的超高难度基准测试。该测试包含 2500 个专家级问题,涵盖上百个学科。
据称,没有任何人类能在所有领域达到博士后水平,但 Grok 4 实现了这一点。图表结果显示,Grok 4 及 Grok 4 Heavy 在 GPQA、AIME25、HMMT 等多个顶级基准测试中,表现全面超越所有竞争对手,包括 Claude Opus 4 与 Gemini 2.5 Pro。
发布中,做了一些 Grok 4 实际应用能力演示
现实世界预测
在预测平台 Polymarket 上分析 2025 年 MLB 世界大赛冠军,Grok 4 不仅浏览了赔率,还结合 FanGraphs 的数据计算出自己的概率,识别出市场赔率与实际概率之间的差异,找到了“Alpha”和“Edge”
多模态与主观理解
在 X 平台上找出“xAI 员工最古怪的头像”,这表明 Grok 4 能够理解“古怪”这样的主观概念,并搜索和分析图片
信息整合与摘要
“人类最终考试”分数变化的 X 帖子时间线,展示了其从社交媒体上整合信息、提取关键事件并按时间排序的能力
代码与可视化生成
根据一个物理学提示,Grok 4 生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画,展示了其将复杂科学概念转化为代码和动态可视化的能力
Grok 4 语音模式迎来重大改进:端到端延迟减半,对话更流畅。发布五种全新的、极具表现力的声音,包括史诗感的“Sal”和带有丰富情感的英音“Eve”。
现场演示中,Eve 能以温柔语调安抚提问者,并即兴创作关于健怡可乐的歌剧,展现了其出色的自然度和情感表达。
宣布推出“SuperGrok Heavy”付费等级(每月300美元)。该版本允许用户调用 Grok 4 Heavy,它会像一个“学习小组”一样,并行启动多个智能体(Agents)共同解决复杂问题,通过比较和筛选,最终得出最佳答案。
在 ARC-AGI (之前奥特曼介绍的)榜单中,Grok 4 在 v1 中超过 o3,在 v2 中两倍于 o3。(注意,比不上 o3-pro)
我之前还写了一份有关 ARC-AGI 的介绍
另一个榜单是商业场景模拟:“自动售货机基准测试”(Vending-Bench)。在这个测试中,AI 需要管理库存、联系供应商、设定价格等。
结果显示,Grok 4 的表现远超其他前沿模型,其创造的净值是第二名(Claude Opus 4)的两倍以上,展现了其在复杂、长周期任务中的战略规划和执行能力。
公布未来产品路线图:
预测:AI 将在今年晚些时候或明年发现真正有用的新技术,甚至可能在 1-2 年内发现新的物理学原理。
发布会以强调 AI 安全最重要的是“最大限度地寻求真理”作为核心思想。我们正处在“智能大爆炸”的开端,这是历史上最激动人心的时刻。
最后以《银河系漫游指南》中的经典名句“再会,谢谢所有的鱼”(So long, and thanks for all the fish)结束。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-10
实战、通俗、落地:大模型浪潮指南
2025-07-10
从谨慎检查到一键接受,TRAE 如何成为我的主力 IDE?
2025-07-10
2025上半年,AI Agent领域有什么变化和机会?| 峰瑞研究所
2025-07-10
刚刚,马斯克发布Grok-4,在各大基准测试上表现太猛了。
2025-07-10
马斯克发布Grok 4,推理能力全面登顶,支持四个代理同时工作
2025-07-10
xAI 发布 Grok 4,它具备超人级别的推理能力!
2025-07-10
刚刚,突发,炸裂!Grok 4发布,全科能力超越博士!
2025-07-10
垂直赛道 Agent 闷声发财指南:如何实现一年超千万营收?
2025-05-29
2025-04-12
2025-04-29
2025-04-29
2025-05-23
2025-04-12
2025-05-07
2025-05-07
2025-05-07
2025-06-01
2025-07-10
2025-07-10
2025-07-10
2025-07-09
2025-07-08
2025-07-07
2025-07-05
2025-07-04