微信扫码
添加专属顾问
我要投稿
Google DeepMind的Deep Think模式在多个前沿基准测试中全面领先,展现AI推理能力的重大突破。 核心内容: 1. Deep Think在ARC-AGI-2等关键基准测试中大幅超越竞争对手 2. 实际应用案例展示其在科学研究和工程领域的强大能力 3. 开放Vertex AI早期访问计划,推动AI技术落地应用
刚刚,Google DeepMind 升级了 Gemini 3 的专用推理模式 Deep Think,跑分直接屠榜了。
要知道,ARC-AGI-2 是目前公认测试 AI 推理能力的前沿基准,之前没有模型能在这上面拿到特别好看的分数。
而升级后的 Deep Think 拿下了 84.6%,对比一下:Claude Opus 4.6 是 68.8%,GPT-5.2 是 52.9%,就连自家的 Gemini 3 Pro Preview 也才 31.1%。
提升巨大。
Deep Think 的野心显然不止于推理。
在 Humanity's Last Exam 这个号称「人类最后的考试」的基准上,Deep Think 拿到了 48.4%,这个测试覆盖了数学、科学和工程领域最难的问题。Claude Opus 4.6 得了 40.0%,GPT-5.2 是 34.5%。
编程方面也很猛:
Codeforces 上 Deep Think 达到了 Elo 3455,而 Gemini 3 Pro Preview 是 2512,Claude Opus 4.6 是 2352。
另外在多模态理解和推理的 MMMU-Pro 基准上,Deep Think 也以 81.5% 领跑,不过这里各家差距没那么大:Gemini 3 Pro Preview 81.0%,GPT-5.2 79.5%,Claude Opus 4.6 73.9%。
除了跑分,Deep Think 还在 2025 年物理和化学奥林匹克竞赛的笔试部分拿到了金牌水平的成绩。
Google DeepMind 这次特别强调,升级后的 Deep Think 不再只是解题机器,而是要解决真实世界的科学和工程问题。
他们展示了 Duke 大学 Wang Lab 的案例:研究人员用 Deep Think 来设计新型半导体材料,优化复杂晶体的生长过程,这些晶体是高温半导体的候选材料。
还有机械工程领域的研究者用它来迭代物理原型,让硬件迭代达到了软件迭代的速度,这在辅助设备等领域意味着更快的改进周期。
升级后的 Deep Think 模式现在已经开始在 Gemini App 中向 Google AI Ultra 订阅用户推送。
对于科研人员和开发者,Google 开放了 Vertex AI 早期访问计划,可以通过 API 使用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-21
我用 Qwen 3.7 从 0-1 用 AI 搓了一款武侠 RPG 游戏,绝了!
2026-05-21
Codex 官方分享:如何把 Codex 用到极致
2026-05-21
蚂蚁百宝箱正式发布AI构建能力:自然语言一键生成企业级智能体,助力业务创新提效
2026-05-21
前有用友YonClaw,今有金蝶灵基,中国软件双雄的AI底牌谁能笑到最后?
2026-05-21
Opus 4.7 正在吸收你的 Harness
2026-05-21
阿里云推出「千问.Skills」,一个 Agent 就能调度百炼多模态能力
2026-05-20
没更新Antigravity的先别动,更新了的我先替你们哭一会
2026-05-20
刚发布的Antigravity 2.0:从开发到管理的一跃
2026-04-15
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-04-07
2026-03-21
2026-04-24
2026-03-06
2026-05-21
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26