我要投稿

Google 悄悄升级了 Deep Think，ARC-AGI-2 直接干到 84.6%

发布日期：2026-02-18 11:14:13 浏览次数： 1517

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

刚刚，Google DeepMind 升级了 Gemini 3 的专用推理模式 Deep Think，跑分直接屠榜了。

要知道，ARC-AGI-2 是目前公认测试 AI 推理能力的前沿基准，之前没有模型能在这上面拿到特别好看的分数。

而升级后的 Deep Think 拿下了 84.6%，对比一下：Claude Opus 4.6 是 68.8%，GPT-5.2 是 52.9%，就连自家的 Gemini 3 Pro Preview 也才 31.1%。

提升巨大。

不止推理

Deep Think 的野心显然不止于推理。

在 Humanity's Last Exam 这个号称「人类最后的考试」的基准上，Deep Think 拿到了 48.4%，这个测试覆盖了数学、科学和工程领域最难的问题。Claude Opus 4.6 得了 40.0%，GPT-5.2 是 34.5%。

编程方面也很猛：

Codeforces 上 Deep Think 达到了 Elo 3455，而 Gemini 3 Pro Preview 是 2512，Claude Opus 4.6 是 2352。

另外在多模态理解和推理的 MMMU-Pro 基准上，Deep Think 也以 81.5% 领跑，不过这里各家差距没那么大：Gemini 3 Pro Preview 81.0%，GPT-5.2 79.5%，Claude Opus 4.6 73.9%。

除了跑分，Deep Think 还在 2025 年物理和化学奥林匹克竞赛的笔试部分拿到了金牌水平的成绩。

要解决科学问题

Google DeepMind 这次特别强调，升级后的 Deep Think 不再只是解题机器，而是要解决真实世界的科学和工程问题。

他们展示了 Duke 大学 Wang Lab 的案例：研究人员用 Deep Think 来设计新型半导体材料，优化复杂晶体的生长过程，这些晶体是高温半导体的候选材料。

还有机械工程领域的研究者用它来迭代物理原型，让硬件迭代达到了软件迭代的速度，这在辅助设备等领域意味着更快的改进周期。

如何使用

升级后的 Deep Think 模式现在已经开始在 Gemini App 中向 Google AI Ultra 订阅用户推送。

对于科研人员和开发者，Google 开放了 Vertex AI 早期访问计划，可以通过 API 使用。

Vertex AI 早期访问：https://goo.gle/4rMHUlq

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-18

谷歌上线Gemini in Chrome，想免费使用还需打怪升级

2026-02-18

Jeff Dean 访谈：一页备忘录催生 Gemini 与万 Token 时代

2026-02-18

大年初二炸场！Claude Sonnet 4.6 突发上线：拥有 Opus 水平，编程能力史诗级进化

2026-02-17

OpenClaw多Agent实操：一个人指挥一支AI军队

2026-02-17

追赶 OpenClaw，Manus 把 Agent 塞进了聊天框

2026-02-16

突发！OpenClaw之父宣布加入OpenAI，小扎抢人失败

2026-02-16

Kimi正式接入OpenClaw，实测和教程看这一篇就够了

2026-02-16

Kimi推出Kimi Claw，原生集成OpenClaw

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

深度解读：OpenClaw 架构及生态

2026-02-03

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

Nano Banana Pro 最全实测：强到离谱！

2025-11-21

大家都在问

一切皆可Agent Skills，无处不在的AI Agent会替代业务流程吗？

2026-02-14

context是什么？怎么用？

2026-02-13

模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么？

2026-02-12

谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

2026-02-12

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

2026-02-11

当我们谈论 AI 推理的 KV Cache，我们在说什么？

2026-02-11

Claude Code，它为何这么狠？

2026-02-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部