我要投稿

谷歌爹又放大招了，Gemini 3 Deep Think年度最强没有之一

发布日期：2025-12-09 12:16:58 浏览次数： 2501

作者：硅基思维

微信搜一搜，关注“硅基思维”

前几天一个做量化的朋友问我，说 Google 刚发布了个 Gemini 3 Deep Think，号称是他们最强的推理模型，你怎么看？

我说这玩意其实很值得聊，不是因为它本身有多厉害，而是它代表着整个 AI 行业的一个巨大转向——从比拼"知道多少"转向比拼"能想多深"。

这个转向，对我们普通人来说意味着什么？今天展开说说。

简单来说，Gemini 3 Deep Think 是 Google 刚发布的一个高级推理模式，专门用来解决复杂的数学、科学和逻辑问题。

它最核心的技术叫"高级并行推理"，说人话就是：它不是像我们一样一步一步想问题，而是同时展开好几条思路，在多个假设之间来回验证。有点像下围棋的时候，高手会同时在脑子里推演好几个变化图，而不是只盯着一条线走。

在几个业内最难的测试里，这货的表现确实惊人：

•"人类终极考试"(Humanity's Last Exam)：在不使用任何工具的情况下拿了 41%。这个考试是专门为了难倒 AI 设计的，题目都是那种连顶尖专家都得挠头的硬骨头。•ARC-AGI-2 测试：45.1%（配合代码执行）。这个测试考的是 AI 面对从未见过的新问题时的推理能力，基本上就是考"智商"。•GPQA Diamond：93.8%。这是个研究生级别的科学推理测试。

而且根据 Google 的说法，这个 Deep Think 的前身变体已经在国际数学奥林匹克竞赛和国际大学生编程竞赛世界总决赛中达到了金牌水平。

听起来很牛逼对吧？但光看自己的成绩没意思，得跟对手比才能看出水平。

Google 这次发布的时候，很贴心地放了一张对比图，把市面上几个顶级模型都拉出来比了一遍。我给大家翻译翻译这张图说了啥。

第一个测试：Humanity's Last Exam（人类终极考试）

这是个专门为了难倒 AI 设计的测试，考的是推理和知识综合能力，题目都是那种博士级别的硬题。

Deep Think 直接拉开了一个身位。有意思的是，GPT-5 系列虽然不如 Deep Think，但也比上一代 Gemini 2.5 Pro 强不少。而 Claude Sonnet 4.5 在这个测试上表现一般，只有 13.7%。

第二个测试：GPQA Diamond（科学知识）

这是个研究生级别的科学推理测试，考的是你对物理、化学、生物这些硬科学的理解深度。

这个测试大家都考得不错，差距没那么大。Deep Think 领先，但优势不算碾压级别。说明在"科学知识"这个维度，各家模型都已经很强了，差别主要在推理能力上。

第三个测试：ARC-AGI-2（视觉推理谜题）

这个测试最有意思，考的是 AI 面对从未见过的新问题时的推理能力。不是背答案，而是真正的"智商测试"。

这个差距就大了。Deep Think 的 45.1% 几乎是 GPT-5.1 的三倍，是上一代 Gemini 2.5 Pro 的近十倍。

这说明什么？说明 Deep Think 的核心优势不是"知道得多"，而是"想得深"。在那些需要真正动脑子、面对全新问题的场景下，它的优势才会充分体现出来。

真正有意思的是，Google 终于不装了。

过去这两年，AI 圈一直有个很微妙的分歧。OpenAI 的路线是做"推理模型"，比如 o1、o3，这些模型的特点是会"慢思考"，给它一道难题，它会花很长时间去推演，就像人类解数学题一样，一步步验算。

而 Google 之前一直在强调"多模态"、"上下文长度"、"实时联网"这些能力，给人的感觉就是：推理？那是 OpenAI 的路子，我们走的是另一条路。

现在 Google 直接推出 Deep Think，而且直接对标那些最难的推理测试，等于在说：行，推理大战你们想打，那就打。

这意味着什么呢？意味着整个行业已经形成共识——下一阶段 AI 的核心战场，不再是谁知道的信息多，而是谁能更好地"思考"。

原因很简单，信息这玩意太好获取了。互联网上的知识，只要喂进去，模型都能学会。真正难的是什么？是怎么把这些知识串起来，怎么面对一个全新的问题，用已有的知识推导出答案。

这就是"推理"。

很多人看到 Google AI Ultra 的订阅价——每月 250 美元，第一反应是：这也太贵了。

确实贵。OpenAI 的 ChatGPT Pro 也就 200 美元，已经被骂得够呛了。Google 直接 250，看起来更离谱。

但我想说个不一样的视角。

贵和不贵，从来不是看绝对价格，而是看它能帮你省多少钱、赚多少钱。

举个例子，我认识一个做投资研究的老哥，他团队之前雇了两个研究员专门做数据分析和报告整理，一个月工资加社保得四五万。现在他用 GPT-4 + Claude 搭了一套工作流，那两个人的活，AI 大概能干掉 70%。

250 美元一个月算什么？一个研究员一天的工资都不止这个数。

当然，对普通人来说，这价格确实没必要。你平时问问天气、写写邮件、翻译个文档，免费版的 AI 绑绑有余。

但这个定价本身就说明了一件事：Google 很清楚这东西是卖给谁的。不是卖给刷朋友圈的吃瓜群众，是卖给那些真正需要高强度推理能力的专业人士和企业。

科学家、量化分析师、律师、高端咨询顾问……这些人的时间值钱，他们面对的问题也足够复杂，能把 Deep Think 的能力用到极致。

可能有人会说，这跟我有啥关系，我又不是科学家，也不是什么高端用户。

关系大了。

当顶级 AI 的推理能力越来越强，那些需要"动脑子"的工作，被替代的速度会越来越快。

以前我们说 AI 会替代重复性劳动，比如数据录入、流水线作业。这没错，但这只是第一波。

第二波是什么？是那些看起来需要"思考"的工作，但实际上是可以被流程化的脑力劳动。

比如初级的法律分析、基础的财务审计、标准化的咨询报告撰写。这些工作以前需要"聪明人"来做，因为里面涉及到一些推理和判断。但当 AI 的推理能力足够强，这些工作的门槛就被击穿了。

我见过一个很极端的案例。一个做企业战略咨询的小团队，以前接一个项目要三四周出报告，团队六七个人连轴转。现在他们用 AI 做初步分析和框架搭建，同样的项目周期压缩到一周，人员减到三个。

这不是裁员，这是"效率革命"。但效率革命的另一面，就是有些岗位会消失。

所以对普通人来说，这个趋势的意义在于：不要把自己定位成"执行层"，要往上走，走到 AI 暂时还干不了的位置。

什么位置 AI 干不了？

•需要跟人打交道、建立信任的工作（销售、商务、管理）•需要创造力和审美判断的工作（设计、内容创作、品牌策划）•需要处理非标准化问题的工作（复杂的项目管理、危机公关）•需要体力+脑力结合的工作（医生、维修技师、现场工程师）

注意，我说的不是 AI 永远干不了，而是"暂时"。这个暂时可能是三年，可能是十年，但肯定不是永远。所以持续学习、持续进化，是这个时代的基本生存技能。

最后聊一个更深层的问题。

很多人担心 AI 变得太聪明会怎样，这种担心我觉得有一定道理，但不是最核心的问题。

核心问题是：AI 变聪明之后，它的能力会被谁掌握、用来做什么？

你看 Google 这次发布 Deep Think，定价 250 美元一个月。OpenAI 的 o1 Pro 模式也是类似的高价。这意味着什么？意味着最强的 AI 能力，首先是掌握在付得起钱的人手里。

大企业、高端用户能用这些顶级 AI 进一步提升效率、拉开差距。而普通人只能用免费或低价版本，功能被阉割，能力被限制。

技术本身是中性的，但技术的分配从来不是公平的。

这不是说 Google 或者 OpenAI 有什么错，商业公司定高价卖高端产品天经地义。我想说的是，作为普通人，要看清这个现实，然后想办法在这个现实里找到自己的位置。

好消息是，开源社区一直在追赶。Meta 的 Llama、各种开源模型都在进步，虽然跟顶级闭源模型有差距，但差距在缩小。而且很多时候，普通人需要的功能，开源模型也能满足。

关键是你要知道自己需要什么，然后找到最适合自己的工具。

总结一下今天的内容：

1.Google 发布 Gemini 3 Deep Think，代表 AI 行业正式进入"推理能力大战"阶段。2.这东西很贵（250 美元/月），但它是给专业用户准备的，普通人没必要焦虑。3.对普通人来说，真正要关注的是：当 AI 推理能力越来越强，你的工作是不是在"被替代"的队列里？4.应对策略很简单：往上走，走到需要"人味儿"的位置；持续学习，保持进化。

AI 这东西，不用太恐惧，也不要太迷信。它就是个工具，关键是你怎么用它，以及你怎么让自己不被它替代。

世界一直在变，能活下来的从来不是最强的，而是最能适应变化的。