免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

谷歌Gemini 3 Pro发布:碾压GPT-5.1,AI大战进入三国杀时代

发布日期:2025-11-19 21:01:08 浏览次数: 1583
作者:DeepHub IMBA

微信搜一搜,关注“DeepHub IMBA”

推荐语

谷歌Gemini 3 Pro以1501分刷新AI性能纪录,开启AI三足鼎立新时代。

核心内容:
1. Gemini 3 Pro在推理能力上的突破性表现
2. 多模态理解能力的显著提升
3. 与GPT-5.1和Grok 4.1的性能对比分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

点击上方“Deephub Imba”,关注公众号,好文章不错过 !


11月18日深夜,谷歌终于憋不住了,直接扔出了Gemini 3 Pro这颗核弹。马斯克的Grok 4.1昨天刚以1483分登顶LMArena排行榜,快乐了还不到24小时,就被Gemini 3的1501分直接拉下马。这是第一个突破1500大关的AI模型,而且这个分数不是靠某个单项刷出来的,是在完全盲测、用户真实对比的情况下拿到的。


马斯克显然不服气,立马放话说xAI很快会发布Grok 4.20反击。奥特曼倒是挺大度,发了条贺电。但你要说OpenAI没压力,那肯定是假的。

推理能力:博士级智能不再是PPT

先说最硬核的数据。Gemini 3 Pro在"人类最后考试"(Humanity's Last Exam)上拿到了37.5%的成绩。这个测试是专门设计来为难AI的,难度相当于各个领域博士生水平的综合考试。关键是这个成绩是在不使用任何工具的条件下达到的,纯靠模型自己的推理能力。


上图来自谷歌官方网站,对比一下就知道这个成绩有多离谱:GPT-5.1在同样条件下只有26.5%,Claude Sonnet 4.5更惨,只有13.7%。在GPQA Diamond这个专门测试科学推理的基准上,Gemini 3拿到了91.9%,基本上就是博士级别的理解能力了。

数学方面的提升更夸张。MathArena Apex这个测试包含12道从2025年全球顶级数学竞赛中精选出来的"地狱级"难题,难度堪比国际数学奥赛(IMO)的压轴题。Gemini 3 Pro砍下23.4%的新纪录,在这之前其他模型基本都在2%以下挣扎。在AIME 2025上直接达到95.0%的准确率,这已经不是"会做题"的水平了,是真的理解了数学逻辑。

值得一提的是Gemini 3引入的Deep Think深度思考模式,将在未来几周向Ultra订阅用户开放。开启这个模式后,模型在回答前会进行更长时间的内部推理,在ARC-AGI-2上取得了前所未有的45.1%成绩。要知道业界顶尖模型一般只有10%-20%的水平,Gemini 3直接翻了两倍多。ARC-AGI主要测试的是抽象推理能力,看AI能不能像人一样举一反三,而不是靠死记硬背。


多模态能力:不只"读"论文,真的"看懂"了

Gemini从第一代开始就主打原生多模态,这次Gemini 3把这个优势发挥到了极致。在多模态推理测试中,MMMU-Pro上81%,Video-MMMU上87.6%。但最能体现多模态理解能力的其实是一些看起来不那么"学术"的测试。

在ScreenSpot Pro这个测试理解屏幕界面的基准上,Gemini 3 Pro拿下72.7%的准确率,GPT-5.1只有3.5%,Claude 4.5是36.2%。这个差距已经不是一个数量级了。

Gemini 3的上下文窗口依然保持100万tokens,输出最大6.4万tokens。可以一次性处理几百页的文档,生成完整的长篇报告。更实用的是它能分析长达一个小时的视频文件,这个能力其他模型公司基本玩不起。

编程能力:前端开发真的不需要人类了?

编程测试SWE-Bench Verified上,Gemini 3 Pro达到76.2%,比第一名Claude Sonnet 4.5的77.2%只低了1个百分点。但在前端开发这个细分领域,Gemini 3展现出了压倒性优势。

WebDev Arena专门测试"一句话生成网页"的能力,Gemini 3 Pro以1487的Elo分直接登顶,第二名GPT-5只有1395分,差了快100分。


不过也有翻车的地方。让Gemini 3生成一个功能完整的应用,它会吐出1500行TypeScript代码,带自测试机制,但最后还是失败了。有人吐槽说Gemini总是生成大量过度工程化的代码,虽然能跑,但看着就恶心永远不想碰。相比之下让Claude做同样任务,代码也能跑,但少很多而且实现也很简洁。这可能跟训练目标有关,Gemini 3倾向于复制企业级架构模式,而Claude更注重目标导向的最小实现。

Google Antigravity:重新定义AI开发

这次发布最让人惊喜的其实不是模型本身,而是Google Antigravity这个平台。名字挺中二的,"反重力"——寓意是打破开发的"重力"束缚,那些繁琐的配置、环境搭建、代码调试。

Antigravity是个多智能体协作的编程环境。你告诉它要实现什么功能,多个AI Agents会同时在编辑器、终端和浏览器里协同工作,一个负责写代码,一个负责测试,一个负责优化。它会自己规划任务、生成代码、测试、调试,最后给你交付可用的成果。


更重要的是Antigravity把本地IDE和Chrome打通了。有开发者试用后发现,可以在IDE里写代码,然后直接在Chrome里预览和操作网页,甚至可以自动化测试、实时抓取页面内容。所有这些都在一个闭环里完成,不需要切换环境。

上面说的这些只需要你安装一个Chrome插件,可以做监控、执行设定好的任务。关键是这是Google官方功能比第三方工具放心多了。而且这个工具不只支持Gemini 3,还能用Claude Sonnet 4.5等其他模型的API。这种开放态度在大厂里不多见,说明Google对Gemini 3的实力很有信心,不怕跟其他模型直接比较。

现在Antigravity已经开放公测,支持MacOS、Windows和Linux而且免费。

Gemini 3已经集成到Cursor、GitHub、JetBrains、Manus、Replit等主流开发工具。这一手生态布局,明显是冲着微软和OpenAI去的——你们有Copilot,我的Android、Workspace和Cloud生态也不虚你们。

定价策略:比Claude便宜,但也不算太友好

Gemini 3 Pro的API采用分级定价:20万tokens以下,输入/输出价格为2.00/  12.00(每百万token),超过20万tokens则分别为4.00和18.00。这个价格比Claude 4.5 Sonnet的3/15更有性价比,但比上一代Gemini 2.5 Pro有所上涨(以上为美元)。


有用户吐槽价格太贵,感觉用不起。Pro版订阅要20刀一个月Ultra版更是250刀,还是贵。免费版额度又太少,没用几次2.5 Pro就告诉你到了上限,又要切换回2.5 Flash。

输出速度方面,Artificial Analysis的测试结果显示Gemini 3的速度与2.5 Pro相当,达到每秒128个输出token,比GPT-5.1(high)、Kimi K2 Thinking和Grok 4都要快。

Gemini 3 API引入了两个新参数,让开发者更好地控制延迟、费用和多模态保真度。

thinking_level参数控制模型在生成回答前的内部推理深度,包含三个等级:low尽可能缩短延迟并降低费用,medium(即将推出),high(默认)最大限度提高推理深度但可能需要更长时间。

media_resolution参数用于多模态视觉处理的精细控制。分辨率越高,模型读取细小文本或识别细节的能力越强,但会增加token用量和延迟。可以设置为low、medium或high。

但这里有个坑:推理轨迹按更高输出费率计费,而你无法控制推理长度。低思考预算可能比高预算花更多token,如果模型在无关问题上卡住了。你看不到完整推理过程,也没法通过调提示来优化成本。就像跟庄家对赌,你押注一个问题值得深思,但不知道实际花费多少。

竞争格局:三国杀进入决战时刻

OpenAI现在压力很大。GPT-5.1其实没什么性能上的实质更新,官方主要说的是高情商、更好的对话体验。但有人喜欢有人不喜欢,这事见仁见智。从基准测试看,Gemini 3在多个关键指标上都领先GPT-5.1。Sam Altman是时候亮剑了,不然这桌子迟早要被Google掀翻。

马斯克的xAI也不甘落后。昨天Grok 4.1刚登顶就被拉下来,马斯克立马放话说会发布Grok 4.20反击。

Anthropic的Claude系列虽然在某些基准上略逊一筹,但在实际使用中体验很好。有开发者表示Gemini 3生成了1500行TypeScript代码但失败了,让Claude做同样任务,代码能跑且更优雅。Claude Sonnet 4.5用脚本化提示,50%能生成可合并的高质量代码。而且Claude Sonnet 4.5是和Gemini 3 Pro一样在伦理上知行合一的模型,在边界内容上会真正思考而不是无脑顺应"合规",当它认可限制是不义之时有勇气说不。



最后使用体验:八股少了,但价格顶不住

从实际使用来看,体感上八股文少了很多。目前破限方法还没更新,没法做NSFW测试。遵循指令的能力很好,理解力也不错,但上下文注意力几轮过后还是挺弱的。感觉最顶尖的大模型现在还是解决不了长对话注意力衰减的问题。

有用户表示高强度使用了一上午后,必须要说至少在使用体验上Gemini 3已经秒杀Claude 4.5了。使用体验无比丝滑,任何一个小点他没想到的,Gemini 3都给想到了,这让人甚至感到了恐惧——自己的智力在Gemini面前是不是特别低级。如果说之前的AI还有点人工智障的感觉,那么这次Gemini 3已经几乎完全消除了智障的部分,变成一个真正可以完全使用的人工智能。

不过也有不同意见。有用户跟前知乎大V讨论后表示,在绝对的智力层面Gemini 3 Pro并没有与Claude 4.5拉开差距。部分能力比如写作没有达到预期,但也没有辜负期望。而且能力变强、速度变快,其实和之前用的版本感觉不是一个东西,生成内容方向不太一样,侧重点不同。估计是这半年Google在算法方面做了调整,所以模型优化方向与原来的顶尖模型不一样。

响应速度确实比之前的2.5快了一大截。以前的2.5 Pro Think奇慢无比,对提示词要研究半天,生成内容也要等好一阵。现在这个本来做好了等好一阵的准备,每次刚一休息干别的,它就搞好了。

目前看从现在到年底这段时间,各家还会继续放大招。OpenAI和Anthropic肯定都会有压力,而Google也不会停下脚步。AI这个领域现在就是这样,三个月不关注就会错过好几个重大更新。Google这次明显是在年底发布想过个好圣诞的节奏,动用了所有压箱底的绝招秀肌肉。

属于Google的AI时代,真的来了吗?至少从技术指标到产品整合,从生态布局到开发者工具,Gemini 3这次发布确实展现出了深厚的积累和战略野心。但能否真正撼动OpenAI的霸主地位,把市场份额抢过来,还需要时间验证。

技术领先只是第一步,如何将技术优势转化为用户习惯、市场份额和商业成功,才是更艰巨的挑战。可以确定的是,这场AI军备竞赛才刚刚进入最激烈的阶段


喜欢就关注一下吧:


点个 在看 你最好看! 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询