微信扫码
添加专属顾问
我要投稿
谷歌Gemini 3.0震撼发布,百万级上下文窗口+全链路Agent能力直接碾压Claude和GPT! 核心内容: 1. Gemini 3.0的多模态整合与智能体性能突破 2. 百万级上下文窗口对比竞品的绝对优势 3. 稀疏混合专家架构带来的高效能计算革命
刚刚,谷歌发布了其划时代的 AI 模型——Gemini 3.0,与过去以往发布模式不同的是,这次谷歌甚至连一场发布会都没有召开。
过去几个月,谷歌的 Gemini AI 一直深陷争议之中。隐私诉讼、图像生成失败、API 变更破坏性升级激怒了开发者,各种负面新闻层出不穷。人们纷纷指责谷歌急于将产品推向市场,偷工减料,最终在人工智能竞赛中败给了 OpenAI。
在一片骂声中,谷歌只通过一篇博客就放出重磅模型的行为也就不难理解了。
代表 Gemini 团队的谷歌 DeepMind CEO Demis Hassabis 和谷歌 DeepMind CTO 兼谷歌首席人工智能架构师 Koray Kavukcuoglu 共同在官网上发布了这款最强模型的详细介绍。
据介绍,Gemini 3 是谷歌迄今为止 最智能、适应性最 强的模型,能够帮助应对现实世界的复杂性,解决需要增强推理和智能、创造力、战略规划以及逐步改进的问题。它特别适用于需要:智能体性能、高级编码、长上下文和 / 或多模态理解,以及 / 或算法开发的应用。
Gemini 从一开始就旨在无缝整合任何主题的多模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级上下文窗口,相比之下,Claude Sonnet 4.5 和 GPT 5.1 的最大输出量停留在数万或者数十万级别。
Gemini 3.0 已第一时间登陆 AI Studio、Gemini CLI,以及 Cursor、GitHub、JetBrains、Cline 等最重要的开发者入口。
谷歌还表示,今天起,将发布 Gemini 3 Pro 预览版,并将其集成到一系列 Google 产品中。此外,谷歌还将推出 Gemini 3 Deep Think——这是其增强的推理模式,可进一步提升 Gemini 3 的性能——并在向 Google AI Ultra 订阅用户开放之前,先向安全测试人员开放试用。
Gemini 3 Pro 虽然也采用的是稀疏混合专家(MoE)架构,但并不是先前模型的修改或微调版本。这种基于 MoE 设计的核心优势在于实现了总模型容量与单 token 计算成本的解耦——模型可通过大规模参数储备提升能力上限,同时仅激活部分参数完成计算,在保证性能的同时显著降低资源消耗。
例如,如果想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。
或者,如果想学习某个新主题,用户可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助您掌握相关知识。
它甚至可以分析匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助全面提升球技。
在 2.5 Pro 成功的基础上,Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的 Web 用户界面。
据谷歌称,Gemini 3 还是谷歌迄今为止构建的最佳 Vibe Coding 和代理编码模型,它使得谷歌的产品更加自主,并显著提升了开发者的效率。
而在代码能力之外,Google 这次更大的动作,是试图借 Gemini 3 彻底重塑开发体验,让其从“代码自动补全”迈向“Agent-first”。
伴随 Gemini 3 发布,他们推出了全新的智能体开发平台 Google Antigravity,目标是让开发者从具体指令、单次调用,跃迁到更高层次的“任务导向型开发”。据说,这是谷歌自己的 VS Code 分支。
除了 Gemini 3 Pro,Antigravity 还深度集成了最新的 Gemini 2.5 Computer Use 模型(用于浏览器自动化操作)以及 Nano Banana。
Gemini 3 系列模型的成功离不开谷歌全栈技术生态的支撑。硬件层面,模型完全基于谷歌张量处理单元(TPU)集群训练,这种专为大语言模型设计的芯片凭借高带宽内存和并行计算能力,较传统 CPU 实现了训练速度的数量级提升。通过 TPU Pods 集群的分布式部署,谷歌将庞大的训练任务拆分至多个设备并行处理,既保证了模型训练的效率,又通过硬件优化践行了可持续运营承诺。
在数据层面,Gemini 3 Pro 的训练数据体系呈现出多元化与高合规性的双重特征。其数据集不仅包括公开网页数据、可下载数据集及商业许可数据,还纳入了符合谷歌服务条款的用户互动数据、员工生成数据及 AI 合成数据。
为平衡数据丰富性与安全性,谷歌建立了多维度数据处理机制:通过遵守 robots 协议规范爬虫行为,利用安全过滤技术践行 AI 安全承诺,同时针对儿童性虐待材料(CSAM)等违法内容实施专项过滤。
特别值得注意的是,模型在训练过程中融入了强化学习技术,通过多步推理、定理证明等专业数据优化问题解决能力。
具体而言,Gemini 3 Pro 在各项基准测试中表现如何?
我们在这里专门从 代码能力、数学推理能力,以及 Agent(工具使用与长期任务)能力 三个维度,对 Gemini 3 Pro 的能力进行解读。
在代码生成和工程落地上,Gemini 3 Pro 的跃升非常明显。
在 LiveCodeBench Pro(接近 ICPC / Codeforces 难度的竞技编程)上,Gemini 3 Pro 得分 2439(Elo,数值越高越好),不仅高于 GPT-5.1 的 2243,也远超 Claude 4.5 的 1418。这个分数段基本已经逼近“专业竞赛级程序员”的水平,而且在同类模型中优势最为明显——在高难度算法与数据结构题上,G3 Pro 已经是第一梯队。
在 SWE-bench Verified(真实 GitHub issue 自动修复,Agentic coding)上,Gemini 3 Pro 得分 76.2%,与 GPT-5.1 的 76.3% 几乎持平,略低于 Claude 4.5 的 77.2%。SWE-bench Verified 更接近真实工程环境:多文件仓库、测试驱动、一次性打补丁。G3 Pro 在这一指标上已经稳居顶级模型阵营,与 GPT-5.1 和 Claude 4.5 基本等价,而相较 2.5 Pro 则是一次“代际级”跨越。
在数学方面,AIME 2025 这一项,Gemini 3 Pro 裸分为 95%,开启 code execution 后可以做到 100%。这里的 “100% with code execution” 意味着模型能够主动调用 Python 等工具链完成严格推导——这其实是 Agent 能力与推理能力深度融合 的一个关键信号。这个成绩不仅高于 GPT-5.1 的 94%,也领先于 Claude 4.5 的 87%(Claude 同样在开启 code execution 时可达 100%)。
AIME 2025 被认为是全球最难的高中奥数试题集合,MathArena Apex 的难度则接近大学高等数学 / 奥数级别。在 MathArena Apex 上,Gemini 3 Pro 远超其他模型(Gemini 2.5 Pro 仅 0.5%)。因此,Gemini 3 Pro 的核心升级并不仅仅是模型变大,而是 “推理能力 + 工具链整合” 的双重跃迁。
在 Agent 能力方面,Gemini 3 Pro 的提升可以说是“断层式”的。无论是工具调用、操作系统级任务,还是跨阶段的长期规划,它都展现出了超越前代、并跻身行业顶尖的综合能力。
t2-bench(工具调用 & 操作系统任务,Agentic tool use),Gemini 3 Pro 得分 85.4%,与 Claude 4.5 的 84.7% 基本持平,明显高于 GPT-5.1 的 80.2%,远超 2.5 Pro 的 54.9%。t2-bench 主要考察模型在真实软件环境中“使用工具执行任务”的能力,包括 API 调用、函数调用、文件操作、系统指令执行等典型 Agent 行为。
这一项是“Agent 的真正核心竞争力”。Gemini 3 Pro 在此不仅与 GPT-5.1、Claude 4.5 并列顶尖阵营,还明显比上一代 2.5 Pro 高出一个量级。
Vending-Bench 2(长期任务规划,越高越好),Gemini 3 Pro 得分 $5,478,显著高于 Claude 4.5 的 $3,838,大幅领先 GPT-5.1 的 $1,473,也远超 2.5 Pro 的 $573。Gemini 3 Pro 的表现可以说是“代际级领先”。在长任务执行、自动化工作流、任务可靠性上,它不仅进入第一梯队,甚至与竞品拉开了非常明显的差距。
Terminal-Bench 2.0(Unix 环境指令执行 & 自动修复)中,Gemini 3 Pro 得分为 54.2%,明显高于 GPT-5.1 的 47.6%、Claude 4.5 的 42.8%,以及 Gemini 2.5 Pro 的 32.6%。
Terminal-Bench 测试的是一个 Agent 在真实 Unix 环境中能否读日志、定位问题,执行文件系统操作,修改配置并验证结果,完成类似 CI 的自动修复流程——本质上是在回答一个问题:“这个东西能不能真的上生产系统?” 在这一项上,Gemini 3 Pro 的表现同样处于显著领先的位置。
这种能力跃升背后,是谷歌对“AI + 软件开发”路线的集中押注。
在今年 2 月推出 Gemini 2 后,谷歌在 4 月迅速调整了 Gemini 的管理层,将领导权交给了 Google Labs 负责人 Josh Woodward——这位同时负责 otebook LM 与 Project Mariner(Chrome 控制 Agent)的产品负责人,长期深耕“AI + 软件开发”,对编码工作流与 Agent 思维方式有深刻理解。
Woodward 在多次公开讨论中也强调了同一件事:代码,是 Google 内部规模最大、持续增长最快的 AI 应用场景。“Google 有上万名工程师,而 AI 正在重塑整个软件生产流程,所以我们会从‘软件开发的未来是什么样?’开始思考,既对 Google 内部构建,也对外部用户负责。”
Jeff Dean 也曾公开表示,Google 内部已有 25% 的代码由 AI 自动生成,而且这个比例还在快速增长。换句话说,Gemini 每一次的迭代,都直接影响着谷歌数万工程师的生产方式。
按 Woodward 此前的说法,编程是一个被低估的方向:“如果你能让代码模型自己写代码、自己纠错、自己修复、自己迁移旧系统,那你会发现:原本已经很快的技术进步曲线,会被彻底改写。 所以我觉得这块虽然已经炒得很热了,但远远不够热,它应该被炒得更热。”
在他看来,未来系统将依赖更长上下文、更深的工具链整合以及更强的自动化能力去完成复杂工作流,而编码能力正是这一切的地基。换句话说,Gemini 的代码能力不只是产品特性,而是 Google 推动下一代 Agent、自动化系统和 AI 原生软件工程的战略支点。
从这组信号来看,Gemini 3 Pro 在代码生成、工程修复与 Agent 能力上的大幅跃升,并不是偶然,而是谷歌从领导层到产品方向的刻意押注。
Gemini 3 才发布不到一小时的时间,网上的讨论早已铺天盖地,甚至比产品本身更“热闹”。在 Hacker News、Reddit 等平台上,从专业开发者到普通用户,评论区呈现出罕见的两极分化:有人直呼“终于追上了”、有人冷嘲“你这不叫卷,这是自救”,也有人担心谷歌是否还能回到巅峰时代。
在 Reddit 上,有用户表示:“至少这次没摆烂,性能上终于能正面跟上 GPT 系列。”
还有用户称: “多模态响应速度快了很多,尤其是视频理解像那么回事了。代码能力回来了,谷歌终于不像去年那么迷茫。”
但也有用户对 Gemini 3 表示失望。该网友认为谷歌这次并没有交出很好的答卷。
在 X 上,有网友吐槽了谷歌这次模型发布的形式过于枯燥。他认为需要改进的可能并不是模型本身,而是谷歌的发布方式。他评论称:“只有博客文章的发布形式太无聊了。”
还有网友表示,大模型进入到现在这个阶段后,对用户来说更具性价比的产品更能吸引和留住用户。
“实际上,采取一种更为务实的策略或许是可取的:推出一些在技术上未必最前沿,但在经济上极具吸引力的产品。当前,模型在某些高度专业化或小众领域(例如深度推理、金融、哲学等)的性能提升,对大多数用户而言已不易感知,甚至难以察觉。
如果能推出一款产品,在内存容量、上下文窗口大小上超越 GPT-5.1将极具竞争力。
一旦技术性能的增长进入平台期,企业就必须通过功能创新实现差异化,或是通过降低成本来维持竞争力。如果他们选择后者,并借此削弱 OpenAI 的用户获取与留存能力,这或许将改变市场竞争格局——OpenAI 可能难以承受用户增长放缓甚至流失的压力,而谷歌这类公司则更有能力应对这样的局面。”
参考链接:
https://blog.google/products/gemini/gemini-3/
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。
2025 年的科技浪潮令人应接不暇。技术变化密集、层级交叠,让人眼花缭乱。临近年终,为了把有限的篇幅用在大家最关心的领域,我们今年希望借助投票的方式,选出数个关键领域进行趋势盘点。大家可以勾选出你最想看到的 3 个方向(可多选)。
除此之外,你还想看哪个方向的盘点? 有什么现象或争议点你希望我们“深扒”一下?哪些趋势你觉得太迷,需要专家带你看懂?对于年终盘点,大家有任何想法,都非常欢迎在评论区留言告诉我们!
🔔 AI 领域新风向,大咖直播来袭!
预约加入,我们将带您解锁 AI 产品商业化的秘密,探索 AI Coding 革新之路,以及基础设施的新方向!紧跟技术潮流,赋能未来发展!同时欢迎各界顶尖的 AI 产品、项目、解决方案积极参与 InfoQ 年终技术力量榜单评选【可扫码提报项目】
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-19
Google发布Gemini 3,你想看的都在里面
2025-11-19
Gemini 3 Pro 发布了:这一次,Google 终于端出了一盘“真菜”
2025-11-19
低成本构建高价值 AI 应用的时代已来 | 吴恩达最新万字实录
2025-11-19
Snowflake CEO 复盘:为什么 LLM 时代企业需要一个 AI Data Cloud?
2025-11-19
为什么Mac在AI时代更有性价比?
2025-11-19
Gemini3.0,中文能力真的拉跨了
2025-11-19
OpenText Cybersecurity 推出全新功能,为 AI 构建可信基础
2025-11-19
有预告的“梆梆就两拳”,可这只是开始
2025-08-21
2025-08-21
2025-10-02
2025-09-16
2025-09-19
2025-09-08
2025-09-17
2025-09-29
2025-10-26
2025-09-14
2025-11-19
2025-11-19
2025-11-18
2025-11-18
2025-11-17
2025-11-15
2025-11-14
2025-11-12