2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

直击 Google I/O 2026 | 轰炸式发布 Agent,狙击 Claude Code,开战!

发布日期:2026-05-20 07:47:03 浏览次数: 1978
作者:硅星人Pro

微信搜一搜,关注“硅星人Pro”

推荐语

Google I/O 2026发布核心围绕Agent规模化,多款产品与模型更新旨在让AI助手触达更广泛用户。

核心内容:
1. Gemini 3.5系列亮相,Flash版在速度与性价比上实现突破
2. Antigravity 2.0发布,直接对标Claude Code等编程工具
3. 多模态能力整合与产品全面Agent化,推动AI助手普及

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
Google I/O 2026,再一次饱和式发布。

数十个产品更新,2个小时,一股脑全扔出来。信息量爆炸。

如果把最重要的发布更新先做个梳理,它们包括:

  1. Gemini 3.5系列亮相,先丢出 Flash版本,Pro下个月上线。一如既往,新的轻量模型干翻上一代Pro版本;

  2. Gemini Spark 亮相:对标OpenClaw的个人Agent产品终于有了,24/7在线干活;

  3. Antigravity发布2.0,全面摆脱coding的场景局限,终于和Claude Code 以及 Codex 直接竞争;

  4. 多模态能力集大成,聚到新的世界模型 Gemini Omni 上,可以用任何模态输入,任何模态输出,创造互动世界;

  5. Gemini app全面Agent化,交互设计和配套模型跟着完成大更新;

  6. 搜索、全家桶,全面“小 Gemini”化,让你在哪都能build;

  7. Gemini “降价”:新增一档 100 美元/月的 Ultra plan,给那些“想买重度 Agent 服务但还不到顶配水位”的用户。原来 250 美元/月的顶级 Ultra plan 直接降到 200 美元。Pro 维持 19.99 美元/月。

可以看出来,其中最重要的发布都是关于一个词:

Agent!Agent! 还是 Agent!

“最前沿的 Agent 可能只触达过世界上 0.1% 的人。”Google CEO Sundar Pichai 在 I/O 期间表示。“真正的问题,是怎么把这种前沿能力规模化交付给真正的更广泛的用户。”

让 Agent 这件事从早期采用者的小圈子走向所有人的过程,Google 准备自己来做。以下是憋了很久的Google为了做成这件事,在这次I/O上的重要发布。

1

3.5 Flash 干掉上代 Pro,把“Agent 经济账”摆上桌

Gemini 3.5 系列的第一款模型 3.5 Flash 在几乎所有基准测试上超过了自家上一代的 Gemini 3.1 Pro。在 Pichai 特意点名的 GDPval 基准(衡量“具有真实经济价值的任务”)上,提升尤其明显。

但真正让 Google 把它推到 keynote 中心位置的,是另一组数据。

3.5 Flash 的输出速度是其它前沿模型的 4 倍。Antigravity 2.0 里内置的优化版本可以做到 12 倍,质量不变。价格不到同档前沿模型的一半。

“这种速度与性能的平衡使 3.5 Flash 成为处理长时程Agent任务的最理想选择。”Google表示。这是一个特意为Agent设计的模型。

“过去需要开发者数天或审计师数周才能完成的工作,如今 3.5 Flash 可以在极短时间内辅助完成,成本通常不到其他前沿模型的一半。”

也就是说,Pichai 直接把这个性价比换算成了一笔账给所有 CIO 看。

“你可能听过很多 CIO 抱怨他们一年的 token 预算才到五月就快用完了。如果一家头部企业一天处理一万亿 token,把其中 80% 的负载从其它前沿模型迁到 3.5 Flash,一年能省下超过 10 亿美元,真金白银。”

Google 自己已经是这件事最大的受益者。今年 3 月,Google 内部每天处理 5000 亿 token;现在每天超过 3 万亿,每隔几周翻一倍。增长的来源,是工程团队全面切换到 Antigravity 2.0 加 3.5 Flash 的开发流程之后释放出来的需求。

这套内部用法构成了一个完整的反馈回路,反过来又帮 Flash 做得更好。

而且,更强大的 Gemini 3.5 Pro 没有发布,Pichai 透露夏天会亮相,“内部已经在用,效果很好,但还在打磨”。

1

Gemini Spark:Google 的个人 Agent 终于落地

Spark 是这次回答“Agent 怎么走出 0.1%”最直接的产品。

它是一个 7×24 跑在云端的个人 Agent,以及毫不意外的,把Google全系产品都连了起来。

注意右下角那一堆产品,那就是Google的个人agent的护城河所在

它跑在 Google Cloud 的专用虚拟机上。你笔记本合上、手机关机,Spark 还在后台干活。底层模型是 Gemini 3.5,框架是 Google 内部用的 Antigravity Harness。所以它能跑“长周期任务”。

入口先是 Gemini app,随后接入邮件和聊天。工具调用先从 Google 自家产品开始,接下来几周开放第三方 MCP 接入。

展示的实际场景包括给老板发状态汇报,Spark 自动从你的 Gmail、Docs、Sheets、Slides 里拉事实写草稿;学生用 Spark 建一个会自动更新的学习指南;家长用它管学校时间表;小企业用它盯着收件箱,不漏掉任何客户问题。

Spark 接下来还会加 MCP 第三方连接、直接发短信或邮件指挥 Spark、自定义 sub-agent、接入 Chrome 跨网页干活。Android 上有一个新的 UI 入口叫 Android Halo,可以看 Spark 当前的执行进度。

开放节奏的拿捏值得注意。Spark 仅向受信任测试者首发,下周作为 beta 推给美国 Google AI Ultra 订阅用户。配合下面要讲的定价调整,Spark 接下来几个月会真正进入普通人手里。

目前个人Agent 普及最大的现实障碍是用户的不安全感。Google 这次专门花了时间讲它的设计哲学。Spark 在做什么这件事每时每刻都要很清晰,详细的“思考轨迹”会展示给用户,可以随时打断;执行敏感操作前会停下来征求许可。Google 给的一个具体例子是用 Spark 订日历会议,Spark 会在真正发出邀请前先和用户确认一次。

1

Antigravity 2.0 终于开卷 Claude Code 和 Codex

Antigravity 1.0 是 6 个月前发布的(约 2025 年 11 月),已经有“数百万开发者在用”。

2.0 这次的关键变化是定位转移。它从“编程环境”变成了“多 Agent 编排平台”。

具体分三层。

第一层是一款独立桌面 App,作为“与 Agent 交互的中央枢纽”。你可以同时编排多个 Agent,一个写网站代码、一个生成品牌素材、第三个规划产品架构,互不打架。

第二层是新的 Antigravity CLI,命令行接口,给想留在终端里的开发者用。

第三层是新的 Antigravity SDK。这一层比较关键。Google 给的说明是,SDK 让程序可以直接、可编程地访问驱动 Google 自家产品的同一套 Agent harness,与 Gemini 模型协同优化。

内部的一个案例显示,它在还没对外发布的Gemnini 3.5 pro的支持下,可以让93个不同Agents工作,完成任务,消耗26亿token,从零建造起一个复杂系统项目。

换句话说,Google 试图把内部产品正在使用的 Agent harness,以 SDK 的形式开放给开发者。

这是一次对 Claude Code 和 Codex 的正面对位。

“开发者这个群体的好处是,你把东西做出来,如果真的好用,他们就会真的用。我自己玩过这些产品,Antigravity 加 3.5 Flash 是相当魔幻的体验,特别是它有多快。3.5 Flash 已经是其它前沿模型的 4 倍,在 Antigravity 里大约是 12 倍。”Pichai在前期的沟通里提到。

更有说服力的支撑来自 Google 的内部测试。用 3.5 Flash 加 Antigravity 2.0 跑多 Agent 协同,他们成功让 Agent 完全从零搭出了一个能跑的操作系统,而且API耗费在1千美金以内。

Antigravity 这条线下面还有一个单独发布的安全 Agent,叫 CodeMender。

CodeMender 用 Gemini 的高级推理能力自动找出并修复关键代码漏洞。Google 强调,CodeMender 会直接下笔把代码漏洞补上,等于接管了“人来打补丁”那一步。当前邀请少数专家测试 CodeMender API,更广泛的开放“很快”推出。

Google 给这件事的理由是,随着 Agent 写越来越多代码,cybersecurity 会变得更关键,agentic workflow 也是这个领域取得进展的必由路径。

1

彻底换新的 Gemini app,配上大降价

Gemini app 在过去一年里月活从 4 亿涨到 9 亿,日请求量翻 7 倍,在 230 个国家、70 种语言里运行,Google 在 I/O 上把它定义为“世界上覆盖最广的 AI 助手”。

这次Google形容它被从头重做了。

Gemini app 的新设计语言叫 Neural Expressive。从动效、色彩、字体到点击按钮时的触感反馈,全换。

但更值得注意的是回答页面的变化。回答不再是一整面文字墙。最重要的信息加粗顶在顶部。往下滚动,会看到交错排列的图片、时间线、可视化图表。Gemini Live 也不再需要切模式,直接内嵌打开。

Neural Expressive 5 月 19 日全球开放(Android、iOS、Web)。

Gemini Omni 同步进 app。你可以上传任意照片或视频,一键应用内置模板,甚至可以创建一个“看起来、听起来都像你”的 AI 化身,把自己放进 Omni 生成的内容里。

更重要的,是 Agent 第一次以“开箱即用”的方式进 Gemini app。第一个出场的是 Daily Brief。

Daily Brief 每天早上做一份个性化简报。Gemini 隔夜帮你整理收件箱、日历、当天最重要的任务,会替你把这些信息排序、组织,给出下一步建议。

Daily Brief 有一段值得讲的前史。它的前身是 2025 年 12 月在 Google Labs 上线的实验,叫 Cici。按 Google 自己的说法,Cici 很快成为最受用户喜爱的 Labs 实验之一,所以这次直接收编进 Gemini app 成为正式产品。Google Labs 的实验养大、定型、再吸纳进 Gemini 这条工业化产品线,Cici 到 Daily Brief 是最清晰的一个案例。

Daily Brief 5 月 19 日起在美国对所有 Google AI 订阅用户开放。

随这些发布一起调整的是 Gemini 的订阅价。

新增一档 100 美元/月的 Ultra plan,给那些“想买重度 Agent 服务但还不到顶配水位”的用户。原来 250 美元/月的顶级 Ultra plan 直接降到 200 美元。Pro 维持 19.99 美元/月。

2025 年 5 月 Google 才把顶级档 Ultra 定在 249.99 美元,一年时间实际降了 20%,中间又加了一档。这件事和 Spark 同步发生,意图很清楚,把 Spark 这种重度 Agent 服务的通道铺宽,让普通付费用户也能摸到。Google 自己的说法是要让这种新型的帮助“交到尽可能多人手里”。

1

Gemini Omni:把 Veo 和 Nano Banana 揉进 Gemini 主架构

如果说 3.5 Flash 是为“让 Agent 跑起来”准备的,那么 Gemini Omni 是为“让 world model 真的成型”准备的。

这部分由伟大的Demis Hassabis亲自发布。

Google 给 Omni 的定位是“能从任何输入生成任何输出模态的模型”,先做视频输出,未来扩展到图像和文字。

第一款上线的 Gemini Omni Flash,5 月 19 日起向 Google AI 订阅用户开放,入口包括 Gemini app、Google Flow 和 YouTube Shorts。所有 Omni 生成或编辑的内容都自带 SynthID 水印。Omni Pro“即将推出”。

Omni 和 Veo、Nano Banana 之间的关系,Google 自己给出的描述大致是这样。Omni 是 Gemini 主架构的进化,是 Gemini 一开始原生多模态底层设计延伸的产物。它让原生多模态从输入端扩展到输出端。视频生成是切入点,因为这是离 Veo 最近的能力;再把 Nano Banana 的编辑能力带进 Veo,让你可以像剪辑那样自然修改视频。本质上 Omni 是 Gemini 主线的进化,Veo 和 Nano Banana 是它身上的能力组件。

Nano Banana 累计已经生成超过 500 亿张图,Omni 这次把这个能力同等带到了视频里。它支持的玩法包括纯文本生成视频,也包括上传你自己的视频,做改风格、换角色、保持时间一致性的连续编辑。

在它展示的各种效果里,Omni 可以让复杂想法可视化,从简短的提示词中生成引人入胜的解释视频,生成分解更复杂想法的视觉效果。

1

搜索 + 全家桶:Agent 进入 Google 每个角落

搜索:标志性搜索框 25 年来最大一次升级

AI Mode 一周岁了。2025 年的 I/O 上才推出,现在月活超过 10 亿,“上线以来每个季度查询量翻一倍”。

这次 AI Mode 升级到 Gemini 3.5 Flash 驱动。Google 搜索团队给出的判断是,人们意识到搜索能做更多事,开始问更长、更具体、跨模态的问题,所以上季度搜索总查询量创了历史新高。

围绕这种变化,Google 这次推出了一个全新的“智能搜索框”。Google 自己给这次搜索框改造下的定义是“标志性搜索框 25 年来最大的一次升级”。

新搜索框会扩展,容纳更长更口语化的查询。一套 AI 驱动的查询建议系统取代了原来的自动补全,会主动帮你写复杂、精细的搜索。同时支持多模态输入。5 月 19 日同步上线。

AI Overviews 和 AI Mode 这次合并成一个无缝体验。你问一个问题,得到 AI Overview,直接在原页面继续追问就进入 AI Mode。5 月 19 日在移动端和桌面端全球同时上线。

搜索框里也长出了 Agent

Information Agents 把搜索从“一次性”变成了 Agent 后台跑活儿的入口。

你自己创建、定制、管理一个或多个后台 24/7 跑的 Agent。例如设一个跟踪某个领域市场变动的 alert,Agent 自己制定监控计划、确定要用哪些工具和数据(包括 Google 的实时金融数据),达到条件时合成一份带链接的更新推送给你。今夏上线。

更进一步,Generative UI 把 agentic 编程能力注入到了搜索。

例如搜“黑洞如何影响时空?”,得到的是一个 AI Overview 加一个可交互可视化;再追问,搜索会现场为你新建一个可视化。这套能力跑在 Gemini 3.5 Flash 上,背后是 Google DeepMind 和搜索团队共建的实时代码生成系统。今夏对所有人免费开放。

同时Google 还把 Antigravity 背后的 agentic 编程能力接进搜索,让用户可以用自然语言描述自己想要什么工具,搜索现场为你 build 一个“mini-app”。

Google 给的例子是个性化健身 mini-app,能接入实时天气、读你的日历、知道你的饮食偏好,自动生成餐计划并附带带链接的食谱。未来几个月先对美国 Google AI Pro 和 Ultra 订阅用户开放。

1

虽迟但到的 Google ,用轰炸式发布开卷Agent赛道

Google在此前一段时间在Agent的竞争里缺席了。而这场I/O可以看出它对Agent有多焦虑。而它给出的答案是一套全栈布局。

模型层,3.5 Flash 用速度和价格把 Agent 跑起来的边际成本压到企业可以接受的位置;Omni 把 world model 这件事再往前推一步。

产品层,Spark 给所有人,Daily Brief 给所有 AI 订阅用户,Information Agents 和 Generative UI 让 Agent 进入Google最广泛的“渠道”搜索框,Antigravity 2.0 直接给开发者提供了Claude Code的直接“平替”选择。

在商业层,UCP、AP2、Universal Cart 让 Agent 进入真实的交易场景。

别忘了Google还有强大的基础设施层兜底。Pichai也强调了第八代 TPU 这次第一次走“双芯片”分工,TPU 8T 专做训练,TPU 8I 专做推理。配合 JAX 和 Pathways,训练任务可以跨多个数据中心,全球分布到超过 100 万颗 TPU,这是“世界最大的训练集群”。

在I/O上,Pichai一直在提醒人们,Google的AI在各个主要产品里的用户量级全部是十亿级别的。有5个产品已经各自有30亿用户。这是一个没法忽视的优势,这种全栈的能力会一直让Anthropic和OpenAI们忌惮。

他透露,Google 今年的 capex 预计 1800-1900 亿美元,是 2022 年(310 亿)的 6 倍。每月跨自家产品处理的token已经达到了夸张的 3.2 千万亿(quadrillion)token,是 2025 年 I/O 时 480 万亿的 7 倍。

“为什么我们这么专注于做出既能力非常强、又很高效、很快、价格还很低的前沿模型?因为我们要把它带给尽可能多的人。这是我们随着时间会真正发光的地方,就像我们在搜索、推荐和其它领域已经做到的那样。”在I/O前的小范围交流里,Pichai这样说道。

虽迟但到,Google开卷Agent,The show goes on!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅