2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

一文看懂 Google I/O 2026:Gemini 3.5领衔 谷歌打响智能体和全模态大战

发布日期:2026-05-20 07:32:58 浏览次数: 2171
作者:网易科技

微信搜一搜,关注“网易科技”

推荐语

本文全面解读Google I/O 2026大会,揭示谷歌如何以Gemini 3.5和智能体战略引领下一代AI竞争。

核心内容:
1. Gemini 3.5 Flash模型的核心特性与战略定位
2. 谷歌将“智能体”能力全面融入核心业务线的全景图
3. AI从问答模型向“规划执行系统”演进的行业趋势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家




山景城海岸线剧场,再次成为全球科技圈的焦点。


北京时间5月20日凌晨1点,2026 Google I/O正式登场。这个可以容纳两万多人的露天剧场,每年都一票难求。主会场坐满后,甚至有不少人坐到山坡草坪上,远远望向舞台,等待Google这位顶尖玩家亮牌。


现场的气氛并不像一场传统开发者大会,更像一场巨大的科技派对。走进入口,工作人员会热情地和与会者击掌;入口附近有室外乐队表演;剧场外则是大片Demo展区,Google各条业务线和合作伙伴都在展示自己的最新产品与应用,比如来自中国的Xreal。开发者、媒体、创业者、投资人和合作伙伴穿梭其中,所有人都在等待同一个问题的答案:


在大模型竞争进入智能体阶段后,Google准备怎么出牌?


过去一年,AI行业的叙事发生了明显变化。OpenAI 依然是焦点,但 Anthropic 正在变得越来越“抢镜”。据我们了解,某种程度上,Google 的“假想敌”已经不再只是 OpenAI,也开始越来越多地指向 Anthropic。


今天凌晨,Google CEO Sundar Pichai 给出了这次大会的核心叙事:“Gemini 3.5 和 Antigravity 正在开启一个智能体和智能体能力的新世界。我们已经把智能体带给开发者和企业一段时间了。现在,我们非常专注于把智能体的力量,以安全、可靠的方式带给消费者,让它适用于每一个人。”


在这次 I/O 上,Google 几乎把所有核心业务线都重新用“智能体”串了一遍:从 Gemini 3.5 Flash,到 Gemini Omni Flash;从 Search 里的信息智能体、预订智能体,到 Gemini App 里的 24/7 个人智能体 Gemini Spark;从开发者平台 Antigravity,到购物场景里的 Universal Cart;再到 Workspace、YouTube、Flow、Android、Cloud 以及内容溯源工具。


我们看到,Google试图把 AI 从“回答问题的模型”,推进到“持续理解、规划、执行任务的系统”。可以说,2026 Google I/O,是 Google 全面押注 Agentic AI 的一次集中展示。



Gemini 3.5 Flash 登场:

速度快4倍,

“会行动的模型”将成默认入口


本届 I/O 最受关注,也是最核心的技术发布,依旧是Gemini。


但并非大家期待的Gemini 4,Google 发布了 Gemini 3.5 模型家族的首个成员 Gemini 3.5 Flash。Google 将其定义为“结合前沿智能与行动能力”的新一代模型,主打两个关键词:智能体能力和速度。


按照 Google 的说法,Gemini 3.5 Flash 是其目前最强的智能体和代码模型,在复杂长周期任务、代码生成、多模态理解等方面均有显著提升。Google 给出的 benchmark 包括:Terminal-Bench 2.1 达到 76.2%,GDPval-AA 达到 1656 Elo,MCP Atlas 达到 83.6%,CharXiv Reasoning 达到 84.2%。


更重要的是,Google 强调 3.5 Flash 在输出速度上比其他前沿模型快 4 倍。这意味着它并不是单纯追求“更强大模型”的路线,而是试图在能力、延迟和成本之间找到一个更适合大规模产品化的平衡点。



这也解释了为什么 Google 首发的是 Flash,而不是 Pro。


过去大模型竞争强调“谁更强”,但进入 2026 年,产品化竞争更看重“谁能以更低延迟、更低成本、更稳定地服务海量用户”。Flash 的定位正好契合这一点:能力足够强,同时可以大规模铺进搜索、App、开发者工具和企业平台。


根据 Google 的安排,Gemini 3.5 Flash 将进入多个核心场景:


 面向普通用户,成为 Gemini App 和 Google Search AI Mode 的默认模型;

 面向开发者,进入 Google Antigravity、Gemini API、Google AI Studio 和 Android Studio;

 面向企业,进入 Gemini Enterprise Agent Platform 和 Gemini Enterprise。


据现场透露,Gemini 3.5 Pro 已在内部使用,计划于下个月推出。这意味着 Google 会先用 Flash 承接规模化需求,再用 Pro 服务更复杂的高阶任务。



Gemini Omni Flash:

从“理解多模态”走向“生成任意模态”


如果 Gemini 3.5 Flash 代表 Google 对“行动模型”的押注,那么 Gemini Omni Flash 则代表 Google 在多模态生成上的新野心。

Google 对 Omni 的定义非常直接:可以从任何输入生成任何输出的模型,首先从视频开始。这句话背后,是多模态 AI 的范式变化。


过去的多模态更多是“输入多模态”:模型可以看图、听音频、理解视频,再用文字回答。但 Gemini Omni 要做的是“输入和输出都多模态”。用户可以用文本、图片、音频、视频作为输入,再生成高质量视频。未来,它还会支持图像和音频等更多输出形式。



它的核心能力包括三类。


 第一,是通过自然语言编辑视频。用户可以连续对视频提出修改要求,比如改变环境、角度、动作、风格,甚至加入角色和物体。Google 强调,Omni 可以在多轮对话中保持角色一致性、物理逻辑和场景连续性。

 第二,是基于 Gemini 的世界知识生成视频。Google 表示,Omni 不只是生成“看起来真实”的画面,而是能结合物理、历史、科学和文化语境,生成更有逻辑的视觉叙事。例如更准确地表现重力、动能、流体等物理效果,或者把复杂概念转化为解释型视频。

 第三,是从任意素材开始创作。用户可以把文本、图片、视频,甚至语音作为参考输入,生成统一风格的视频内容。初期音频输入主要支持语音参考,更多音频类型会在之后推出。


值得注意的是,Google 还提到了数字化身功能。用户可以使用自己的声音创建个人 avatar,让生成视频看起来和听起来像自己。但在视频编辑中修改音频和语音的能力,Google 表示仍在测试,以更谨慎地处理潜在风险。

在内容安全方面,Omni 生成的视频将包含不可感知的 SynthID 数字水印。用户可以通过 Gemini App、Chrome 中的 Gemini 以及 Google Search 验证视频是否由 Gemini Omni 生成。


Sundar Pichai调侃他不吃汉堡,这是假图)


从发布节奏看,Gemini Omni Flash 会向 Google AI Plus、Pro 和 Ultra 订阅用户全球推出,也会从本周起在 YouTube Shorts 和 YouTube Create App 中向用户免费开放。未来数周内,Google 还将把它通过 API 提供给开发者和企业客户。


这意味着,Google 不只是想做一个视频生成工具,而是想把视频生成能力嵌入整个创作者生态:Gemini 负责个人创作入口,Flow 负责专业工作流,YouTube Shorts 负责分发场景。


这套闭环,正是 Google 相比许多纯 AI 创业公司的优势所在。



Gemini App 变成 24/7 个人助理:

Gemini Spark 是关键


Gemini App 也在这次 I/O 上迎来大更新。


Sundar Pichai 透露,过去一年 Gemini App 增长迅速:去年 Google I/O 时,Gemini 有 4 亿用户;今年月活已经超过 9 亿,覆盖 230 个国家和地区、70 多种语言。


新的 Gemini App 有几个重点变化。


 首先是设计语言升级。Google 推出了新的 Neural Expressive 设计语言,包括更流畅的动画、更鲜明的颜色、新字体和触觉反馈。Gemini Live 也被直接整合进 Gemini,用户可以在文字提问和语音对话之间无缝切换。

 其次是回答形态的变化。Gemini 不再只是输出长文本,而是可以根据问题实时设计答案形式,加入图片、交互式时间线、旁白视频和动态图形。

 第三,也是最重要的,是两个智能体功能:Daily Brief 和 Gemini Spark。


Daily Brief 是一个个性化晨间简报智能体,可以帮助用户整理每天开始前需要知道的信息。


Gemini Spark 则是 Google 面向消费者推出的个人 AI agent。它会 24/7 运行,在用户授权和指令下帮助管理任务、处理数字生活。



此外,macOS 版 Gemini App 也会集成 Gemini Spark,使其可以在本地机器上执行操作,并加入更强的语音功能。


Google 计划先向 trusted testers 推出 Gemini Spark,并在下周面向美国 Google AI Ultra 用户推出 Beta。macOS 版 Gemini App 未来也会集成 Gemini Spark,使其可以在本地机器上执行操作。


这对 Google 很重要。因为它拥有 Gmail、Calendar、Photos、Drive、Chrome、Android、Search、Maps 等高频产品。如果 Gemini Spark 能在用户授权下调动这些服务,它就不只是聊天机器人,而可能成为真正的个人任务调度层。


同时,Google 宣布推出 每月 100 美元的 AI Ultra 计划,同时为 AI Plus、Pro 和 Ultra 订阅用户增加新功能和权益。



Search 迎来 25 年最大改版:

搜索框变成智能体入口


Google I/O 的另一个重磅更新,是 Search。


据介绍,新的搜索框会动态扩展,允许用户输入更复杂、更自然的问题;它可以给出 AI 驱动的问题建议,不再只是传统 autocomplete;它还支持多模态输入,包括文本、图片、文件、视频和 Chrome 标签页。


更核心的是,Google 正在把 Search 从“找答案”变成“派任务”。


首先,AI Mode 将使用 Gemini 3.5 Flash 作为全球默认模型。用户可以从 AI Overview 直接继续追问,进入 AI Mode 的对话式体验,并保留上下文。


其次,Google 推出了 Search agents。这类智能体可以在后台 24/7 运行,持续跟踪用户关心的信息,并在合适时间给出综合更新。



比如,你正在找房,可以告诉 Search 预算、位置、户型、通勤和其他条件,信息智能体会持续扫描网页、新闻、博客、社交信息,以及金融、购物、体育等实时数据,一旦发现匹配结果就通知用户。又比如,你关注某位运动员和品牌联名的球鞋,智能体也可以在新产品发布时提醒。


这类信息智能体将率先在今年夏天面向 Google AI Pro 和 Ultra 订阅用户推出。


Google 还在扩展 Search 中的 agentic booking 能力。用户可以让 Search 帮忙寻找并预订本地服务,比如周五晚上可容纳六人、供应夜宵的私人 KTV 包间。Search 会整合最新价格和可用性,并给出直接预订链接。


在家政维修、美容、宠物护理等部分品类中,用户还可以让 Google 代为给商家打电话。这些能力将于今年夏天在美国面向所有用户推出。


更有想象空间的是,Search 还将获得“生成式 UI”和“迷你应用”能力。


借助 Gemini 3.5 Flash 的代码能力,以及 Antigravity 的智能体开发能力,Search 可以根据用户问题即时生成交互界面。比如,当用户想理解天体物理问题,或者想看懂机械表运行原理,Search 可以自动生成包含图表、表格、模拟器、交互组件的定制答案。


更进一步,对于长期任务,比如婚礼筹备、搬家管理、健康计划,Search 可以生成一个可持续使用的 dashboard 或 tracker。Google 把这类体验称为用户专属的 mini apps。


这其实是对搜索产品形态的一次根本改写。


过去,搜索结果页的核心是链接、摘要和广告。未来,它可能变成一个动态生成的任务操作台:既能理解问题,也能生成工具,还能持续跟踪状态。


对 Google 来说,这既是防守,也是进攻。防守在于,AI 聊天产品正在侵蚀传统搜索入口;进攻在于,Google 试图用智能体把搜索重新定义为更强的任务入口。



AI 购物:Universal Cart 

是 Google 的“智能体商业化”试验田


AI 时代,Google 最大的问题之一是:如果搜索结果不再以链接为核心,广告和商业化怎么办?


本届 I/O 给出的答案之一,是 agentic commerce,也就是智能体购物。


Google 宣布推出 Universal Cart,一个智能购物车,也是用户在 Google 上进行 AI 购物的中心。


购物天然适合智能体。


因为用户真实的购物需求往往很复杂,不是一个关键词能解决的。比如买一台适合出差的轻薄本,用户关心的不只是价格,还包括重量、续航、性能、接口、品牌、售后、优惠、库存、配送时间和用户评价。传统搜索需要用户反复筛选,智能体则可以持续比较、监控价格、组合商品,甚至协助完成购买。


Universal Cart 的价值就在这里:它可能把 Search、Shopping、广告、商家数据和支付链路连接起来,让 AI 不只是推荐商品,而是参与购物决策和交易流程。


这对 Google 具有战略意义。



过去,搜索广告的核心是用户点击链接,然后跳转到商家页面。AI 搜索如果减少了用户点击,Google 就需要新的商业闭环。智能体购物可能成为一种新路径:Google 从信息分发者,变成交易决策和执行过程中的参与者。


但它也会带来新问题:AI 推荐商品时如何排序?是否会偏向广告主?用户如何知道推荐依据?商家如何适配这种新渠道?这些都将影响 AI 购物能否建立信任。



从Android Halo到Antigravity:

Gemini正成为系统级基础设施


当智能体开始替用户执行任务,Google 必须重新定义 AI 在系统里的位置。


一个很直接的问题是:如果 AI 不只是回答问题,而是开始帮你搜索、预订、整理、生成、比较价格、管理日程,用户怎么知道它正在做什么?又该在哪里暂停、查看或接管?


Google 给出的答案之一,是 Android Halo。


这是一个将在今年晚些时候上线的 Android 新能力,用来在手机屏幕顶部显示智能体正在处理的任务。你可以把 Android Halo 理解为智能体时代的状态栏。


过去,状态栏显示的是时间、电量、信号、通知;到了 AI 时代,系统还需要显示“你的智能体正在做什么”。比如它正在搜索航班、整理文档、比较商品、生成视频、联系商家,或者后台持续追踪某个任务。


这也说明,Google 对智能体的理解并不是单点应用,而是系统级能力。模型、应用、搜索、浏览器、操作系统之间的边界会越来越模糊,真正的竞争会发生在“谁能成为用户所有任务的调度层”。


如果 Android Halo 解决的是“用户如何看见和控制智能体”,那么 Antigravity 解决的就是“开发者如何构建智能体”。


Google 显然不希望智能体能力只留在自家产品里。除了 Search、Gemini App 和 AI 购物,Google 还希望通过 Antigravity,把 Gemini 的能力交给开发者。


Antigravity 可以理解为 Google 面向 agentic AI 时代的开发平台。它的重点不是简单调用一个大模型接口,而是让开发者能够构建、调度和部署多个协作式智能体。



过去的 AI 开发,很多时候是“应用调用模型”:用户输入问题,模型返回答案。但智能体时代的开发逻辑更复杂。开发者需要让 AI 理解目标、拆解步骤、调用工具、访问数据、执行动作、检查结果,并在必要时继续迭代。


这就要求平台不只是提供模型,还要提供工作流、权限、工具调用、记忆、评估和部署能力。


Antigravity 的价值就在这里:它想把 Gemini 从一个可调用的模型,变成一个可开发、可组合、可部署的智能体平台。


这对 Google 很关键。因为智能体时代不可能只靠 Google 自己开发应用。真正的爆发,需要开发者基于 Gemini 做出大量新工具、新插件、新工作流和新应用。只有开发者生态起来,Gemini 才能从 Google 自己的产品矩阵,延伸到更广泛的软件世界。


与此同时,Google 自己的“全家桶”也在继续 AI 化。


 在 Workspace 里,Gemini 会继续进入 Gmail、Docs、Sheets、Slides、Meet 等办公场景,帮助用户写邮件、总结文档、整理会议、生成表格、制作演示和管理任务。对企业用户来说,这不是单点功能,而是把 AI 嵌进日常办公流。

 在 YouTube 里,Gemini Omni Flash 和视频生成能力会进一步参与内容创作,尤其是 Shorts。创作者可以用 AI 生成素材、修改镜头、调整风格,甚至把一个创意快速变成短视频内容。

 在 Flow 里,Google 更明确地把 AI 视频生成做成创作工作流。相比一次性生成视频,Flow 的价值在于连续编辑、分镜管理和多轮调整,让 AI 视频从“玩具”变成更接近专业生产的工具。

 在 Pics / Photos 相关场景里,AI 会继续承担图片生成、图片编辑、视觉理解和内容整理的角色。用户不再只是保存照片,而是可以让 AI 帮忙修图、生成回忆、提取信息,甚至围绕图片继续创作内容。


这些产品看似分散,但背后逻辑是一致的:Google 正在把 Gemini 放进每一个高频场景。



Google 的真正意图:

把 AI 做成下一代操作层


把本届 I/O 的发布串起来,Google 的路线已经非常清楚。它不是单独发布几个 AI 功能,而是在搭建一套智能体时代的完整系统:


 模型层:Gemini 3.5 Flash 负责行动和代码,Gemini Omni Flash 负责多模态生成;

 工具层:Antigravity、Gemini API、AI Studio、Android Studio 服务开发者;

 入口层:Search、Gemini App、Android、Chrome、Workspace、YouTube、Shopping 承接用户场景;

 商业层:AI Ultra、AI Plus、Pro、Universal Cart 和企业服务负责变现;

 基础设施层:Google Cloud、TPU 和 Enterprise Agent Platform 支撑大规模部署;

 治理层:SynthID、水印验证、内容透明、安全框架和用户授权控制风险。


而未来,Search 不再只是搜索结果页,而是任务入口;Gemini 不再只是聊天助手,而是个人 agent;Android 不再只是应用平台,而是智能体运行环境;Shopping 不再只是商品索引,而是交易智能体;Cloud 不再只是算力租赁,而是企业智能体平台。


当然,Google 的挑战也很现实。


智能体要真正替用户行动,必须解决可靠性、隐私、安全、权限、误操作、可解释性和商业利益冲突等问题。尤其在搜索、购物、预订和个人数据场景中,一次错误推荐、一次误拨电话、一次不合适的自动操作,都可能损害用户信任。


从 2026 年 Google I/O 看,Google 想定义的新阶段已经很明确:智能体不再只是产品功能,而会成为新的基础设施;AI 不再只是信息工具,而会变成下一代操作层。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅