一文看懂 Google I/O 2026：Gemini 3.5领衔谷歌打响智能体和全模态大战

发布日期：2026-05-20 07:32:58 浏览次数： 2171

作者：网易科技

微信搜一搜，关注“网易科技”

山景城海岸线剧场，再次成为全球科技圈的焦点。

北京时间5月20日凌晨1点，2026 Google I/O正式登场。这个可以容纳两万多人的露天剧场，每年都一票难求。主会场坐满后，甚至有不少人坐到山坡草坪上，远远望向舞台，等待Google这位顶尖玩家亮牌。

现场的气氛并不像一场传统开发者大会，更像一场巨大的科技派对。走进入口，工作人员会热情地和与会者击掌；入口附近有室外乐队表演；剧场外则是大片Demo展区，Google各条业务线和合作伙伴都在展示自己的最新产品与应用，比如来自中国的Xreal。开发者、媒体、创业者、投资人和合作伙伴穿梭其中，所有人都在等待同一个问题的答案：

在大模型竞争进入智能体阶段后，Google准备怎么出牌？

过去一年，AI行业的叙事发生了明显变化。OpenAI 依然是焦点，但 Anthropic 正在变得越来越“抢镜”。据我们了解，某种程度上，Google 的“假想敌”已经不再只是 OpenAI，也开始越来越多地指向 Anthropic。

今天凌晨，Google CEO Sundar Pichai 给出了这次大会的核心叙事：“Gemini 3.5 和 Antigravity 正在开启一个智能体和智能体能力的新世界。我们已经把智能体带给开发者和企业一段时间了。现在，我们非常专注于把智能体的力量，以安全、可靠的方式带给消费者，让它适用于每一个人。”

在这次 I/O 上，Google 几乎把所有核心业务线都重新用“智能体”串了一遍：从 Gemini 3.5 Flash，到 Gemini Omni Flash；从 Search 里的信息智能体、预订智能体，到 Gemini App 里的 24/7 个人智能体 Gemini Spark；从开发者平台 Antigravity，到购物场景里的 Universal Cart；再到 Workspace、YouTube、Flow、Android、Cloud 以及内容溯源工具。

我们看到，Google试图把 AI 从“回答问题的模型”，推进到“持续理解、规划、执行任务的系统”。可以说，2026 Google I/O，是 Google 全面押注 Agentic AI 的一次集中展示。

Gemini 3.5 Flash 登场：

速度快4倍，

“会行动的模型”将成默认入口

本届 I/O 最受关注，也是最核心的技术发布，依旧是Gemini。

但并非大家期待的Gemini 4，Google 发布了 Gemini 3.5 模型家族的首个成员 Gemini 3.5 Flash。Google 将其定义为“结合前沿智能与行动能力”的新一代模型，主打两个关键词：智能体能力和速度。

按照 Google 的说法，Gemini 3.5 Flash 是其目前最强的智能体和代码模型，在复杂长周期任务、代码生成、多模态理解等方面均有显著提升。Google 给出的 benchmark 包括：Terminal-Bench 2.1 达到 76.2%，GDPval-AA 达到 1656 Elo，MCP Atlas 达到 83.6%，CharXiv Reasoning 达到 84.2%。

更重要的是，Google 强调 3.5 Flash 在输出速度上比其他前沿模型快 4 倍。这意味着它并不是单纯追求“更强大模型”的路线，而是试图在能力、延迟和成本之间找到一个更适合大规模产品化的平衡点。

这也解释了为什么 Google 首发的是 Flash，而不是 Pro。

过去大模型竞争强调“谁更强”，但进入 2026 年，产品化竞争更看重“谁能以更低延迟、更低成本、更稳定地服务海量用户”。Flash 的定位正好契合这一点：能力足够强，同时可以大规模铺进搜索、App、开发者工具和企业平台。

根据 Google 的安排，Gemini 3.5 Flash 将进入多个核心场景：

● 面向普通用户，成为 Gemini App 和 Google Search AI Mode 的默认模型；

● 面向开发者，进入 Google Antigravity、Gemini API、Google AI Studio 和 Android Studio；

● 面向企业，进入 Gemini Enterprise Agent Platform 和 Gemini Enterprise。

据现场透露，Gemini 3.5 Pro 已在内部使用，计划于下个月推出。这意味着 Google 会先用 Flash 承接规模化需求，再用 Pro 服务更复杂的高阶任务。

Gemini Omni Flash：

从“理解多模态”走向“生成任意模态”

如果 Gemini 3.5 Flash 代表 Google 对“行动模型”的押注，那么 Gemini Omni Flash 则代表 Google 在多模态生成上的新野心。

Google 对 Omni 的定义非常直接：可以从任何输入生成任何输出的模型，首先从视频开始。这句话背后，是多模态 AI 的范式变化。

过去的多模态更多是“输入多模态”：模型可以看图、听音频、理解视频，再用文字回答。但 Gemini Omni 要做的是“输入和输出都多模态”。用户可以用文本、图片、音频、视频作为输入，再生成高质量视频。未来，它还会支持图像和音频等更多输出形式。

它的核心能力包括三类。

● 第一，是通过自然语言编辑视频。用户可以连续对视频提出修改要求，比如改变环境、角度、动作、风格，甚至加入角色和物体。Google 强调，Omni 可以在多轮对话中保持角色一致性、物理逻辑和场景连续性。

● 第二，是基于 Gemini 的世界知识生成视频。Google 表示，Omni 不只是生成“看起来真实”的画面，而是能结合物理、历史、科学和文化语境，生成更有逻辑的视觉叙事。例如更准确地表现重力、动能、流体等物理效果，或者把复杂概念转化为解释型视频。

● 第三，是从任意素材开始创作。用户可以把文本、图片、视频，甚至语音作为参考输入，生成统一风格的视频内容。初期音频输入主要支持语音参考，更多音频类型会在之后推出。

值得注意的是，Google 还提到了数字化身功能。用户可以使用自己的声音创建个人 avatar，让生成视频看起来和听起来像自己。但在视频编辑中修改音频和语音的能力，Google 表示仍在测试，以更谨慎地处理潜在风险。

在内容安全方面，Omni 生成的视频将包含不可感知的 SynthID 数字水印。用户可以通过 Gemini App、Chrome 中的 Gemini 以及 Google Search 验证视频是否由 Gemini Omni 生成。

（Sundar Pichai调侃他不吃汉堡，这是假图）

从发布节奏看，Gemini Omni Flash 会向 Google AI Plus、Pro 和 Ultra 订阅用户全球推出，也会从本周起在 YouTube Shorts 和 YouTube Create App 中向用户免费开放。未来数周内，Google 还将把它通过 API 提供给开发者和企业客户。

这意味着，Google 不只是想做一个视频生成工具，而是想把视频生成能力嵌入整个创作者生态：Gemini 负责个人创作入口，Flow 负责专业工作流，YouTube Shorts 负责分发场景。

这套闭环，正是 Google 相比许多纯 AI 创业公司的优势所在。

Gemini App 变成 24/7 个人助理：

Gemini Spark 是关键

Gemini App 也在这次 I/O 上迎来大更新。

Sundar Pichai 透露，过去一年 Gemini App 增长迅速：去年 Google I/O 时，Gemini 有 4 亿用户；今年月活已经超过 9 亿，覆盖 230 个国家和地区、70 多种语言。

新的 Gemini App 有几个重点变化。

● 首先是设计语言升级。Google 推出了新的 Neural Expressive 设计语言，包括更流畅的动画、更鲜明的颜色、新字体和触觉反馈。Gemini Live 也被直接整合进 Gemini，用户可以在文字提问和语音对话之间无缝切换。

● 其次是回答形态的变化。Gemini 不再只是输出长文本，而是可以根据问题实时设计答案形式，加入图片、交互式时间线、旁白视频和动态图形。

● 第三，也是最重要的，是两个智能体功能：Daily Brief 和 Gemini Spark。

Daily Brief 是一个个性化晨间简报智能体，可以帮助用户整理每天开始前需要知道的信息。

Gemini Spark 则是 Google 面向消费者推出的个人 AI agent。它会 24/7 运行，在用户授权和指令下帮助管理任务、处理数字生活。

此外，macOS 版 Gemini App 也会集成 Gemini Spark，使其可以在本地机器上执行操作，并加入更强的语音功能。

Google 计划先向 trusted testers 推出 Gemini Spark，并在下周面向美国 Google AI Ultra 用户推出 Beta。macOS 版 Gemini App 未来也会集成 Gemini Spark，使其可以在本地机器上执行操作。

这对 Google 很重要。因为它拥有 Gmail、Calendar、Photos、Drive、Chrome、Android、Search、Maps 等高频产品。如果 Gemini Spark 能在用户授权下调动这些服务，它就不只是聊天机器人，而可能成为真正的个人任务调度层。

同时，Google 宣布推出每月 100 美元的 AI Ultra 计划，同时为 AI Plus、Pro 和 Ultra 订阅用户增加新功能和权益。

Search 迎来 25 年最大改版：

搜索框变成智能体入口

Google I/O 的另一个重磅更新，是 Search。

据介绍，新的搜索框会动态扩展，允许用户输入更复杂、更自然的问题；它可以给出 AI 驱动的问题建议，不再只是传统 autocomplete；它还支持多模态输入，包括文本、图片、文件、视频和 Chrome 标签页。

更核心的是，Google 正在把 Search 从“找答案”变成“派任务”。

首先，AI Mode 将使用 Gemini 3.5 Flash 作为全球默认模型。用户可以从 AI Overview 直接继续追问，进入 AI Mode 的对话式体验，并保留上下文。

其次，Google 推出了 Search agents。这类智能体可以在后台 24/7 运行，持续跟踪用户关心的信息，并在合适时间给出综合更新。

比如，你正在找房，可以告诉 Search 预算、位置、户型、通勤和其他条件，信息智能体会持续扫描网页、新闻、博客、社交信息，以及金融、购物、体育等实时数据，一旦发现匹配结果就通知用户。又比如，你关注某位运动员和品牌联名的球鞋，智能体也可以在新产品发布时提醒。

这类信息智能体将率先在今年夏天面向 Google AI Pro 和 Ultra 订阅用户推出。

Google 还在扩展 Search 中的 agentic booking 能力。用户可以让 Search 帮忙寻找并预订本地服务，比如周五晚上可容纳六人、供应夜宵的私人 KTV 包间。Search 会整合最新价格和可用性，并给出直接预订链接。

在家政维修、美容、宠物护理等部分品类中，用户还可以让 Google 代为给商家打电话。这些能力将于今年夏天在美国面向所有用户推出。

更有想象空间的是，Search 还将获得“生成式 UI”和“迷你应用”能力。

借助 Gemini 3.5 Flash 的代码能力，以及 Antigravity 的智能体开发能力，Search 可以根据用户问题即时生成交互界面。比如，当用户想理解天体物理问题，或者想看懂机械表运行原理，Search 可以自动生成包含图表、表格、模拟器、交互组件的定制答案。

更进一步，对于长期任务，比如婚礼筹备、搬家管理、健康计划，Search 可以生成一个可持续使用的 dashboard 或 tracker。Google 把这类体验称为用户专属的 mini apps。

这其实是对搜索产品形态的一次根本改写。

过去，搜索结果页的核心是链接、摘要和广告。未来，它可能变成一个动态生成的任务操作台：既能理解问题，也能生成工具，还能持续跟踪状态。

对 Google 来说，这既是防守，也是进攻。防守在于，AI 聊天产品正在侵蚀传统搜索入口；进攻在于，Google 试图用智能体把搜索重新定义为更强的任务入口。

AI 购物：Universal Cart

是 Google 的“智能体商业化”试验田

AI 时代，Google 最大的问题之一是：如果搜索结果不再以链接为核心，广告和商业化怎么办？

本届 I/O 给出的答案之一，是 agentic commerce，也就是智能体购物。

Google 宣布推出 Universal Cart，一个智能购物车，也是用户在 Google 上进行 AI 购物的中心。

购物天然适合智能体。

因为用户真实的购物需求往往很复杂，不是一个关键词能解决的。比如买一台适合出差的轻薄本，用户关心的不只是价格，还包括重量、续航、性能、接口、品牌、售后、优惠、库存、配送时间和用户评价。传统搜索需要用户反复筛选，智能体则可以持续比较、监控价格、组合商品，甚至协助完成购买。

Universal Cart 的价值就在这里：它可能把 Search、Shopping、广告、商家数据和支付链路连接起来，让 AI 不只是推荐商品，而是参与购物决策和交易流程。

这对 Google 具有战略意义。

过去，搜索广告的核心是用户点击链接，然后跳转到商家页面。AI 搜索如果减少了用户点击，Google 就需要新的商业闭环。智能体购物可能成为一种新路径：Google 从信息分发者，变成交易决策和执行过程中的参与者。

但它也会带来新问题：AI 推荐商品时如何排序？是否会偏向广告主？用户如何知道推荐依据？商家如何适配这种新渠道？这些都将影响 AI 购物能否建立信任。

从Android Halo到Antigravity：

Gemini正成为系统级基础设施

当智能体开始替用户执行任务，Google 必须重新定义 AI 在系统里的位置。

一个很直接的问题是：如果 AI 不只是回答问题，而是开始帮你搜索、预订、整理、生成、比较价格、管理日程，用户怎么知道它正在做什么？又该在哪里暂停、查看或接管？

Google 给出的答案之一，是 Android Halo。

这是一个将在今年晚些时候上线的 Android 新能力，用来在手机屏幕顶部显示智能体正在处理的任务。你可以把 Android Halo 理解为智能体时代的状态栏。

过去，状态栏显示的是时间、电量、信号、通知；到了 AI 时代，系统还需要显示“你的智能体正在做什么”。比如它正在搜索航班、整理文档、比较商品、生成视频、联系商家，或者后台持续追踪某个任务。

这也说明，Google 对智能体的理解并不是单点应用，而是系统级能力。模型、应用、搜索、浏览器、操作系统之间的边界会越来越模糊，真正的竞争会发生在“谁能成为用户所有任务的调度层”。

如果 Android Halo 解决的是“用户如何看见和控制智能体”，那么 Antigravity 解决的就是“开发者如何构建智能体”。

Google 显然不希望智能体能力只留在自家产品里。除了 Search、Gemini App 和 AI 购物，Google 还希望通过 Antigravity，把 Gemini 的能力交给开发者。

Antigravity 可以理解为 Google 面向 agentic AI 时代的开发平台。它的重点不是简单调用一个大模型接口，而是让开发者能够构建、调度和部署多个协作式智能体。

过去的 AI 开发，很多时候是“应用调用模型”：用户输入问题，模型返回答案。但智能体时代的开发逻辑更复杂。开发者需要让 AI 理解目标、拆解步骤、调用工具、访问数据、执行动作、检查结果，并在必要时继续迭代。

这就要求平台不只是提供模型，还要提供工作流、权限、工具调用、记忆、评估和部署能力。

Antigravity 的价值就在这里：它想把 Gemini 从一个可调用的模型，变成一个可开发、可组合、可部署的智能体平台。

这对 Google 很关键。因为智能体时代不可能只靠 Google 自己开发应用。真正的爆发，需要开发者基于 Gemini 做出大量新工具、新插件、新工作流和新应用。只有开发者生态起来，Gemini 才能从 Google 自己的产品矩阵，延伸到更广泛的软件世界。

与此同时，Google 自己的“全家桶”也在继续 AI 化。

● 在 Workspace 里，Gemini 会继续进入 Gmail、Docs、Sheets、Slides、Meet 等办公场景，帮助用户写邮件、总结文档、整理会议、生成表格、制作演示和管理任务。对企业用户来说，这不是单点功能，而是把 AI 嵌进日常办公流。

● 在 YouTube 里，Gemini Omni Flash 和视频生成能力会进一步参与内容创作，尤其是 Shorts。创作者可以用 AI 生成素材、修改镜头、调整风格，甚至把一个创意快速变成短视频内容。

● 在 Flow 里，Google 更明确地把 AI 视频生成做成创作工作流。相比一次性生成视频，Flow 的价值在于连续编辑、分镜管理和多轮调整，让 AI 视频从“玩具”变成更接近专业生产的工具。

● 在 Pics / Photos 相关场景里，AI 会继续承担图片生成、图片编辑、视觉理解和内容整理的角色。用户不再只是保存照片，而是可以让 AI 帮忙修图、生成回忆、提取信息，甚至围绕图片继续创作内容。

这些产品看似分散，但背后逻辑是一致的：Google 正在把 Gemini 放进每一个高频场景。

Google 的真正意图：

把 AI 做成下一代操作层

把本届 I/O 的发布串起来，Google 的路线已经非常清楚。它不是单独发布几个 AI 功能，而是在搭建一套智能体时代的完整系统：

● 模型层：Gemini 3.5 Flash 负责行动和代码，Gemini Omni Flash 负责多模态生成；

● 工具层：Antigravity、Gemini API、AI Studio、Android Studio 服务开发者；

● 入口层：Search、Gemini App、Android、Chrome、Workspace、YouTube、Shopping 承接用户场景；

● 商业层：AI Ultra、AI Plus、Pro、Universal Cart 和企业服务负责变现；

● 基础设施层：Google Cloud、TPU 和 Enterprise Agent Platform 支撑大规模部署；

● 治理层：SynthID、水印验证、内容透明、安全框架和用户授权控制风险。

而未来，Search 不再只是搜索结果页，而是任务入口；Gemini 不再只是聊天助手，而是个人 agent；Android 不再只是应用平台，而是智能体运行环境；Shopping 不再只是商品索引，而是交易智能体；Cloud 不再只是算力租赁，而是企业智能体平台。

当然，Google 的挑战也很现实。

智能体要真正替用户行动，必须解决可靠性、隐私、安全、权限、误操作、可解释性和商业利益冲突等问题。尤其在搜索、购物、预订和个人数据场景中，一次错误推荐、一次误拨电话、一次不合适的自动操作，都可能损害用户信任。

从 2026 年 Google I/O 看，Google 想定义的新阶段已经很明确：智能体不再只是产品功能，而会成为新的基础设施；AI 不再只是信息工具，而会变成下一代操作层。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

一文看懂 Google I/O 2026：Gemini 3.5领衔 谷歌打响智能体和全模态大战

一文看懂 Google I/O 2026：Gemini 3.5领衔谷歌打响智能体和全模态大战