微信扫码
添加专属顾问
Gemini智能体正在重塑人与AI的交互方式,引领下一波技术浪潮。 核心内容: 1. 全栈式AI创新路线与规模化应用成果 2. Gemini驱动下的产品增长与用户活跃度 3. AI如何赋能搜索、创作、开发等关键场景
编者按:以下是 Google CEO Sundar Pichai 在 Google I/O 2026 大会上的讲话编辑稿,经调整以包含更多在舞台上宣布的内容。
自上一届 I/O 大会以来,我们度过了非常充实的一年。在这期间,我们保持着高频的产品发布节奏,见证了技术的不断突破与飞速进展。如今,用户越来越希望在日常使用的产品中,切实感受到 AI 带来的实际价值。我们一直专注于此,你将通过我们今天在 I/O 大会上发布的产品和功能中看到这一点。
迄今,公司“AI 优先 (AI-First) ”的转型已有十年,我们始终坚信,发展 AI 是践行公司使命、大规模改善人们生活最有效的方式。正因如此,我们才坚持走一条独有的全栈式 AI 创新路线:从定制芯片、安全稳固的基础框架,到世界一流的研究与基础模型,再到触达全球数十亿用户的产品和平台。这种方式让我们能以更快的速度进行迭代与创新,并为公司的全线业务注入强劲动能。
令人欣喜的是,全球用户正在以多种方式使用 AI:学生们正利用 Gemini app 准备期末考试;音乐家和艺术家将 Lyria 和 Veo 等生成式 AI 模型融入到自己的日常创作中;开发者也在使用 AI 编写代码,将想法转化为现实。
用户在日常场景中如何使用 AI,是衡量技术进步的最佳标准。而要理解用户采纳 AI 的实际规模,还有一个非常直观的量化指标——token。Token 是我们的模型处理数据的基本单位,许多 token 代表着一个被解决的问题。
两年前,我们在各个产品平台上每月处理的 token 量为 9.7 万亿个,这已经是一个庞大的数字。在去年的 I/O 大会上,这一数字增长到了约 480 万亿个。而到今天,这一规模同比实现了 7 倍的巨幅增长,每月处理的 token 量已一举突破 3200 万亿个。
这一数据清晰地反映了我们的产品以及整个开发者和企业生态的发展:
目前,Google 旗下已有 13 款产品各自拥有超过 10 亿的用户规模,其中更有 5 款产品的用户数量超过了 30 亿。Gemini 模型正是吸引更多用户使用、并提升用户活跃度的核心驱动力。
一切都始于搜索,在让更多用户体验到生成式 AI 的优势这件事上,它的贡献超过全球任何其他产品。目前,AI 概览 (AI Overviews) 的月活跃用户数已超过 25 亿。而搜索的 AI 模式 (AI Mode) 更是有史以来最重大的升级。该功能深受用户喜爱,在推出一年内,其月活跃用户数就已经突破了 10 亿大关。
当用户在搜索中体验到这些 AI 驱动的功能后,他们使用搜索的频率更高了。搜索不再仅仅是简单的一问一答,而更像是一场连续的对话,它协助用户获取更深层的洞察,并无缝连接互联网上的海量信息。
同时,Gemini app 也在飞速创新。在去年 I/O 大会时,Gemini app 的月活跃用户数为 4 亿。而今天,这一数字已突破 9 亿,在一年内增长幅度超过一倍。与此同时,用户每天提交的请求量也增长了 7 倍以上。
我们增加了许多独特的功能,例如 Personal Intelligence,让回复变得更加个性化,更实用。迄今为止,我们的 Nano Banana 图像生成模型已生成超过 500 亿张图像。它成为了过去一年的明星产品,展现了世界蕴藏的巨大创造力。
此外,还有大量潜在的生产力有待释放。在过去一年里,我们一直在努力让用户能够直接在产品中与 Gemini 进行更自然的对话。不久前,Google Maps 迎来了十年来的最大升级,推出了全新的 Ask Maps 功能,用户现在可以直接用更复杂、篇幅更长的自然语言向地图提问。
现在,我们正将这种能够自然对话的 AI 扩展到更多产品中:
Ask YouTube
每天都有无数用户来到 YouTube 寻找各类问题的答案。虽然平台上拥有海量的优质视频,但有时用户很难快速找到切入点。
Ask YouTube 彻底重构了这一体验,让视频中的信息变得非常易于理解和浏览。AI 不仅能精准推荐最符合用户兴趣的视频,更重要的是,它能直接跳转到视频中最契合用户需求的核心片段。该功能目前已开始小范围测试,并计划于今年夏季在美国广泛推广。
语音驱动的 Docs Live
很多时候,我们都希望处理事务的速度能像说话一样快。得益于我们在音频模型上的技术飞跃,这在今天变得更为现实。
全新功能 Docs Live 将这一体验推向了新的高度。以往使用 Gemini 创建文档,用户需要输入非常精准的提示词。而现在通过 Docs Live,用户只需口头将脑海中的想法表达出来,Gemini 就能高效地帮用户完成后续的工作。
在未来,用户可以用声音来创建和编辑文档。Docs Live 将于今年夏季向订阅用户开放,届时,强大的语音功能也将同步引入 Gmail 和 Keep。
看到创新在我们的产品中以如此迅猛的速度推进,实在令人惊叹。要在支持全球海量用户的同时,服务于全球开发者和企业客户,需要对基础设施进行大量投入。我们一直在为现在和未来进行布局:2022 年我们的年资本支出 (capex) 为 310 亿美元,而到了今年,这个数字预计将翻大约 6 倍,约 1800 亿美元左右。其中,自主研发的定制芯片是我们投入的核心部分。
十年前,我们首次在 I/O 上发布了第一代 TPU。自那时起,我们改变了整个行业构建 AI 的方式。近期在 Cloud Next 大会上,我们正式宣布了第 8 代 TPU。这一次,我们首次采用了双芯片设计,针对训练和推理的不同需求设计的硬件架构:TPU 8t 和 TPU 8i。
除了追求速度,我们也关注可持续的能效表现。这两款全新芯片在能效上表现卓越,每瓦特性能 (performance-per-watt) 均实现了高达 2 倍的提升。
得益于 TPUs 的进展,我们在模型、编程和智能体等领域持续推进算力性能的发展。借助世界模型 (World Models) ,AI 正在从文本预测迈向模拟现实物理世界。我们也一直在不断突破这类模型能力的边界。
Gemini Omni 是我们推出的全新模型,能够基于任意输入生成任意输出模态的内容。我们将率先推出视频输出能力,并在未来逐步扩展至图片和文本。该模型将 Gemini 的核心智能与我们的生成式媒体模型深度融合,在现实世界的理解能力上实现了巨大飞跃。我们今天正式推出 Omni 系列的首个模型——Gemini Omni Flash。
Gemini Omni Flash 即日起正式上线,用户可以在 Gemini app、Google Flow 和 YouTube Shorts 中使用。未来几周内,该模型也将通过 API 向开发者和企业客户全面开放。
随着生成式 AI 的技术演进,对内容透明度的需求也变得愈发重要。研究表明,用户单凭肉眼,能正确识别高质量深度伪造 (Deepfake) 视频的概率仅为四分之一左右。
三年前,我们推出了 SynthID——一种肉眼无法察觉的水印技术。自上线以来,SynthID 已经累计为超过 1000 亿张图片和视频、以及相当于 6 万年时长的音频内容添加数字水印。
现在,数百万用户在利用 Gemini app 中的 SynthID 检测工具验证 AI 生成内容。如今,我们更进一步,在核心产品中加入内容凭证验证 (Content Credentials verification) 功能。该功能将帮助用户识别内容来源于相机拍摄还是 AI 生成,以及是否经过生成式 AI 工具编辑。为了让更多用户能够便捷使用这些工具,我们计划把 Content Credentials 和 SynthID 核验功能直接嵌入 Google 搜索和 Chrome 浏览器中。
当然,只有当更多合作伙伴选择为其 AI 生成的内容添加水印,这项技术才能真正起效。继去年 NVIDIA 加入之后,今天我们非常高兴地宣布,OpenAI、Kakao 以及 Eleven Labs 也将采用 SynthID 水印标准。我们很开心看到这种跨行业的紧密协作,期待未来能与更多合作伙伴携手,共同树立 AI 时代的数字安全与透明度标准。
几个月前我们发布了 Gemini 3 模型的完整系列,这也是我们目前最受欢迎的模型系列。我们很高兴看到广大开发者把 Flash 当成日常开发的主力工具,并基于 Pro 模型强大的深度推理和多模态能力构建了许多精彩的应用体验。与此同时,我们也持续专注于提升模型在智能化编程、长周期任务以及现实工作流中的实际表现。
今天,我们正式推出 Gemini 3.5 Flash,这是我们首次推出的融合了前沿智能与行动力的模型。它有两大核心技术突破:
这款新模型在 Google 内部的研发工作中带来了颠覆性的变化。我们一直将 3.5 Flash 与全新重构的智能体化开发平台 Antigravity结合使用,这使得我们内部开发构建的速度得到了显著提升。今年 3 月,我们内部的 AI 编程工具每天处理的 token 量达到 5000 亿个,并且每隔几周就会翻倍。而如今,我们每天处理超过 3 万亿个 token。这种超大规模的运行形成了强大的数据反馈闭环,协助我们持续优化并提升 3.5 模型的实际表现。
Flash 模型令人惊艳之处在于,它不仅能提供前沿级别能力,价格却不到同类前沿模型的一半。我们听到很多企业反馈,截止 5 月,其全年模型 token 预算就已接近耗尽。企业若将 Flash 模型与其他前沿模型组合使用,将能够节省巨额的开支。目前头部的科技企业每天大约需要处理 1 万亿个 token。如果他们选择将其中 80% 的日常工作负载从其他前沿模型迁移到 Gemini 3.5 Flash 上,每年将节省超过 10 亿美元。这是一笔可观的成本节约,企业可以重新投入到企业核心业务。
即日起,Gemini 3.5 Flash 将在我们的各类产品和 API 中全面开放。同时,我们也在全力研发 Gemini 3.5 Pro。该模型目前已在 Google 内部投入使用,展现出了极大的性能提升,我们非常期待在下个月将其正式推出。
我们也同步将 3.5 Flash 引入 Antigravity 平台,面向开发者开放。
Antigravity 正在突破编程环境的局限,演变为一个可以开发和管理 AI 智能体集群 (cohorts of autonomous AI Agents) 的综合平台。其中包括 Antigravity 2.0,一款能够作为智能体交互核心枢纽的全新独立桌面应用,让任何用户都可以协调编排多个智能体去协同完成各种任务。同时,我们还在该平台内置了进一步优化的 Flash 版本,其响应速度达到了其他前沿模型的 12 倍。
用户即日起可在 Antigravity 中率先体验。
Gemini 3.5 与 Antigravity 正在开启一个由智能体和智能体能力驱动的全新世界。此前,我们已经面向开发者和企业用户推出了智能体。现在,我们致力于在确保安全可靠的前提下,将智能体的能力带给广大普通用户,让每个人都能从中受益。
今天起,用户将得以在 Google 的多款产品中体验。
我个人非常期待的 Gemini Spark——这是内置在 Gemini app 中的个人 AI 智能体,能够协助用户处理数字事务,并在用户的指导和授意下代执行任务。
我们本周开始向可信测试人员正式推出 Gemini Spark,并计划于下周向美国的 Google AI Ultra 订阅用户开放 Beta 测试版。
Gemini Spark 是首款基于 3.5 模型和 Antigravity 构建的体验。这种能力的融合,帮助我们加速实现公司使命,并为创新产品使其更具使用价值提供了全新途径。
随着我们步入智能体时代,Google 搜索将变得比以往任何时候都更加实用和强大。今天,我们正式在搜索中引入信息智能体 (Information Agents) 。这些个性化 AI 智能体可以在后台被设置为全天候运行。它们会在恰当的时机找到用户所需的关键信息,并协助用户采取行动。信息智能体功能将于今年夏天率先面向 Google AI Pro 和 Ultra 订阅用户推出。
我们构建真正智能化搜索的另一种方法是为其引入智能编程能力。借助 Gemini 3.5 Flash 和 Google Antigravity 的能力,Google 搜索将能够针对用户的具体问题打造定制化体验,例如动态布局和交互式视觉效果。这些生成式 UI 能力将于今年夏天向所有搜索用户免费开放。
对于那些需要反复跟进的长周期任务,Google 搜索可以更进一步:构建一个持久的自定义仪表板或进度追踪器 (Persistent dashboard) ,方便用户随时返回查看并推进进度。用户可以将这些视为针对个人特定任务的迷你应用程序 (Mini apps) 。未来几个月里,用户将能够直接在搜索中利用 Antigravity 构建自定义体验,该功能将率先面向美国的 Google AI Pro 和 Ultra 订阅用户开放。
以下是我们在今年 I/O 大会上分享的其他进展:
纵观我们从 TPU 8i 的基础设施到 Gemini 3.5 与 Antigravity 的全栈式创新,可以确定的是:我们已经迈入了智能体化的 Gemini 时代。我非常期待看到这些全新的技术能力如何进一步协助我们把公司使命落到实处,并让我们的产品变得更加平实、好用,切实助力全球每一个地方的每一个人。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
字节跳动CEO梁汝波最新万字分享深度拆解:这可能是2026年最重要的一堂管理课
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-14
2026-04-24
2026-04-22
2026-05-19
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。