支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一文读懂:2025 Google I/O 开发者大会

发布日期:2025-05-21 12:18:36 浏览次数: 1616 作者:AI产品经理社
推荐语

探索2025年科技前沿,Google I/O大会亮点全揭晓。

核心内容:
1. Google AI Ultra会员服务及其战略意义
2. Gemini 2.5 Pro等AI模型的性能突破
3. Gemini Diffusion等前沿研究的展示

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

2025年5月21日,Google I/O开发者大会如期而至,这场备受瞩目的科技盛会再次为全球观众带来了诸多惊喜。

从全新的AI模型到创新的产品应用,从视觉生成技术的突破到搜索体验的重塑。

Google在本次大会上全方位展示了其在人工智能领域的最新成果与战略布局

一、Google AI Ultra会员:战略布局发力

在本次大会上,Google推出了一项重磅举措——249.99美元每月的Google AI Ultra会员服务

这一会员套餐几乎囊括了Google此次发布的所有新产品与服务,如Gemini 2.5 Pro Deep Think、Veo3、Project Mariner等,同时还整合了NotebookLM、YouTube等会员权益。

这不仅是Google在产品整合上的重要一步,更是其从顶层推动AI技术普及与应用的战略体现

目前,该会员服务前三个月半价,每月仅需124.99美元,这对于追求前沿科技体验的用户来说无疑具有极大的吸引力。

二、AI模型:性能与功能的双重突破

1、Gemini 2.5 Pro:全能冠军的强势表现

Gemini 2.5 Pro无疑是本次大会的明星产品之一

它在语言、推理、代码等多个维度上均展现出卓越性能,直接碾压了LMArena全部测试项。特别是在WebDev编码测试中,Gemini 2.5 Pro取得了天花板级分数,相比上一代提升了142点Elo,稳居榜首。

更令人惊叹的是,它还成功打通了《宝可梦:蓝》,完成了八枚徽章收集以及四大天王和冠军的挑战,这一成就被观众戏称为“人工精灵宝可梦智能(API)”。

2、Gemini 2.5 Flash:速度型选手的高效表现

如果说Gemini 2.5 Pro是全能冠军,那么Gemini 2.5 Flash则是速度型选手的代表。

谷歌将其称为“最高效的劳模模型”,在推理、代码和长上下文等维度上均有显著提升,其在LMArena榜单上的综合表现仅次于Gemini 2.5 Pro。

新版的Gemini 2.5 Flash预计将于6月上旬正式上线,用户目前已经可以在AI Studio、Vertex AI以及Gemini App中体验预览版。

3、Gemini 2.5 Pro Deep Think:超强模式的深度思考

Google为Gemini 2.5 Pro新增了Deep Think模式,使其在超难的数学和编程基准测试中表现惊人。

这一模式类似于OpenAI的o1 pro,通过较长的推理时长来换取更高的质量。目前,Gemini 2.5 Pro Deep Think仍处于安全评估阶段,仅向部分信任的测试者开放。

4、Gemini Diffusion:实验性文本扩散大模型

Google还展示了一项前沿研究——Gemini Diffusion

与传统通过预测下一个Token来生成内容的模型不同,Gemini Diffusion通过逐步细化噪声并行生成内容,展现出极低的延迟

现场演示版本的Gemini Diffusion生成速度比2.0版的Flash Lite快了五倍,而代码任务质量却几乎相等。

三、Gemini产品:多模态交互与个性化体验

1、Gemini Live:多模态交互的全新体验

Gemini Live是Google整合多模态交互功能的新产品,源自去年的研究项目Project Astra。

用户可以对着手机摄像头或屏幕上的任何内容与AI助手进行对话。例如,测试者用摄像头对着街边乱指,Gemini Live不仅纠正了用户将垃圾车误认为豪华敞篷车的错误认知,还科普了路灯不是瘦高建筑物等常识。

从今天起,Gemini Live的视觉问答功能将在Android和iOS平台全面上线

2、Personal Context:个性化的贴心服务

Personal Context功能在获得用户授权后,能够打通Google应用中的搜索历史、Gmail、Drive等信息,真正实现个性化服务。

例如,它可以根据用户的物理考试时间、笔记、教授材料甚至手写笔记,为用户生成个性化的考题。

3、DeepResearch与Canvas创作:深度研究与创作的升级

DeepResearch功能现在支持用户上传自己的文件进行深度研究,而Canvas也迎来了升级。

用户可以将研究报告一键转换为网页、信息图,甚至45种语言的播客。此外,Canvas还支持前端预览代码,并可将代码分享给朋友。

4、Gemini现身Chrome:网页插件的AI总结

在浏览网页时,Gemini能够直接理解当前页面内容并回答用户问题,相当于为用户自带了一个AI总结的网页插件。这一功能将极大地提升用户在网页浏览过程中的信息获取效率。

5、Gemini Agent Mode:让AI替你办事

针对C端用户,Google在Gemini应用中引入了全新的Agent Mode

用户可以将复杂的任务要求告诉Agent Mode,例如找房子,Agent Mode会自动在Zillow等房产网站搜索符合条件的房子,并调用Mariner进行筛选。当发现心仪房源时,它还能自动提交预约看房的表单,并持续更新房源信息。

目前,Gemini Agent Mode仍处于实验阶段,预计很快将向订阅用户推出实验版。

四、视觉生成:从静态到动态的跨越

1、Flow:AI电影制作的创新工具

Flow是Google在本次大会上推出的一个全新AI电影制作工具,它将Veo、Imagen和Gemini的能力融为一体,直接对标Sora

用户可以上传自己的图片,或者使用内置的Imagen生成素材,然后通过一个指令生成一段高质量的AI视频。

视频生成后,用户还可以直接进行剪辑,甚至添加新的镜头。然而,目前Flow仅对美国用户开放,且用户只能使用Google自己的Image生成无法自行上传图片,这在一定程度上限制了其应用场景。

2、Veo3:文生视频的突破

Veo 3是Google在文生视频领域的又一力作。它在画质和逼真度上较前一代有了显著提升,尤其在对物理规律的理解上更为深刻,例如重力、光照、材质等现实规律。

Veo 3最大的突破在于首次加入了原生音频生成功能,用户可以让AI生成的视频中包含背景音效、环境声甚至角色对话。

Veo 3已于发布当天上线Flow平台,但目前仅限于Google AI Ultra会员使用,且生成视频的成本较高,一条视频需要消耗150点数,Ultra会员每月仅拥有12500点数。

3、Imagen4:文本生成图像的质变

Imagen 4是Google最新一代的文本生成图像模型,其画质有了质的飞跃,颜色更丰富,细节更精致。

在文本嵌入方面,Imagen 4也取得了重大改进,能够准确生成文本内容,并根据内容选择合适的字体样式,自动调整间距和版式。

目前,Imagen 4已经全量上线,普通用户可以在Whisk平台上使用。

五、Google搜索:AI重塑搜索体验

1、AI Overviews:AI摘要的广泛应用

Google搜索的AI Overviews功能在过去一年取得了显著成效,目前,每月已有超过15亿用户在使用这一功能。

AI Overviews在用户搜索时会在结果顶部生成一个由Gemini模型生成的简述,并附带信息来源引用。随着Gemini 2.5系列模型的应用,AI Overviews的生成结果在准确性和覆盖面方面都有了进一步提升。

目前,该功能已在包括美国、印度在内的40多个国家和地区上线,并支持多语种查询。自AI Overviews推出以来,用户在搜索上的投入度有所提升,每日搜索量出现了额外两位数百分比的增长。

2、AI Mode:搜索范式的全面重构

AI Mode是Google在本次大会上推出的端到端AI搜索体验

启用AI Mode后,用户可以提出更长更复杂的问题,而无需像以往那样精简成关键词。

AI Mode能够根据用户的搜索记录甚至Gmail信息(需用户同意)提供个性化的搜索结果。此外,AI Mode还具备以下几大亮点:

- Deep Search(深度研究)对于需要深入研究的问题,AI Mode能够同时发出几十甚至上百个搜索请求,并将信息汇总成一份专家级的、带引用的报告。

- 复杂数据分析与可视化AI Mode能够生成表格和图表,帮助用户更直观地理解数据。未来,它还将支持更详细的体育和金融问题分析。

- AI帮你办事AI Mode整合了Project Mariner的能力,能够帮助用户完成一些实际操作,例如购买球赛门票、订餐厅、预约服务等。

- AI购物体验AI Mode能够根据用户的描述推荐合适的商品,并提供购买链接和注意事项。此外,它还具备虚拟试衣功能,用户只需上传照片,即可查看衣服的上身效果。

目前,AI Mode已作为实验新功能向美国所有用户开放。这一功能的推出标志着Google从传统的“搜索结果列表”向“对话式报告”搜索范式的全面转变。

六、Agent系统:自动化与智能化的融合

1、Project Mariner:AI驱动的自动化浏览器助手

Project Mariner是Google在Agent技术方面的重要成果

自去年12月作为早期原型推出以来,Mariner已经学会了多任务处理,能够同时监督多达10项任务并行执行。

此外,它还引入了“示范并重复(Teach and Repeat)”功能,用户只需示范一次,Mariner便能学会流程,并在遇到类似任务时直接上手。

这一功能让Mariner具备了RPA(机器人流程自动化)的影子,为未来的自动化应用提供了广阔的可能性。

目前,Mariner已通过Gemini API向开发者提供其用电脑的能力,预计今年夏天将更大范围开放这一能力供开发者使用。

2、Jules:AI编程Agent的探索

Jules是Google在本次大会之前提前发布的一个AI编程Agent,目前正处于全球测试阶段。

用户可以连接GitHub,通过Jules自动拉取和提交代码。不过,Jules必须连接GitHub才能使用,对于开发小白来说可能不太友好。

七、其他亮点:硬件与软件的协同创新

1、NotebookLM:AI播客与知识整理的独立应用

NotebookLM是去年和今年最火的项目之一,它掀起了AI播客的潮流。

在本次大会上,Google宣布将其正式推出独立应用,并登陆Android和iOS平台。用户无论是在手机还是网页上,都可以随时随地调用NotebookLM来整理笔记和知识。

2、Gemini融入安卓全家桶:多设备的无缝连接

目前,用户已经可以通过电源按钮快速启动Gemini

未来几个月,Gemini还将登陆智能手表、汽车仪表盘甚至电视,实现多设备的无缝连接与交互。

3、Project Moohan头显:与三星联合打造的Android XR设备

Project Moohan头显是Google与三星联合打造的第一款Android XR设备,预计今年晚些时候将正式上市。

这款头显将为用户提供沉浸式的虚拟现实体验,进一步拓展Google在XR领域的布局。

4、Android XR智能眼镜:全天佩戴的智能交互设备

Google在本次大会上展示了一款轻便、适合全天佩戴的Android XR智能眼镜。这款眼镜内置摄像头、麦克风、扬声器,甚至可选的镜内显示屏。

用户可以通过眼镜实现多种智能交互功能,例如:识别周围物体、回答问题、播放音乐、导航、识别咖啡品牌并找到咖啡店,以及实时翻译功能

Google还与Gentle Monster和Warby Parker等品牌进行了联名合作,进一步拓展了智能眼镜的市场。

5、Google Beam:3D视频通话技术的升级

Google Beam是Google此前推出的3D视频通话技术的升级版。

它通过一个包含6个摄像头的阵列从不同角度捕捉用户,然后通过AI将这些视频流融合成逼真的3D体验,并能够在3D光场显示器上以毫米级精度、每秒60帧实时追踪头部。预计今年晚些时候,惠普将推出首批Google Beam设备。

6、Google Meet实时语音翻译:无障碍沟通的实现

Google Meet实时语音翻译技术能够让不同语言的人进行自然流畅的对话,翻译能够匹配说话者的语气、语速甚至表情。

目前,这一功能已经可以直接在Google Meet中使用,支持英语和西班牙语,未来还将支持更多语言和推出企业版。

7、TPU Ironwood:第七代TPU的性能飞跃

TPU Ironwood是Google推出的第七代TPU,专门为AI的思考和推理大规模应用而设计。

其性能比上一代提升了10倍,预计今年晚些时候将上线Google Cloud。这一技术的推出将为AI应用的进一步发展提供强大的硬件支持。

8、SynthID数字水印:AI生成内容的版权保护

为了应对AI生成内容难以辨别的问题,Google升级了SynthID技术

新的SynthID Detector能够检测图片、音频、文本、视频中是否包含SynthID标记,哪怕只是一小部分。这一技术将有助于保护AI生成内容的版权,防止其被滥用。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询