我要投稿

Google的AI应用版图，我可以做到的最详细的版本

发布日期：2025-09-01 22:00:29 浏览次数： 1960

作者：数字游牧日常

微信搜一搜，关注“数字游牧日常”

为了一个想仔仔细细写的内容，我写了一堆冗长的开场白，可是我明明是要介绍Google复杂的AI应用体系，那么，不如跳过所有开场白，直接开始。当然，所有的分析都不包括搜索及搜索用户。

首先就是Gemini的APP：是的，为了这篇文章，我先让Gemini自己做了个Deep Research，主要是为了一些信息搜集，在Gemini APP早就可以直接将Deep Research的结果作为Google Docs存放到Google Drive中（export一键）。可以生成一些可视化网页，可以生成博客式的语音对话，妥妥多模态。

当然，最新的nano banana模型（文生图，现在叫Gemini 2.5 Flash Image）也已经到了APP中。

还支持视频生成，视频和声音文件输入，Canvas功能（如上面的网页），当然还有语音实时对话等等。

还有Gems功能（预设好模版，我每天生成自动化报告可视化的那个，当然现在可以迁移到其它功能上了，卖个关子先）。

上面的这些功能除了最新的Nano Banana模型（其实我不确定免费可不可以用），都是免费的，参看下面的Free包含的内容。至少，比Claude有良心多了。

当然，如果到了Google One的Ultra订阅，那么不仅所有功能至今为止我还没碰到过rate limit的情况，还可以开启Deep Think模型（IMO金牌那个）。如今，每当我冒出一个新想法时都会让Deep Think出设计方案，它给的设计方案，既完整，充分考虑到各种情况，又能够使用尽可能简单的架构，与Claude Code配合非常的成功率相比其它模型显著高。

其实，在过去很长的一段时间里，我使用Gemini模型都是不打开Gemini APP的，但在今年6月份开始后，这个习惯发生了巨大的变化，如今我打开Gemini手机APP或者直接网页版（统称Gemini应用）访问的次数远多过ChatGPT，当然更多过已经基本为零的Claude应用。

我基本上都会在手机上随时随地发起Deep Research，2.5 Pro模型支持的Deep Research只在Gemini应用中有；
每一份Research结果，我都会点“导出到Google Docs”，自动存放在Google Drive里；
每一份Research结果，我都会生成一个简单的可视化（Web Page功能）和AI Overview的音频博客；
Deep Think
目前只在Gemini应用中才可以访问；

显然，Google从今年二季度开始大幅加强了Gemini应用的用户体验，毫无疑问，它也是如今功能最强大的模型应用（自家的AI Studio之外），不仅输入支持视频等多模态，更是能够直接输出音频，加上如今显著领先的文生图模型。模型能力超越GPT，功能更是比ChatGPT更多更全面。

当然，ChatGPT如今有一个功能做的很好，就是ChatGPT-Agent，这也几乎是我每天还会打开ChatGPT的唯一原因。虽然Google也有类似的应用，叫做Project Mariner，但是：1）它还只是给Ultra用户开放的一个预览版；2）尚未集成进Gemini应用；3）能力上相比ChatGPT-Agent还有不足。

所以，顺势进入Google的第二个应用Project Mariner。

其实从形式上看，甚至比ChatGPT-Agent的“前身”Operator还要“酷炫”一点。但是如今的Project Mariner还不能满足我日常使用的要求：1.它依然还不支持上传文件，所以并不能完成处理一些表格进行数据分析的功能；2.似乎还没有加入代码执行的功能；3.在一个月前的一个测试案例里，一直绕不过一个页面的点击，频繁要求用户干预。

当然，在过去一个月里，也能明显感受到Project Mariner的进步，最大的变化是，模型变“聪明”了，它会有一个自主选择是直接读取网页内容，而不需在浏览器中打开网页。当然，browser use类的功能还是有很多的应用场景的，特别是结合模型其它能力的时候。

然而，它很难成为一个独立的应用，而应当嵌入到各种模型和生态之间，成为填补模型与生态间“空洞（hole）”的万金油。

我相信Google对这个问题的认识肯定比我清楚的多，从这个项目去年曝光到如今依然还在谨慎的“preview”看，很可能他们就是有“大得多”的想法。

如果说Gemini应用，Project Mariner有很清晰的竞品的话，那么AI Studio体现的就是Google独有的优势和思考方式：面向开发者，大量免费额度，新模型新功能的测试地。

如今的AI Studio其实跟最初已经有了巨大的区别。我找到了当初拿到Gemini-1.5-Pro预览测试时的界面截图，又把它跟当前的UI进行了对比：如今的AI Studio已经完全是一个非常成熟功能强大的应用的样子。

自从Gemini支持百万超长上下文后，AI Studio就一直是我使用模型处理日常工作最重要的平台，如上所述，直到今年六月份，我才开始改变，Gemini应用的打开次数显著增多。

对于Google而言，AI Studio一直是一个神奇的存在：Gemini最新的模型首先都在AI Studio中发布，而且对于AI Studio用户在AI Studio UI中使用是完全免费的，我甚至都没有碰到过任何一次“额度用光”的情况。AI Studio的申请还很简单，成为Google信任的开发者，这也是免费的，而且去年之前审核门槛还不小，如今，好像基本上申请就能通过。

过去很长一段时间，无论线上还是线下，我都把这称为“讨好开发者”。有时候我其实不太分得清楚这到底是出于Google研发人员的“傲慢”还是“开放共享”心态，可能都有吧。事实上证明，这种“策略”是奏效的：AI产品迭代太快，一方面，将AI Studio看作一个正经的开放实验平台，成熟的模型和功能再上线Gemini应用，会减轻产品端巨大的压力；另一方面，正儿八经的把这个实验平台打造成面向开发者的“生产工具”，不仅可以维护住AI时代最重要的用户，还可以极大发挥开发者的创造力，不断创造Best Practice，吸引更多用户，“教育”市场。

我又一次认为Google清晰的了解并且利用了这一切，因为他们已经将AI Studio打造成了最强的AI应用。因为不仅仅是这类最新模型的免费使用。还有一系列Gemini应用中都没有的功能的免费开放。

1）Stream：不仅仅是实时对话，还可以开启摄像头跟模型视频聊天，还可以把屏幕实时分享给Gemini，边操作屏幕边聊天，我就尝试过让它成为我策略游戏的助手，甚至下棋、打牌……

当然，这些功能还比较初步，但它就是能让开发者打开更多的脑洞，更快的拓展模型可能拓展的场景边界。

2）Generate media

是的，是真的各种media，光图片生成就有imagen-4和最新的nano banana；视频生成有Veo；音频合成有单人和对话（AI Overview那种），还有基于Lyria模型的音乐合成……

当然，Imagen和Veo目前是有额度上限的，这毕竟很消耗算力。

这么完整的功能和产品出现在AI Studio这样的平台里，我脑海中又会出现Demis狡黠的微笑：看看我们的模型矩阵（这还没列入那些最新的）。可能在AI领域，就只有两个与众不同的“天才”，一个开创了DeepMind，一个联合创办了OpenAI；一个如今还在Google承担更重要的角色，一个最近刚换了头像。

仅上面这些，其实就已经超过了任何一家竞争对手的产品。但是，这没完，因为如今最强的功能已经是：Build，创建一个基于Gemini的AI应用。

这两天，我在用它改造自己自动化日报的流程。

怎么说呢，其实在Build功能这么强之前，我一直希望有一个网页版的Cursor，满足我在地铁、公交，吃饭排队时测试突然冒出的想法的需求（是的，很多时候，新想法都产生于非面对电脑时间）。在这之前Google先后推出了Firebase Studio和Jules（一会儿介绍），但是在当时能力确实跟Cursor和Claude Code有差距，同时跟Github绑定有点深，Jules还无法预览效果。

Build解决了全部的问题：直接预览效果，可以上传代码到github，可以使用Google Cloud一键部署应用。

它还做的更多：几乎无限量的Gemini-2.5-Pro（我在修改上面的应用时，花了四五个小时不断的让模型修改功能，注意，是修改功能，不是改bug，这个强度下，Claude Code大概一个小时就会提示我用完了五小时的额度）；生成的应用可以直接集成Gemini API，而且如果生成的应用是在Build中测试的话，API用量也无上限；模型生成能力，模型似乎比Gemini Cli更强，因为聚焦，体感上也强过Claude Code和Cursor。

你可以使用无上限的模型用量生成并不断修改自己的应用，直到发布到正式生产环境，甚至你也可以就在AI Studio UI里把生成的应用当作日常工具，免费使用。

当然，它应该不太支持规模过大的项目，但是一个聚焦的AI应用，本来就是Build的定位。

Gemini是个迷一般的模型，它在不同应用里，能力是不太稳定的，这背后当然是因为不同产品团队调配的不同。但是恰好，在Build里，它的表现至少不输于Claude，很更完整，免费且不限量。

嗯，脑子里又有某个人的形象了。

AI Studio告一段落。既然涉及到了代码生成和应用开发，那么把Firebase Studio、Jules、Gemini Cli一起说一下。

首先，Firebase Studio。实话说，自从测试版尝试了几个项目后，我有一段时间没有使用Firebase Studio了。这次打开了当时的一个小项目：Visual Editor。

重新打开的刹那，明显感觉到它的“进化”，UI似乎变得更友好了，左边菜单栏已经很像桌面IDE工具了，Sandbox预览也支持，与AI Studio的Build的定位差别也很明确，Build侧重于开发基于Gemini的AI小应用，Firebase Studio就是各种项目开发。当然，经过这几个月的迭代后，Firebase Studio的代码能力是否提升，需要后面测试一下。不过，Firebase Studio是免费的（有限量），跟着Code Assist的额度走（跟Gemini Cli一起），免费用户一天一千次模型调用（我长期测试下来，应该是按照Gemini-2.5-Flash的调用量计算的）。

顺着简单带过Gemini Cli，关于它的文章我写了很多了，甚至还基于它发布了一个开源的OpenResearch。它的定位跟Claude Code，OpenAI的Codex一致，不仅仅是代码开发工具，更可以认为是一个基于AI的桌面系统管理工具：执行所有被允许的操作系统命令，包括浏览目录，增删改查文件，执行三方程序，还可以完成搜索和内容生成，当然，关于项目开发的功能也一个不少。

一句话，一个套着AI Coding外衣的AI操作系统“套壳”程序，是AI操作系统的雏形。

客观而言，在代码能力上，Claude Code最强，但是在操作系统层面和互联网搜索层面的能力，Gemini Cli显著强于Claude Code。理由很简单，Google生态，无论是搜索，还是基于自身对操作系统的理解。当然，还有一点，Gemini Cli代码是开源的，代码将Google团队在Gemini模型之上的工作全部都“公开”了出来，给到开发者更多的启发与提示。

关于AI操作系统，可以再单独谈很多，这篇不是围绕这个话题的，所以，Gemini Cli的介绍到此收尾。

Jules：再回头看，Jules是一个有点奇怪的产品，虽然发布的第一时间我也测试并介绍了。但是初步使用的评价只是中规中矩，我更多是对Google这种对新产品发布变得“激进”的风格非常赞赏。

因为一段时间没用了，所以截图还是来自于以前的会话。Jules最大特点是必须基于用户自己的Github项目，与Github的一系列工作流匹配，当然，它是纯开发工具，不具备预览功能。另外，它走的是用户Gemini应用的订阅（Google One），免费版可以有一定的额度，当然，Ultra全家桶看起来量就很足了。

是的，到这里很多朋友肯定已经疑惑了：Gemini应用和AI Studio的异同好不容易算基本搞明白了。又出来个Firebase Studio，Gemini Cli，Jules，一下子就晕了。

是的，简单说，这就是由于Google内部不同的团队和产品线造成的，更是因此造成的不同用户体系带来的。先继续说应用，用户和产品线的问题放到后面说。

视角切入到Google Labs的产品体系。这又是一个庞杂的产品线，当然，简单理解，Google把各种创意型的，试验型的产品都往这里扔，所以叫做实验室。

严格意义上讲，上面介绍的Project Mariner，Firebase Studio，Jules都属于实验室产品范畴。这里，我也不可能每一个都说一遍，一方面，不是每个产品都跟AI关联度那么大，另一方面，很多我也没用过。我可以介绍的是Stitch，Flow，Notebook LM，可以简单带过去的是VideoFX，ImageFX，MusicFX。

首先，Stitch，先说它是因为这是一个从代码走向“艺术”的中间环节，UI设计。我曾经写过一篇文章，因为它就是个小型化AI版的Figma。这是我之前的认知，但是周末在优化weekend project过程中，我的想法有了细微的变化。

在最近的更新里，Stitch增加了一个“experimental mode”。增强了能力，去掉了跟Figma的兼容。

我使用Stitch优化自动化日报的手机适配。一键生成的效果如下，直接是html代码，然后我把代码和UI示意图给到AI Studio的Build，高效且准确率高。

所以，Stitch至少可以成为很多没有专业设计师时的重要备选。坦白说，在传统的前端开发流程中，Figma依然不可替代，它是一种标准，AI时代它甚至可以阶段性的充当PPT，简单物料的生成工具。

可是，这一轮AI最终改变的是工作流，是反“标准化”的。或许AI时代的标准就是二进制，或者token，能看懂它的，只有模型。人与AI的交互语言是带有计算机系统思维的自然语言。

到了设计，那就前进一步，Flow：基于Veo3的视频生成和剪辑工具。他当然比Sora强，不仅能生成背景音乐，还可以生成口型一致的语音。

过去，我也发过一些使用Flow做的“抽象视频”。过去一段时间，苦于没什么时间，也就没有特别的去使用视频类模型和工具。但是Google在Notebook LM和Opal中的Video Overview功能，其实都已经很好的融合了视频模型，也许，很快，它们就可以让我更轻松的实现新的产出了，如同如今的音频博客AI Overview。

当然，可以看到Google产品体系的多变，上图里的VidoeFX其实已经变成了Flow，ImageFX也开始跟新工具Whisk融合，计划总是赶不上变化：漫天飞舞的粉红色雪花，还有落在冰面上沙沙的声音。Gemini早就玩到了多模态的下一层。

当然，DJ工具MusicFX，我不会用。不是don’t，是can’t。

Labs还有一些好玩的，比如，Little Language Lessons

比如，TextFX

数字世界，就该好玩一点，不是吗？

从艺术馆回到“牧场”：Notebook LM。

Notebook LM是Gemini系列应用里第一个出圈的，也是这个应用生成的30分钟AI音频播客，让很多人意识到Gemini系列模型真正的能力。

如今，它已经成为一个非常有用的工具：最多支持300篇的输入语料，思维导图，AI音频播客（多语言支持），加上最新加入多语言支持的Video Overview（PPT讲解视频）。我上周一篇文章专门展示了基于200多家公司电话会议纪要的生成结果，客观而言，质量非常高。

【25Q2美股财报ReCap】：来自AI的实践，多模态展示

对我而言，Notebook LM不仅仅是一个多模态内容生产工具，更是一个为我自己所用的信息处理工具和学习工具：音频的AI Overview可以当作其他工作时的背景音，无负担的处理信息，与Video Overview一起，又成为自己最好的学习工具，至少我做不到在这么短的说话时间里覆盖这么多信息，条理如此清晰，用词还如此准确。

随着模型能力的提升，300个语料的上限一定会不断提高，而Notebook LM本身已经跟Google Drive打通了，而Google Drive又跟Workspace和Gemini打通，这是生态闭环。所以，如今，我把大量的非保密和私密信息都往Google Drive里扔，不需要特意整理目录，因为模型和其他应用都可以帮我做到。

最后一个“牛马工具”：测试期的Opal。去年12月25号，我写了一篇文章《Gemini 2.0加持下的最佳AI应用已经出现，还完全免费》，介绍的是TLDraw基于Gemini-2.0开发的流程编排类应用TLDraw Computer。这个应用我用了不短的一段时间，用来生成每日新闻播报，文字内容，图片加语音合成。后来，随着Agent概念的兴起，n8n、dify等工具使用者越来越多。我一直在等TLDraw Computer基于Gemini-2.5的升级，没想到，前段时间等来了Google自己的Opal，一个妥妥的加强版。

这是Google唯一的一个在一个页面里可以集成几乎所有底层模型的应用，不仅包括最新的2.5 Flash Image（nano banana），还支持Deep Research（当然只能用Gemini-2.5-Flash，而不是Pro），支持音频生成的AudioLM，还可以生成视频，音乐，等。

同时，这个产品的目标还是为了生成AI应用，或者应用的原型。我很喜欢Output模块，可以把多种输出结果汇总到一起。

我也再次可以有机会展示nano banana模型的强悍能力。

还可以听音频。

我终于基本梳理完了Google的AI应用，当然，还有一系列功能或者应用没有包含，比如手机端的Circle to Search，比如Office 365的竞品Workspace（以前是免费平替，如今是竞品），比如Gemini加持后的Colab，比如搜索中的AI Mode等等。

可是正如之前所说的，我确定，多数朋友看到现在还是“懵”的，因为产品看起来很乱，用户体系看起来很乱，模型看起来虽然比GPT好点，但也是眼花缭乱。

是的，这就是Google的现状：多个用户体系，多条产品线。

先说用户体系，其实，在这一轮生成式AI前的时代，Google的客户主要分成C端和B端（更多是Google Cloud），除了Gmail之外，多数C端客户都是开发者，所以也可以认为就是开发者和企业客户。实际上，我认为这个分类也不合适，对Google来说，更贴切的应该是实验性客户和生产落地型客户。面向开发者的基本都是免费思路，带有实验性，附赠常用工具（workspace等），这些开发者无论是个人还是代表所在企业，产品要落地了，就成为Google Cloud用户，虽然也有免费额度，但对于一个长时间在线的业务来讲，就是典型的按使用量付费的云模式了。

Gemini发布后，一度也都是免费的，但是慢慢的Google从Gemini用户中切出来一部分，跟Workspace的功能打包（Google Drive容量，Docs等办公应用可以优先使用Gemini最新模型），推出了Google One（这个时候跟Google面向团队和企业用户的Workspace收费服务依然还是混乱的，我在23年还跟客服投诉了很长一段时间）。这就是Gemini应用面向的客户。

但是对于最容易转换成云服务收费方式的开发者，Google的态度似乎比以前变得更讨好，为了可以有更多的用户使用和更多的落地场景，AI Studio推出，成为免费但又是最好的Gemini驱动的应用。前面说过，我长时间都是只是用AI Studio的，Gemini最新模型首先出现的地方也一定是AI Studio。

但是这带来两个问题，如果用户在AI Studio里免费餐吃的已经够舒服了，怎么能够更多付费，无论是Gemini应用还是Google Cloud，另外，让纯粹的Gemini应用用户怎么想？

Google Cloud的问题比较好解决，就让开发者只能在AI Studio UI里“玩耍”，但是如果要想变成落地应用，那就转向Vertex AI，当然在AI Studio UI里完成的应用尝试可以无缝的移植到Vertex AI中。Google和开发者真的成为了利益一致方。

但是“安抚”Gemini应用的付费用户其实是有难度的，幸好，有了Notebook LM，有了Deep Research，有了Deep Think，这些功能都是只跟Gemini应用的订阅付费用户绑定的，还通过Google One体系，绑定了Workspace的资源（主要是Google Drive，Docs，Gmail，这些其实在目前的AI应用体系里还是挺重要的）。然后，就是靠labs的新功能，比如当时最好的视频生成模型Veo3，比如上面的opal，project mariner，等等。

这样，逐渐就形成了Gemini应用用户，开发者，云服务用户（开发者，团队，企业）相对合理的架构。

但是，又产生问题了，Claude推出了Claude Code，Google意识到了这一个应用方向的无穷潜力，推出了开源版的Gemini Cli，但是在用户定义上就又产生了模糊，开始推出时，支持Gemini应用的用户登录，AI Studio的API Key登录，Vertex AI用户的登录，三种方式，前两种每天有附赠的免费额度（1000次的Gemini-2.5-Flash调用）。

可是Gemini Cli的token用量真的很大，于是乎，Google应该是关掉了AI Studio的API Key的免费额度（我测试下来是这样，但是没看到官方特别明确的说法），又硬生生把Gemini应用用户定义为Code Assist用户，并额外增加了一个Standard的订阅包和企业版订阅包（其实一开始就是定义为code assist用户，只不过没有推出付费订阅模式）。