微信扫码
添加专属顾问
我要投稿
Google的AI应用版图深度解析,揭秘Gemini如何成为多模态AI的领跑者。 核心内容: 1. Gemini APP的核心功能与免费服务详解 2. Google One Ultra订阅的独家优势与Deep Think模型 3. Gemini与ChatGPT、Claude的实战对比与用户体验升级
为了一个想仔仔细细写的内容,我写了一堆冗长的开场白,可是我明明是要介绍Google复杂的AI应用体系,那么,不如跳过所有开场白,直接开始。当然,所有的分析都不包括搜索及搜索用户。
首先就是Gemini的APP:是的,为了这篇文章,我先让Gemini自己做了个Deep Research,主要是为了一些信息搜集,在Gemini APP早就可以直接将Deep Research的结果作为Google Docs存放到Google Drive中(export一键)。可以生成一些可视化网页,可以生成博客式的语音对话,妥妥多模态。
当然,最新的nano banana模型(文生图,现在叫Gemini 2.5 Flash Image)也已经到了APP中。
还支持视频生成,视频和声音文件输入,Canvas功能(如上面的网页),当然还有语音实时对话等等。
还有Gems功能(预设好模版,我每天生成自动化报告可视化的那个,当然现在可以迁移到其它功能上了,卖个关子先)。
上面的这些功能除了最新的Nano Banana模型(其实我不确定免费可不可以用),都是免费的,参看下面的Free包含的内容。至少,比Claude有良心多了。
当然,如果到了Google One的Ultra订阅,那么不仅所有功能至今为止我还没碰到过rate limit的情况,还可以开启Deep Think模型(IMO金牌那个)。如今,每当我冒出一个新想法时都会让Deep Think出设计方案,它给的设计方案,既完整,充分考虑到各种情况,又能够使用尽可能简单的架构,与Claude Code配合非常的成功率相比其它模型显著高。
其实,在过去很长的一段时间里,我使用Gemini模型都是不打开Gemini APP的,但在今年6月份开始后,这个习惯发生了巨大的变化,如今我打开Gemini手机APP或者直接网页版(统称Gemini应用)访问的次数远多过ChatGPT,当然更多过已经基本为零的Claude应用。
显然,Google从今年二季度开始大幅加强了Gemini应用的用户体验,毫无疑问,它也是如今功能最强大的模型应用(自家的AI Studio之外),不仅输入支持视频等多模态,更是能够直接输出音频,加上如今显著领先的文生图模型。模型能力超越GPT,功能更是比ChatGPT更多更全面。
当然,ChatGPT如今有一个功能做的很好,就是ChatGPT-Agent,这也几乎是我每天还会打开ChatGPT的唯一原因。虽然Google也有类似的应用,叫做Project Mariner,但是:1)它还只是给Ultra用户开放的一个预览版;2)尚未集成进Gemini应用;3)能力上相比ChatGPT-Agent还有不足。
所以,顺势进入Google的第二个应用Project Mariner。
其实从形式上看,甚至比ChatGPT-Agent的“前身”Operator还要“酷炫”一点。但是如今的Project Mariner还不能满足我日常使用的要求:1.它依然还不支持上传文件,所以并不能完成处理一些表格进行数据分析的功能;2.似乎还没有加入代码执行的功能;3.在一个月前的一个测试案例里,一直绕不过一个页面的点击,频繁要求用户干预。
当然,在过去一个月里,也能明显感受到Project Mariner的进步,最大的变化是,模型变“聪明”了,它会有一个自主选择是直接读取网页内容,而不需在浏览器中打开网页。当然,browser use类的功能还是有很多的应用场景的,特别是结合模型其它能力的时候。
然而,它很难成为一个独立的应用,而应当嵌入到各种模型和生态之间,成为填补模型与生态间“空洞(hole)”的万金油。
我相信Google对这个问题的认识肯定比我清楚的多,从这个项目去年曝光到如今依然还在谨慎的“preview”看,很可能他们就是有“大得多”的想法。
如果说Gemini应用,Project Mariner有很清晰的竞品的话,那么AI Studio体现的就是Google独有的优势和思考方式:面向开发者,大量免费额度,新模型新功能的测试地。
如今的AI Studio其实跟最初已经有了巨大的区别。我找到了当初拿到Gemini-1.5-Pro预览测试时的界面截图,又把它跟当前的UI进行了对比:如今的AI Studio已经完全是一个非常成熟功能强大的应用的样子。
自从Gemini支持百万超长上下文后,AI Studio就一直是我使用模型处理日常工作最重要的平台,如上所述,直到今年六月份,我才开始改变,Gemini应用的打开次数显著增多。
对于Google而言,AI Studio一直是一个神奇的存在:Gemini最新的模型首先都在AI Studio中发布,而且对于AI Studio用户在AI Studio UI中使用是完全免费的,我甚至都没有碰到过任何一次“额度用光”的情况。AI Studio的申请还很简单,成为Google信任的开发者,这也是免费的,而且去年之前审核门槛还不小,如今,好像基本上申请就能通过。
过去很长一段时间,无论线上还是线下,我都把这称为“讨好开发者”。有时候我其实不太分得清楚这到底是出于Google研发人员的“傲慢”还是“开放共享”心态,可能都有吧。事实上证明,这种“策略”是奏效的:AI产品迭代太快,一方面,将AI Studio看作一个正经的开放实验平台,成熟的模型和功能再上线Gemini应用,会减轻产品端巨大的压力;另一方面,正儿八经的把这个实验平台打造成面向开发者的“生产工具”,不仅可以维护住AI时代最重要的用户,还可以极大发挥开发者的创造力,不断创造Best Practice,吸引更多用户,“教育”市场。
我又一次认为Google清晰的了解并且利用了这一切,因为他们已经将AI Studio打造成了最强的AI应用。因为不仅仅是这类最新模型的免费使用。还有一系列Gemini应用中都没有的功能的免费开放。
1)Stream:不仅仅是实时对话,还可以开启摄像头跟模型视频聊天,还可以把屏幕实时分享给Gemini,边操作屏幕边聊天,我就尝试过让它成为我策略游戏的助手,甚至下棋、打牌……
当然,这些功能还比较初步,但它就是能让开发者打开更多的脑洞,更快的拓展模型可能拓展的场景边界。
2)Generate media
是的,是真的各种media,光图片生成就有imagen-4和最新的nano banana;视频生成有Veo;音频合成有单人和对话(AI Overview那种),还有基于Lyria模型的音乐合成……
当然,Imagen和Veo目前是有额度上限的,这毕竟很消耗算力。
这么完整的功能和产品出现在AI Studio这样的平台里,我脑海中又会出现Demis狡黠的微笑:看看我们的模型矩阵(这还没列入那些最新的)。可能在AI领域,就只有两个与众不同的“天才”,一个开创了DeepMind,一个联合创办了OpenAI;一个如今还在Google承担更重要的角色,一个最近刚换了头像。
仅上面这些,其实就已经超过了任何一家竞争对手的产品。但是,这没完,因为如今最强的功能已经是:Build,创建一个基于Gemini的AI应用。
这两天,我在用它改造自己自动化日报的流程。
怎么说呢,其实在Build功能这么强之前,我一直希望有一个网页版的Cursor,满足我在地铁、公交,吃饭排队时测试突然冒出的想法的需求(是的,很多时候,新想法都产生于非面对电脑时间)。在这之前Google先后推出了Firebase Studio和Jules(一会儿介绍),但是在当时能力确实跟Cursor和Claude Code有差距,同时跟Github绑定有点深,Jules还无法预览效果。
Build解决了全部的问题:直接预览效果,可以上传代码到github,可以使用Google Cloud一键部署应用。
它还做的更多:几乎无限量的Gemini-2.5-Pro(我在修改上面的应用时,花了四五个小时不断的让模型修改功能,注意,是修改功能,不是改bug,这个强度下,Claude Code大概一个小时就会提示我用完了五小时的额度);生成的应用可以直接集成Gemini API,而且如果生成的应用是在Build中测试的话,API用量也无上限;模型生成能力,模型似乎比Gemini Cli更强,因为聚焦,体感上也强过Claude Code和Cursor。
你可以使用无上限的模型用量生成并不断修改自己的应用,直到发布到正式生产环境,甚至你也可以就在AI Studio UI里把生成的应用当作日常工具,免费使用。
当然,它应该不太支持规模过大的项目,但是一个聚焦的AI应用,本来就是Build的定位。
Gemini是个迷一般的模型,它在不同应用里,能力是不太稳定的,这背后当然是因为不同产品团队调配的不同。但是恰好,在Build里,它的表现至少不输于Claude,很更完整,免费且不限量。
嗯,脑子里又有某个人的形象了。
AI Studio告一段落。既然涉及到了代码生成和应用开发,那么把Firebase Studio、Jules、Gemini Cli一起说一下。
首先,Firebase Studio。实话说,自从测试版尝试了几个项目后,我有一段时间没有使用Firebase Studio了。这次打开了当时的一个小项目:Visual Editor。
重新打开的刹那,明显感觉到它的“进化”,UI似乎变得更友好了,左边菜单栏已经很像桌面IDE工具了,Sandbox预览也支持,与AI Studio的Build的定位差别也很明确,Build侧重于开发基于Gemini的AI小应用,Firebase Studio就是各种项目开发。当然,经过这几个月的迭代后,Firebase Studio的代码能力是否提升,需要后面测试一下。不过,Firebase Studio是免费的(有限量),跟着Code Assist的额度走(跟Gemini Cli一起),免费用户一天一千次模型调用(我长期测试下来,应该是按照Gemini-2.5-Flash的调用量计算的)。
顺着简单带过Gemini Cli,关于它的文章我写了很多了,甚至还基于它发布了一个开源的OpenResearch。它的定位跟Claude Code,OpenAI的Codex一致,不仅仅是代码开发工具,更可以认为是一个基于AI的桌面系统管理工具:执行所有被允许的操作系统命令,包括浏览目录,增删改查文件,执行三方程序,还可以完成搜索和内容生成,当然,关于项目开发的功能也一个不少。
一句话,一个套着AI Coding外衣的AI操作系统“套壳”程序,是AI操作系统的雏形。
客观而言,在代码能力上,Claude Code最强,但是在操作系统层面和互联网搜索层面的能力,Gemini Cli显著强于Claude Code。理由很简单,Google生态,无论是搜索,还是基于自身对操作系统的理解。当然,还有一点,Gemini Cli代码是开源的,代码将Google团队在Gemini模型之上的工作全部都“公开”了出来,给到开发者更多的启发与提示。
关于AI操作系统,可以再单独谈很多,这篇不是围绕这个话题的,所以,Gemini Cli的介绍到此收尾。
Jules:再回头看,Jules是一个有点奇怪的产品,虽然发布的第一时间我也测试并介绍了。但是初步使用的评价只是中规中矩,我更多是对Google这种对新产品发布变得“激进”的风格非常赞赏。
因为一段时间没用了,所以截图还是来自于以前的会话。Jules最大特点是必须基于用户自己的Github项目,与Github的一系列工作流匹配,当然,它是纯开发工具,不具备预览功能。另外,它走的是用户Gemini应用的订阅(Google One),免费版可以有一定的额度,当然,Ultra全家桶看起来量就很足了。
是的,到这里很多朋友肯定已经疑惑了:Gemini应用和AI Studio的异同好不容易算基本搞明白了。又出来个Firebase Studio,Gemini Cli,Jules,一下子就晕了。
是的,简单说,这就是由于Google内部不同的团队和产品线造成的,更是因此造成的不同用户体系带来的。先继续说应用,用户和产品线的问题放到后面说。
视角切入到Google Labs的产品体系。这又是一个庞杂的产品线,当然,简单理解,Google把各种创意型的,试验型的产品都往这里扔,所以叫做实验室。
严格意义上讲,上面介绍的Project Mariner,Firebase Studio,Jules都属于实验室产品范畴。这里,我也不可能每一个都说一遍,一方面,不是每个产品都跟AI关联度那么大,另一方面,很多我也没用过。我可以介绍的是Stitch,Flow,Notebook LM,可以简单带过去的是VideoFX,ImageFX,MusicFX。
首先,Stitch,先说它是因为这是一个从代码走向“艺术”的中间环节,UI设计。我曾经写过一篇文章,因为它就是个小型化AI版的Figma。这是我之前的认知,但是周末在优化weekend project过程中,我的想法有了细微的变化。
在最近的更新里,Stitch增加了一个“experimental mode”。增强了能力,去掉了跟Figma的兼容。
我使用Stitch优化自动化日报的手机适配。一键生成的效果如下,直接是html代码,然后我把代码和UI示意图给到AI Studio的Build,高效且准确率高。
所以,Stitch至少可以成为很多没有专业设计师时的重要备选。坦白说,在传统的前端开发流程中,Figma依然不可替代,它是一种标准,AI时代它甚至可以阶段性的充当PPT,简单物料的生成工具。
可是,这一轮AI最终改变的是工作流,是反“标准化”的。或许AI时代的标准就是二进制,或者token,能看懂它的,只有模型。人与AI的交互语言是带有计算机系统思维的自然语言。
到了设计,那就前进一步,Flow:基于Veo3的视频生成和剪辑工具。他当然比Sora强,不仅能生成背景音乐,还可以生成口型一致的语音。
过去,我也发过一些使用Flow做的“抽象视频”。过去一段时间,苦于没什么时间,也就没有特别的去使用视频类模型和工具。但是Google在Notebook LM和Opal中的Video Overview功能,其实都已经很好的融合了视频模型,也许,很快,它们就可以让我更轻松的实现新的产出了,如同如今的音频博客AI Overview。
当然,可以看到Google产品体系的多变,上图里的VidoeFX其实已经变成了Flow,ImageFX也开始跟新工具Whisk融合,计划总是赶不上变化:漫天飞舞的粉红色雪花,还有落在冰面上沙沙的声音。Gemini早就玩到了多模态的下一层。
当然,DJ工具MusicFX,我不会用。不是don’t,是can’t。
Labs还有一些好玩的,比如,Little Language Lessons
比如,TextFX
数字世界,就该好玩一点,不是吗?
从艺术馆回到“牧场”:Notebook LM。
Notebook LM是Gemini系列应用里第一个出圈的,也是这个应用生成的30分钟AI音频播客,让很多人意识到Gemini系列模型真正的能力。
如今,它已经成为一个非常有用的工具:最多支持300篇的输入语料,思维导图,AI音频播客(多语言支持),加上最新加入多语言支持的Video Overview(PPT讲解视频)。我上周一篇文章专门展示了基于200多家公司电话会议纪要的生成结果,客观而言,质量非常高。
【25Q2美股财报ReCap】:来自AI的实践,多模态展示
对我而言,Notebook LM不仅仅是一个多模态内容生产工具,更是一个为我自己所用的信息处理工具和学习工具:音频的AI Overview可以当作其他工作时的背景音,无负担的处理信息,与Video Overview一起,又成为自己最好的学习工具,至少我做不到在这么短的说话时间里覆盖这么多信息,条理如此清晰,用词还如此准确。
随着模型能力的提升,300个语料的上限一定会不断提高,而Notebook LM本身已经跟Google Drive打通了,而Google Drive又跟Workspace和Gemini打通,这是生态闭环。所以,如今,我把大量的非保密和私密信息都往Google Drive里扔,不需要特意整理目录,因为模型和其他应用都可以帮我做到。
最后一个“牛马工具”:测试期的Opal。去年12月25号,我写了一篇文章《Gemini 2.0加持下的最佳AI应用已经出现,还完全免费》,介绍的是TLDraw基于Gemini-2.0开发的流程编排类应用TLDraw Computer。这个应用我用了不短的一段时间,用来生成每日新闻播报,文字内容,图片加语音合成。后来,随着Agent概念的兴起,n8n、dify等工具使用者越来越多。我一直在等TLDraw Computer基于Gemini-2.5的升级,没想到,前段时间等来了Google自己的Opal,一个妥妥的加强版。
这是Google唯一的一个在一个页面里可以集成几乎所有底层模型的应用,不仅包括最新的2.5 Flash Image(nano banana),还支持Deep Research(当然只能用Gemini-2.5-Flash,而不是Pro),支持音频生成的AudioLM,还可以生成视频,音乐,等。
同时,这个产品的目标还是为了生成AI应用,或者应用的原型。我很喜欢Output模块,可以把多种输出结果汇总到一起。
我也再次可以有机会展示nano banana模型的强悍能力。
还可以听音频。
我终于基本梳理完了Google的AI应用,当然,还有一系列功能或者应用没有包含,比如手机端的Circle to Search,比如Office 365的竞品Workspace(以前是免费平替,如今是竞品),比如Gemini加持后的Colab,比如搜索中的AI Mode等等。
可是正如之前所说的,我确定,多数朋友看到现在还是“懵”的,因为产品看起来很乱,用户体系看起来很乱,模型看起来虽然比GPT好点,但也是眼花缭乱。
是的,这就是Google的现状:多个用户体系,多条产品线。
先说用户体系,其实,在这一轮生成式AI前的时代,Google的客户主要分成C端和B端(更多是Google Cloud),除了Gmail之外,多数C端客户都是开发者,所以也可以认为就是开发者和企业客户。实际上,我认为这个分类也不合适,对Google来说,更贴切的应该是实验性客户和生产落地型客户。面向开发者的基本都是免费思路,带有实验性,附赠常用工具(workspace等),这些开发者无论是个人还是代表所在企业,产品要落地了,就成为Google Cloud用户,虽然也有免费额度,但对于一个长时间在线的业务来讲,就是典型的按使用量付费的云模式了。
Gemini发布后,一度也都是免费的,但是慢慢的Google从Gemini用户中切出来一部分,跟Workspace的功能打包(Google Drive容量,Docs等办公应用可以优先使用Gemini最新模型),推出了Google One(这个时候跟Google面向团队和企业用户的Workspace收费服务依然还是混乱的,我在23年还跟客服投诉了很长一段时间)。这就是Gemini应用面向的客户。
但是对于最容易转换成云服务收费方式的开发者,Google的态度似乎比以前变得更讨好,为了可以有更多的用户使用和更多的落地场景,AI Studio推出,成为免费但又是最好的Gemini驱动的应用。前面说过,我长时间都是只是用AI Studio的,Gemini最新模型首先出现的地方也一定是AI Studio。
但是这带来两个问题,如果用户在AI Studio里免费餐吃的已经够舒服了,怎么能够更多付费,无论是Gemini应用还是Google Cloud,另外,让纯粹的Gemini应用用户怎么想?
Google Cloud的问题比较好解决,就让开发者只能在AI Studio UI里“玩耍”,但是如果要想变成落地应用,那就转向Vertex AI,当然在AI Studio UI里完成的应用尝试可以无缝的移植到Vertex AI中。Google和开发者真的成为了利益一致方。
但是“安抚”Gemini应用的付费用户其实是有难度的,幸好,有了Notebook LM,有了Deep Research,有了Deep Think,这些功能都是只跟Gemini应用的订阅付费用户绑定的,还通过Google One体系,绑定了Workspace的资源(主要是Google Drive,Docs,Gmail,这些其实在目前的AI应用体系里还是挺重要的)。然后,就是靠labs的新功能,比如当时最好的视频生成模型Veo3,比如上面的opal,project mariner,等等。
这样,逐渐就形成了Gemini应用用户,开发者,云服务用户(开发者,团队,企业)相对合理的架构。
但是,又产生问题了,Claude推出了Claude Code,Google意识到了这一个应用方向的无穷潜力,推出了开源版的Gemini Cli,但是在用户定义上就又产生了模糊,开始推出时,支持Gemini应用的用户登录,AI Studio的API Key登录,Vertex AI用户的登录,三种方式,前两种每天有附赠的免费额度(1000次的Gemini-2.5-Flash调用)。
可是Gemini Cli的token用量真的很大,于是乎,Google应该是关掉了AI Studio的API Key的免费额度(我测试下来是这样,但是没看到官方特别明确的说法),又硬生生把Gemini应用用户定义为Code Assist用户,并额外增加了一个Standard的订阅包和企业版订阅包(其实一开始就是定义为code assist用户,只不过没有推出付费订阅模式)。
于是,我们看到了Google AI体系下的四类用户:Gemini应用(包括手机端的功能)、Code Assist用户、开发者、云服务用户。
看到了复杂的产品体系,因为产品要么跟用户走,要么跟底层产品走,但是如今底层都是Gemini驱动的,各种内部竞争和产品迭代演进,造成了这种“体系混乱”的局面。
然而,这对用户而言,并非坏事,绝大多数用户可以安心待在Gemini应用的体系里,因为功能越来越强大,独有功能也越来越多。对于开发者而言,依然有足够量的免费“实验”和头脑风暴空间。
最完整的模型矩阵和最强的模型能力,再给予最多的免费额度和最完整的生态体系,这其实是Google AI真正的最强形态。
当然,即使大量的应用已经把门槛降得足够低了,但是坦白说,要用好这些AI应用,还是有技术与业务壁垒的,它们都不那么“一键式”和“傻瓜化”,生态的融合更需要用户自己付出一定的时间与努力。
这也是我写这篇文章的初衷。整整两天时间,这应该是我花费时间第二长的一篇文章(最长的是关于三维生成的),我知道一定还有很多不足和遗漏,但是介绍的每一个应用,每一项功能,一定都是我用过的,甚至很多来自于跨越了时间迭代后的对比。
不过,这两天时间,对我而言,也觉得很值得,跟阅读量无关。只是,即使我之前自信对Google足够了解,也还是在这两天时间里收获很多。
如果问这算不算一个公司研究?肯定不算。但是,产品才是一个公司最重要的生命线,尤其是在AI时代。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-02
初步调研|基于AI的自动化脚本自愈方案
2025-09-02
腾讯 ima 上新:1.11.0 AI播客音色优化和知识库导入网页链接
2025-09-02
阿里云 CIO 蒋林泉:AI 大模型时代,我们如何用 RIDE 实现 RaaS 的首次落地?
2025-09-02
有了这个大模型,真正的智能运维AIOps时代即将来临
2025-09-02
突破企业AI落地的瓶颈:LangGraph × OceanBase 的融合数据层深度实践与解析(附源码)
2025-09-02
腾讯元宝搜索实践:大模型时代,AI 如何让搜索焕发新生
2025-09-02
今天,AI内容新规正式实施,这次不注意是真的会违法。
2025-09-01
OpenAI gpt-realtime 与 Realtime API 重磅升级,语音智能体迎来生产级时代
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-09-02
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25