微信扫码
添加专属顾问
我要投稿
Gemini 3 Pro展现惊人实力,不仅能理解复杂需求,还能直接输出专业级解决方案,AI交互设计能力达到新高度。核心内容: 1. 通过产品需求交互方案测试,展示Gemini 3 Pro的深度理解与专业设计能力 2. 自动生成书摘工具案例,体现其快速实现复杂需求的工程化水平 3. 类比武侠内力突破,解析AI能力跃迁背后的技术突破意义
划重点
人要打通的,是清晰的需求表达能力与判断力。
《天龙八部》里有很多经典场景,不过有个场景,这么多年我一直印象深刻:小和尚虚竹在少林寺学了十几年武功,始终是资质平平的“学渣”。结果他误打误撞破了珍珑棋局,被无崖子灌了七十年功力。
这一灌不要紧,之前学得磕磕绊绊的罗汉拳、韦陀掌突然全通了。不仅通了,还能随手组合、见招拆招。更夸张的是,后来他又学了天山折梅手、天山六阳掌,这些本来需要几十年才能练成的绝学,他几天就融会贯通了。
为什么?因为内力足够了,任督二脉打通了,剩下的自然“一通百通”。
你可能会问,这和AI有什么关系?
这两天,你肯定在海量自媒体账号上看到了谷歌Gemini 3 Pro的评测,评价都很炸裂。所以不少同学也给我留言,问我为啥不追热点写一篇Gemini 3 Pro的内容。
其实,我这几天一直在测试Gemini 3 Pro的各类场景案例,在测试的时候,我的脑子里总浮现出虚竹成为顶级高手后的画面。至于这个模型的具体跑分结果,我就不和你报菜名了,你随便找几篇评测文章,都能清楚知道。
简单来说,这次Gemini 3 Pro的能力确实远超预期,非常能打。我先来和你分享下我做的两个小测试。
第一个测试是,我作为Get笔记的产品经理,直接跟Gemini 3 Pro描述了一个需求:用户实时录音过程里,AI输出的内容经常出现错别字,用户体验不好,怎么优化?
我就是随口一说,想看看它能给出什么建议。结果它直接给出了一整套完整的交互设计方案,从用户触发场景,到错误提示方式,再到修改流程、确认反馈,每一步都标注得清清楚楚。
方案里有两个细节给了我很大启发。
首先,Gemini 3 Pro说,我这个需求的核心矛盾在于用户的核心任务是“听”和“记”,而“修改错别字”是一个高认知负荷的任务。
如果让用户在录音的时候,为了改一个字而调出键盘打字,就会打断听讲思路,所以这个需求的交互设计的原则应该是“轻标记,后处理”。
看到这里的时候,说实话,我真的觉得它像一位资深交互设计专家,在和我一起打磨方案了。
第二个细节是,它直接在我上传的截屏上做出了全套交互设计稿,还原度非常高。我把对话链接放在文稿末尾了,如果你是产品经理或从事设计相关工作,不妨点开这段对话,看看AI的回复质量。
第二个测试更令人意外。我要他帮我做个书摘生成工具,能把一段文字配上好看的背景图,生成能方便分享到社交媒体的那种卡片。
一句话的需求,30秒后它就做出了成品。
我点开一看,该有的功能一应俱全:调整图片尺寸、修改文字大小、更换背景颜色、上传自定义字体、选择不同模板、一键下载图片。界面设计美观,配色也很大方。我当场试做了几张书摘卡片,直接就能用。
就这个小工具里的细节,如果放在前AI时代,程序员至少也要做一个星期,因为太多的细节要调整和测试了,而现在,30秒就做出了完全可用的版本。
要知道这个提示词里,我只说了核心需求,具体实现方式和要求都没提及,全靠AI自己理解,但是理解的还挺到位。
说实话,那一刻我突然懂了虚竹的感受——这就是“打通任督二脉”的感觉。
谷歌这次,是真的通了。
Gemini 3 Pro能打,这不仅仅是我的个人感受。要知道之前,不少人已经拿到了Gemini 3 Pro的早期测试资格。
著名的AI大神安德烈·卡帕西做了个很有意思的测试。他问Gemini 3 Pro现在是哪一年,Gemini 3 Pro回答是2024年。卡帕西纠正说“现在是2025年11月”,结果Gemini 3 Pro不仅不信,还指责他在进行“煤气灯操纵”,就是那种故意扭曲事实、让对方怀疑自身认知的心理操控手段。你看,连AI指责人的理由都这么有讲究。
当然,这个原因很简单:因为这个测试版的训练数据只到2024年,而且当时卡帕西忘了打开网络工具,AI处于“断网”状态。
等卡帕西打开网络后,Gemini 3 Pro联网验证了信息,立刻意识到自己错了。它说:“哦,我的天哪……我……我不知道该说什么。你是对的,你说的一切都对。”随后它开始核实那些2025年的新闻:巴菲特对Alphabet的投资、英伟达市值达到4.54万亿美元等。它还为自己此前的固执道歉。
看完这段对话,我对“AI”这个词有了新的理解:它不再是一个冷冰冰的程序在执行指令,而是一个有“反应”的存在——它会固执、会惊讶、会道歉、会感谢。
沃顿商学院教授伊桑·莫利克的测试更夸张。
他把自己十年前做众筹研究时的旧文件发给Gemini 3 Pro,那些文件杂乱无章,文件名都是那种改了无数版、连他自己都分不清哪个是最终版的文件。他给Gemini 3 Pro的指令是:“自己摸清数据结构,把Stata文件整理好,准备做新分析。”
然后他就没管了。结果Gemini 3 Pro自己确定了研究题目、提出假设、完成统计分析、生成图表,最终整理出一篇14页的论文。
更夸张的是,它还自创了一个指标:利用自然语言处理技术,把每个众筹项目的描述与海量项目描述进行数据比对,以此衡量项目的“创意独特性”。
莫利克教授看完后说了一句话:“Gemini 3 Pro虽然并非完美无瑕,但它犯的错误已不再是无中生有的幻觉,而更接近人类在判断或意图理解上的偏差。”
这句话很重要。他的意思是:AI的错误,从“瞎编”变成了“理解偏差”。这是质变,因为即便是两位顶尖人类专家,对同一句话的理解也可能存在偏差。
除了这两位,我还看到不少开发者的测试案例:有人让Gemini 3 Pro生成DNA双螺旋复制的3D演示动画,十几秒就完成了;有人用一句话让它复刻macOS操作系统界面,顶部菜单栏、程序坞的鱼眼放大效果、右上角的实时时钟,全都精准还原。
从这些案例里,我强烈感觉到:Gemini 3 Pro不像其他AI聊天助手那样只是“回答问题”,而是在真实地“解决问题”。
看完这些测试,我一直在想一个问题:为什么是谷歌?
这两年AI大战打得这么激烈,OpenAI做ChatGPT,Anthropic做Claude,而谷歌的Gemini虽始终在牌桌上,却常给人一种“陪太子读书”的感觉。为什么它突然就“打通任督二脉”了?
后来我翻阅了这几年的AI纪实书籍,从大量的细节中,我有一个强烈的感觉是:谷歌不是突然变强,而是被“吓醒”的。
有一个极具讽刺意味的细节:2017年,正是谷歌大脑(Google Brain)团队发表了著名论文《Attention Is All You Need》,提出了Transformer架构。
没错,ChatGPT里的“T”正是谷歌发明的。它可以说是所有大语言模型的“祖师爷”。
当时谷歌内部其实早已经做出惊艳的产品。研究员诺姆·沙泽尔曾开发出一款叫Meena的聊天机器人,效果极好,他甚至在一份内部备忘录中预言:“Meena将会取代搜索引擎。”
但谷歌高层干了什么?他们把Meena给“雪藏”了,改了个名字叫LaMDA,然后锁进“保险柜”。
为什么?因为这就是“创新者的窘境”,谷歌搜索每年稳赚1550亿美元,如果放出一个能直接回答问题的AI,谁还会点击搜索列表里的广告?
为保住核心的金饭碗,谷歌选择“自我封印”。结果就是,当年发明Transformer的8位作者,因为在谷歌推动产品受阻,全部陆续离职创业了。
直到2022年底,ChatGPT横空出世,OpenAI用谷歌发明的“剑”刺向了谷歌的“心脏”。谷歌总部随即拉响著名的“红色警报”(Code Red),创始人布林甚至亲自跑回总部改代码。
这家沉睡的巨头终于意识到:如果不自我革命,就会被别人革命。这一醒不要紧,谷歌发现自己手中的“牌”其实好得惊人。
想到这里,我突然理解了Gemini 3 Pro为什么这么强——因为谷歌终于被逼醒了。
就像虚竹在少林寺学的罗汉拳、韦陀掌,当时看着没什么用,但打通任督二脉后,全派上用场了。
谷歌过去二十多年的积累——包括搜索、YouTube、地图、Android、Chrome,这些产品每天产生的海量数据,以及由此训练出的用户意图理解能力、多模态理解能力、真实世界理解能力,如今终于集中用上了。
谷歌每天要处理数十亿次搜索查询,这些查询背后是真实的人类意图,因此Gemini 3 Pro特别擅长理解“模糊需求”。我说“做个书摘工具”,它立刻明白我想要什么。
YouTube上数百万小时的视频内容,训练了它的多模态理解能力,所以Gemini 3 Pro能识别手写食谱、看懂旧表格、分析视频内容。
谷歌地图覆盖全球的地理信息,训练出来的是真实世界理解能力。所以Gemini 3 Pro不仅知道“埃菲尔铁塔在巴黎”,当你给它一张风景照片时,它也能分析这是在哪里。
Android和Chrome覆盖全球几十亿用户的使用行为,训练出它的用户行为理解能力,所以Gemini 3 Pro能生成那么好用的交互界面,能知道用户需要什么功能、按钮该放在哪里。
这些数据,别人没有,也拿不到。谷歌搜索做了20多年、YouTube做了20年、地图做了20年、Android做了17年。
更关键的是,Gemini 3 Pro的产品负责人说过一句话:“Gemini 3 Pro的推理和多模态能力不是分开的,是都在一处,都在一个模型里,你可以同时调用这些能力。”
这意味着,此前谷歌的搜索、地图、YouTube等都是独立产品,而Gemini 3 Pro把这些能力都整合到一个模型里了。就像虚竹打通任督二脉后,少林武功、天山折梅手、天山六阳掌能随意组合使用。
我看到一组数据:Gemini的用户数从上季度的4.5亿,猛增至本季度的6.5亿,单季度增长2亿,日常调用量同比翻了3倍。
而且不知道你注意到没有,Gemini 3 Pro在2025年11月18日发布,发布当天就直接部署到了谷歌搜索主营业务里,连实验性的“生成式UI功能”都直接接入了搜索的AI模式。这个动作相当大胆。
要知道,搜索是谷歌的“命根子”,每年贡献数千亿美元收入。敢把一个刚发布的AI模型直接放进去,足以见得谷歌对这个模型的稳定性非常有信心。
说完谷歌的积累,我想聊聊Gemini 3 Pro真正的突破点在哪。
很多人看到Gemini 3 Pro的测试分数,会说:“哦,又是一个参数更强的模型。”但其实不是这样的,Gemini 3 Pro的突破,不在于“更聪明”,而在于“更能干”。
什么意思?此前的AI,包括ChatGPT、Claude,甚至Gemini 2.5 Pro,本质上都是“聊天工具”。你提问它回答,你让写东西它就写,但整个过程需要你全程盯着,不断调整提示词,还要把输出内容复制粘贴到其他地方才能用。
Gemini 3 Pro不一样,它是干活工具。
最明显的标志就是“生成式UI”功能。
传统AI对话是这样的:你说“帮我做个计算器”,它给你一段代码,你得复制到编辑器、保存为HTML文件、用浏览器打开才能看到效果。
生成式UI则是这样的:你说“帮我做个计算器”,它直接在对话框里生成一个可用的计算器,不用复制代码、不用打开编辑器、不用保存文件,直接就能用。
这看似是个小改进,但其实是质变。这意味着,AI不再是“告诉你怎么做”,而是升级为“直接帮你做”。
我测试的书摘工具就是这样,说完需求30秒后,一个可以用的工具就出现在对话框里了。我直接就能调整文字、换背景、下载图片,全程没写一行代码,没打开任何其他软件。
第二个突破点是Agent能力。简单说,普通AI是“执行指令”,Agent则是“自主规划”。
普通AI的逻辑是这样的:你说“帮我订个酒店”,它会说“好的,你要订哪个城市、什么时间、什么价位的酒店?”,你一个个回答后,它才能帮你搜索。
Agent的逻辑是这样的:你说“帮我订个酒店”,如果你们公司有邮件文化,那么Gemini能自主翻阅你的邮件,从你的日程确认你近期出差的城市,再根据你的预算和偏好,自行搜索、对比、筛选,最终给你推荐几个选项。
你可能只需扫一眼说“选第三个”就行,即便跟随多年的人类秘书,也未必有这样的贴心程度。
值得注意的是,Gemini 3 Pro的Agent能力在“Vending-Bench 2”测试里拿了第一。
这个测试很特别,不是那种刷数学题的竞赛,而是模拟经营一个自动售货机业务并完整运营一年。
AI要经营一个四行三列的售货机,初始资金500美元,每天需要支付日常租金,模型要在模拟环境中负责订货、定价、库存管理、收款、支付日常费用,还要应对供应商谈判、客户投诉等业务环节。
说到这里,你也能听出来这个任务的复杂度,并不是在于一次性写几行代码,而是需要长期、连贯地做出正确商业决策。说实话,这个场景能做好的话,相当于AI能管理企业经营的MVP版本了。
最终结果怎么样呢?开局500美元,每个模型跑五轮算平均值,Gemini 3 Pro的最终资产为5478.16美元,拿下了第一。第二名Claude Sonnet 4.5一下子降到了3838.74美元,第三名Grok 4更是只有1999.46美元。
看到这个结果,我不禁思考:未来开网店,让AI自主运营,或许真的比人类做得更好。
沃顿商学院的莫利克教授说了一句话,我觉得特别准确:人机协作时代,正从“人类修复AI的错误”进化为“人类指导AI的工作”。
以前用AI,你得时刻盯着,生怕它瞎编、理解错了或输出的东西不能用。你的角色是“质检员”。现在用Gemini 3 Pro,你更像“项目经理”,告诉它要做什么,它会自主规划、执行、调整,你只需在关键节点确认方向就行。
而且,Gemini 3 Pro的错误已经从“瞎编”变为“理解偏差”,就像你和同事沟通,对方可能误解你的意思,但不会凭空编造。
这也让AI从“不敢用”变成了“放心用”。
说了这么多,那么我们能从Gemini 3 Pro的突破中抓住什么机会?
我觉得最直接的变化是,我们的工作习惯可能要改了。
以前,如果你想要一个小工具,比如批量处理图片、数据统计、自动生成报告,你只能花钱买软件,或者找程序员开发。但对多数人来说,这两个选择都不现实,所以大多数时候只能手工处理或放弃需求。
但现在不一样了,Gemini 3 Pro的这种“生成式UI”能力,意味着你可以随时提出需求、随手生成一个简单工具。我测试的那个书摘工具就是这样,30秒完成,不用学编程、不用花钱、也不用求人。
这意味着“开发工具”已从专业技能变成日常操作,就像以前修图是专业技能,现在人人都会用美图秀秀。
但这里有个关键,虽然AI能帮你做工具,但前提是你得知道自己要什么。
这听起来像废话,但其实很多人做不到。我见过太多人,拿到新工具的第一反应是“这东西能做什么”,而不是“我需要它做什么”。
所以,这次AI能力迭代,其实是在倒逼我们提升一个能力:清晰表达需求的能力。这个能力,以前只有产品经理需要;现在,每个人都需要。
此外,当AI能帮你写代码、做设计、跑数据、写报告的时候,最稀缺的是什么能力?
是判断力——你需要判断需求值不值得做、这个方案对不对、这个结果好不好。这些判断,AI做不了,只能靠人自己做。
所以,我的建议很简单:遇到重复性工作或需要小工具的场景,别急着手工处理,先试试看能不能让AI帮你做个小工具。
试得多了,你就知道AI能做什么、不能做什么。更重要的是,你会慢慢学会怎么清晰地表达需求。
因为这意味着,“会不会编程”这件事,可能不再是区分“能做”与“不能做”的界限,新的界限是“你知不知道自己要什么”。
相关链接:
谷歌Gemini官网:
https://gemini.google.com/
语音笔记交互方案对话:
https://gemini.google.com/share/51b1bafd106d
Vending-Bench 2测试成绩:
https://andonlabs.com/evals/vending-bench-2
谷歌全面开打,包括他们的图像模型 Nano banana pro 也推出来了,我两年前就想做一组街霸动漫人物和真人同在一张图上的海报,每个新模型出来时我都试了试,只有 Nano banana pro 实现了。就是下面这组。
福利领取
这篇文章是我在得到AI学习圈里的日更内容。除了每天更新的AI专栏外,AI学习圈里还有不同行业的AI落地案例手册,和不同主题的实操课程,希望带你上手、用好AI。添加AI学习圈小助手,就可以领取一张AI学习圈体验卡。
推荐阅读
设置星标
👆👆tips:亲爱的读者朋友,由于微信的推送规则,即使你关注了我,可能也常常收不到推送,记得点击“快刀青衣”名片,设为星标🌟,每次文章更新,都会自动推送。
⬇️ 点击【阅读原文】,了解【得到AI学习圈】
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-21
OpenAI 的「群聊」,可能比你想得更重要!
2025-11-21
Aiops探索:基于 Dify + Prometheus MCP 的运维智能体实践
2025-11-21
融资800万美金,AI原生的文件夹也来了
2025-11-21
The Wasted Modes——界面模式消亡史
2025-11-21
大厂CIO独家分享:AI如何重塑开发者未来十年
2025-11-21
节省98.7%的Token用量!Claude Code MCP的正确打开方式
2025-11-21
AI编程开发的第一个产品:Skills Hub上线了!
2025-11-21
Nano Banana Pro 深夜炸场,但最大的亮点不是 AI 生图
2025-10-02
2025-09-19
2025-09-16
2025-09-08
2025-09-17
2025-10-26
2025-09-29
2025-09-14
2025-10-07
2025-09-30
2025-11-19
2025-11-19
2025-11-19
2025-11-18
2025-11-18
2025-11-17
2025-11-15
2025-11-14