微信扫码
添加专属顾问
我要投稿
Google用Flash-Lite浏览器颠覆传统网页体验,一句话生成完整网站,GUI的未来正在被重写。核心内容: 1. Google DeepMind发布实时生成网站的Flash-Lite浏览器 2. 演示案例:从植物护理指南到"最烦人网站"的AI即时创作 3. 流式代码输出技术实现超低延迟的交互式页面生成
Google DeepMind 发布了一个浏览器,能用 Gemini 3.1 Flash-Lite 实时生成整个网站。
你输入一句话,它当场把网页给你「写」出来。
Google 这次,算是用一个 demo 把我此前的观点给坐实了。
Google 的 Flash-Lite Browser 长得就像一个普通浏览器,但地址栏变成了输入框。你不用输网址,而是直接告诉它你想看什么。
Google 工程师在视频里称:
你在这个浏览器里看到的,不是真正的网站。它是由 Gemini 3.1 Flash-Lite 从零开始生成的。
演示里,用户输入了「a guide to watering my cheese plant」(龟背竹浇水指南)。
然后……浏览器开始「生成」了。
标签页上写着「Generating...」,地址栏显示 PlantCare > Watering Your Monstera。1,068 个 token,1.93 秒,一个完整的植物护理网页就这么从无到有地出现在了屏幕上。
生成出来的页面有导航栏、有图标、有分栏布局,浇水频率、温度要求、土壤检查一应俱全。
关键细节在于:
你点击导航里的「Search」,它又会当场生成一个搜索页面。但这个搜索框背后,其实没有任何真正的搜索功能。工程师解释说:
搜索框里并没有真正的搜索功能。我们把当前页面和输入的文本一起发给模型,它理解接下来该展示什么,然后重写完整的代码来「想象」下一步。
也就是说,你在页面上的每一次点击、每一次输入,都会触发模型重新生成整个页面的代码。
没有预生成的数据,没有历史记录,模型根据当前页面和你交互的元素来推理下一页该长什么样。
2,122 个 token,4.86 秒。
一个完整的多页面网站,从意图到渲染,全程实时。
最有意思的,是最后一个 demo:用户让它生成「the most annoying website on the internet」(互联网上最烦人的网站)。
它真的生成了一个写着「WELCOME TO THE CHAOS」的页面,红色虚线边框,一个绿色大按钮写着「CLICK ME IF YOU CAN!」,顶部还有紫色横幅警告「DON'T CLICK ANYTHING!」。
2,031 个 token,5.24 秒。还自带一点 AI 范的幽默感。
而且,通过流式输出代码,页面在生成过程中就开始渲染了,用户感知到的延迟比实际生成时间更短。
工程师也提到,如果想要更精细的 UI,可以换用 Flash 或 Pro 模型,但对于这种实时响应的场景,Flash-Lite 的速度优势,实在太明显了。
之前我的文章《GUI 将死,CLI 才是一切》中聊到 CLI-Anything 项目如何让 Agent 用命令行操控一切桌面软件。上周又写了《OpenCLI:万物皆可 CLI》,把这个思路扩展到了网站和 Electron 应用。
这两篇文章里,我的核心观点是:
GUI 本质上是一个翻译层,人类花了 40 年给计算机套上图形界面,但 Agent 根本不需要这层翻译。
Google 这次的 demo,则从另一个方向验证了这件事。
它证明的是:GUI 连「被预先设计」都不需要了。
传统的 Web 是什么?是开发者提前写好 HTML/CSS/JavaScript,部署到服务器,用户请求后返回静态或动态页面。
整个过程的前提是:有人提前把界面设计好了。
而 Flash-Lite Browser 把这个前提给取消了,页面不再是「从服务器取回来的」,而是「在你面前现场写出来的」。
如果把这件事和 CLI 的复兴放在一起看,你会发现界面正在发生一次三层分化:
底层:CLI 成为 Agent 的运行时。 Agent 操控计算机用命令行,文本输入、结构化输出、可组合、确定性强。这是 Agent 的母语。
中层:协议成为 Agent 的通信标准。 MCP 连接 Agent 和工具,AG-UI 连接 Agent 和用户,A2A 连接 Agent 和 Agent。一整套协议三角正在成型。
表层:GUI 变成 AI 的输出物。 界面不再是人类设计师提前画好的,而是 AI 根据意图实时生成的。你要什么,它就给你什么。
这里需要说清楚的是:GUI 并没有真正「死掉」。
它只是换了一个主人。
以前 GUI 是给人用的,人通过点击按钮、填写表单来操控计算机。而现在呢?人对着 AI 说自然语言就行了。
CLI 给 Agent 用,GUI 反过来变成了 AI 给人看的东西。
这个反转,其实蛮耐人寻味,且有意思的。
好比我们在 Claude Code 里用的 AskUserQuestion,Agent 在执行任务的过程中如果需要人确认,它会怎么做呢?弹一个文本提问出来,让人类输入回答。
这本质上就是一个极简的 GUI,只不过发起方从人变成了 AI。
Google 的 Flash-Lite Browser 把这个逻辑推到了极致:AI 不只是弹个问题,而是直接给你生成一整个网页界面。
你说想看植物浇水指南,它就给你渲染一个完整的植物护理网站,带导航、带搜索、带分栏。
以前是人操作 GUI 来指挥计算机。现在是 AI 生成 GUI 来向人展示信息。
交互方向,反过来了。
2025 年 Stack Overflow 开发者调查显示,78% 的专业开发者超过一半工作时间在终端里度过。
2023 年这个数字还是 62%。
Claude Code 2025 年 2 月发布,到 11 月达到 10 亿美元 ARR。SemiAnalysis 2026 年 2 月的报告显示,GitHub 公开 commit 中有 4% 是 Claude Code 生成的。
Faros AI 调查了 99 名专业开发者,59% 在用 Claude Code,满意度排第一。
这些数字背后的趋势表明:终端正在从「执行命令的地方」变成「你把工作委派给 AI 的地方」。
IDE 是为「建议」设计的,你写代码,它给你补全。CLI Agent 是为「委托」设计的,你说需求,它去干活。这是两个品类。
还有研究表明,发现决定开发者用 CLI 还是 GUI 的因素,不在于专业水平,而在于任务类型。CRUD 和调试用 CLI,监控用 Web 控制台。
换句话说,任务类型决定了交互形式,而不是用户的偏好。
这个发现放到 AI 时代,道理是一样的。Agent 执行任务用 CLI,因为文本协议是它的母语。向人类展示结果?那用 GUI,因为人类靠视觉理解信息的效率最高。
不过光有 CLI 和 GUI 还不够。Agent 需要跟工具对话,跟用户对话,还要跟其他 Agent 对话。这就需要一套标准协议。
现在行业里正在形成一个「协议三角」:
MCP(Model Context Protocol):Anthropic 发起,2024 年底发布,2025 年底捐给了 Linux 基金会。OpenAI 也已经正式采纳。它解决的是 Agent 怎么连接工具和 API 的问题。
AG-UI(Agent-User Interaction Protocol):CopilotKit 发起的开源协议。微软的 Agent Framework 已经兼容,Google ADK 也已集成。每周超过 200 万次 agent 与用户的交互。它解决的是 Agent 怎么跟前端 UI 沟通的问题。
A2UI(Agent-to-UI):Google 开源的声明式 UI 规范。Agent 生成 JSON 来描述界面组件,客户端用原生组件渲染。不发送可执行代码,通过可信组件目录组合界面,安全性有保障。
三个协议,三条线,搭起了 Agent 世界的基础设施。
Flash-Lite Browser 展示的实时生成 UI,本质上就是 A2UI 思路的一个极端演示:Agent 不只是描述界面,而是直接写出完整的 HTML/CSS/JavaScript。
当然,目前还有些偏概念,还不够可靠。
The Decoder 对 Flash-Lite Browser 的评价是:
结果并不稳定,内容很快就会偏离主题变得不知所云。
毕竟,你让一个 LLM 实时生成完整网页,每次生成的结果都可能不一样。导航到同一个页面,上次显示的是三栏布局,这次可能变成了两栏。搜索同一个关键词,返回的内容也可能天差地别。
有人吐槽称「model-generated UI in production? the debugging stories alone will be legendary」(AI 生成的 UI 放到生产环境?光调试故事就够写一本书了)。
还有人指出:「what phishing pages? uncatchable?」(钓鱼页面呢?这不是抓都没法抓?)
确实,当网页内容完全由 AI 生成,传统的 URL 验证、证书检查、域名黑名单……
这些安全机制,就全都失效了。
Flash-Lite 的速度是每秒 360+ token,比 Gemini 2.5 Flash 快 2.5 倍。定价倒是不贵,输入 $0.25/百万 token,输出 $1.50/百万 token。
但「快」和「便宜」不等于「可靠」。
至少在现阶段,实时生成的 UI 更适合做原型探索和想法可视化,离生产环境还有一段不短的路。
我在《Karpathy:一切软件,都将为 Agent 重写》的文章里提过一个框架,叫「四次迁移」:
大型机时代,软件的用户是操作员。
PC 时代,用户变成了普通人。
移动时代,用户变成了所有人。
Agent 时代,用户变成了 AI。
现在回头看,我觉得应该再加一层。
第五次迁移:界面的用户,从「人操作」变成「AI 生成」。
前四次迁移改变的是「谁在用软件」。第五次迁移改变的是「谁在做界面」。
以前,设计师画原型,前端写代码,测试验收上线。一个页面从设计到上线,快的话一周,慢的话一个月。
现在,AI 用 2,000 个 token、5 秒钟,就能生成一个完整的页面。
当然,这两种「界面」的质量天差地别。但方向是:界面正在从「人提前设计的产品」变成「AI 根据意图实时生成的服务」。
网站不再是文档,而是对话。浏览器不再是阅读器,而是渲染引擎。前端工程师不再是写界面的人,而是定义组件库和安全护栏的人。
从「预制页面」到「即时生成」的转变,是对数字状态这个概念的根本性改变。如果 UI 在交互的那一刻才被创造出来,那「静态网站」这个概念,就成了一个历史遗物。
把所有这些线索串在一起,你会看到一个清晰的走向:
界面的终局,不再是固定的按钮和页面,而是跟着意图走的动态生成。
人对 AI 说话,用自然语言。AI 执行任务,用 CLI 和 API。AI 给人展示结果,用实时生成的 GUI。
这个循环里,CLI 和 GUI 都没有消失。只是各自找到了新的位置。
CLI 服务 Agent。GUI 服务人类。自然语言连接两者。
而 Google 这个 demo,虽然还有些粗糙,但它展示了一种可能性:如果浏览器不再是去「获取」页面,而是去「生成」页面……
那我们花了 30 年建起来的整个 Web 基础设施,从 CDN 到 SEO 到缓存策略到响应式设计……
是不是全部都要重新想一遍了?
整个 Web,可能正在从「信息的档案馆」,
变成「意图的渲染器」。
相关链接:
Google DeepMind Flash-Lite Browser:https://aistudio.google.com/flashlite-browser
Google DeepMind 推文:https://x.com/GoogleDeepMind/status/2036483295983100314
Gemini 3.1 Flash-Lite:https://deepmind.google/models/gemini/flash-lite/
AG-UI 协议:https://www.copilotkit.ai/ag-ui
A2UI 协议:https://developers.googleblog.com/introducing-a2ui-an-open-project-for-agent-driven-interfaces/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-26
GitHub 悄悄改了规则,你的代码可能正在被拿去训练 AI
2026-03-26
Harness is the New Dataset:模型智能提升的下一个关键方向
2026-03-26
Claude Code 太烧钱了?我用这 5 招,把 token 成本砍了一半!
2026-03-26
治愈 Cursor AI 编程的 “幻觉”?用它就够了!
2026-03-26
Anthropic官方复盘Claude Code:智能体系统设计的四个核心
2026-03-26
Claude Code auto mode 解析:如何用 AI 分类器替代人工审批
2026-03-26
Google 最新极限压缩算法,砸碎大模型本地部署的内存墙,8 倍提升!
2026-03-26
Google 发了个压缩算法,内存砍 6 倍,速度快 8 倍,精度零损失
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2025-12-30
2026-01-14
2026-01-21
2026-03-22
2026-03-22
2026-03-21
2026-03-20
2026-03-19
2026-03-19
2026-03-19
2026-03-18