微信扫码
添加专属顾问
我要投稿
AI浏览器热潮下,OS概念被滥用?本文带你厘清浏览器与操作系统的本质区别。核心内容: 1. 当前AI浏览器营销中OS概念的混淆现象 2. 浏览器与操作系统的核心能力对比分析 3. 提出"代理操作层(AOL)"的准确定位概念
都在卷 AI 浏览器(ChatGPT Atlas 发布,AI 浏览器大乱斗...),更有甚者已经开始用 OS 来给浏览器命名了。AI Browser = XXX OS !?,是我对 OS 有什么误解吗?
感觉一些营销在刻意模糊 OS 和 Browser 的边界,照这个势头发展,搞不好明年就叫二进制了(01)…
你也许已经感到:浏览器的“覆盖面”过了一个拐点。PWA、Service Worker、File System Access、WebGPU、通知/后台同步、甚至多 Profile/多分区隔离,让它承载了大量过去属于系统壳层的能力。再叠上 “AI 代理”——能在页面里读、写、点、拖、表单填写、脚本注入——体验上就像有个“微内核”在替你支配电脑。
问题是:感觉像 ≠ 职责像。浏览器没有进程调度权、不控制内存隔离的底线、也不治理驱动与内核系统调用。它只是拿到了更多“可近似系统”的用户态能力。这就是营销话术的空间:把“运行时 + 编排层”包装成 “OS”,听上去更牛,也更好讲故事...
AI 的错位感:当代理可以“自动操作你的电脑/网页”时,的确“像”一个掌管资源与权限的系统层,于是 “OS” 一词被滥用。浏览器是应用运行时(Runtime),不是硬件/内核层的仲裁者。
如果啥都可以叫 OS,那鸿蒙又算啥,被人喷那么惨(好无辜)...
OS 全称是 Operating System,位于硬件和应用层之间。一个能被严肃称为 OS 的系统,至少要满足以下能力吧:
所以在我看来,只有 macOS,Windows,Linux 之类的系统才称得上 OS。Chrome 是一个浏览器,但 ChromeOS 确实一个真正的操作系统(基于 Linux 内核实现,而非营销话术)。
浏览器(哪怕是很“重”的浏览器)通常只覆盖用户态的一小角:渲染、JS 运行时、网络栈的一层抽象、权限提示和扩展机制。它可以很像“平台”,但并不是 OS。“像 OS” ≠ “是 OS”。ChromeOS 是 OS,因为它有内核与系统服务;“浏览器 + 若干守护服务”只是运行时分发。
如果要给这层东西取个更工程化的名字,我建议叫 Agent Operating Layer(AOL,代理操作层)。它是运行在 OS 之上的“可编排能力 + 权限/审计 + 状态记忆”层,是浏览器/客户端自动化时代的“系统空间”。AOL 的职责像这样:
换句话说,OS 仍是 OS;我们需要的是一层“像系统一样严肃的运行治理”,但它的“底盘”依旧是 macOS/Windows/Linux/ChromeOS。
AI 浏览器都是 Chromium 套壳(比如 Dia[1]、ChatGPT Atlas[2]、Comet[3] 等),更确切点说,大部分套壳都在基于 Electron 搞(这类很多,不列举了,避免营销嫌疑)…
简单来说,能力强的直接基于 Chromium 二次定制开发,想快速交付的基本都在 Electron 上折腾。
割裂的现实:都在吐槽 Electron 又大又慢,但架不住“真香”定律,用起来就是嗨!说个题外话,一般应用开发很难碰到性能瓶颈,所以我们要相信 Chromium 团队是将性能优化做到极致的(v8[4] 值得信赖)。自己使用原生技术开发应用(如 swift),在面对大数据处理时,如果不用点特殊优化手段,应用直接卡爆也不是不可能。
从模型中心到能力中心,往后看,这或许是趋势:
预测一下:适合接入任意大模型的 API 容器一定会出现,如果没有,那 Noi 会朝这个方向努力!
通用容器是一个与模型无关的容器化平台(如浏览器),它能提供 system、browser 相关 api 操作能力(比单纯的浏览器插件更进一步,也更符合 agent 操作需要)。这一定会成为主流诉求,因为目前发布的 AI 浏览器实在是太多了,根本装不完(都在试图接管用户入口,割裂混乱得让人崩溃)...
如果要定义一下 API 的数据结构,它可能是这样的:
// 统一的意图(Intent),一切动作的“凭证”
type Intent<T = any> = {
id: string; // 可回放/关联
actor: "agent" | "human";
capability: string; // "tabs.create" | "dom.eval" | "fs.write" | "kv.put" ...
args: T;
scope?: string[]; // 能力域,如 ["activeWindow", "workspace:/docs"]
policy?: { requireApproval?: boolean; ttl?: number };
createdAt: string;
};
// 容器操作 API(节选)
interface OperatingAPI {
// 浏览器/页面
"tabs.create": (p: { url: string; partition?: string }) => Promise<{ tabId: string }>;
"dom.eval": (p: { tabId: string; script: string }) => Promise<{ result: unknown }>;
"tabs.capture": (p: { tabId: string }) => Promise<{ pngBase64: string }>;
// 文件/存储(沙盒化路径)
"fs.read": (p: { path: string }) => Promise<{ data: string }>;
"fs.write": (p: { path: string; data: string }) => Promise<void>;
"kv.put": (p: { ns: string; key: string; value: unknown }) => Promise<void>;
"kv.get": (p: { ns: string; key: string }) =>Promise<{ value: unknown | null }>;
// 调度/事件
"task.schedule": (p: { cron: string; job: Intent }) => Promise<{ taskId: string }>;
// 权限与审计
"auth.request": (p: { capability: string; reason: string }) => Promise<{ granted: boolean }>;
"audit.export": () => Promise<{ ndjson: string }>;
}
AI Browser = Runtime (运行时) + Orchestration (编排) 似乎更合理,“AI Browser = OS” 的说法,让人上头,但工程上并不成立。OS 仍在内核,AI 的“系统性价值”应该长在操作层:能力编排、权限与审计、状态与记忆、事件与调度、以及对模型的彻底解耦。
当这层被认真地打磨出来,“AI 浏览器”自然会变成一个可托付的代理平台。到那时,谁还在纠结叫不叫 OS,已经不重要了。重要的是:它是否让人和智能在同一条可治理的轨道上,跑得更稳、更远。
Dia:https://www.diabrowser.com
[2]ChatGPT Atlas:https://chatgpt.com/atlas
[3]Comet:https://comet.perplexity.ai
[4]v8:https://v8.dev
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-02
Claude Skills,4000字详解 Anthropic 的思考
2025-11-02
什么是AI PaaS?一文读懂AI开发新未来
2025-11-01
谷歌又出神器:只要给个网址,自动帮你出官网同款设计!
2025-11-01
让你的大模型读懂二方包
2025-11-01
基于 SubAgents 实现多模型融合,同时极致压缩成本
2025-11-01
Codex 积分制计费上线,Claude Code 急了……
2025-11-01
AI心理咨询师新突破:TheraMind引领长期治疗新范式及知识增强AI应用探讨
2025-11-01
基于本地LLM构建AI驱动的日志分析系统
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-10-02
2025-09-08
2025-09-17
2025-08-19
2025-09-29
2025-08-20