我要投稿

AI Agent 的发展：能力、技术架构和软硬件形态

发布日期：2025-07-01 18:52:21 浏览次数： 1896

作者：特工宇宙

微信搜一搜，关注“特工宇宙”

如果说 2023 年是生成式 AI 的爆发之年，那么 2025 年无疑正在成为“AI Agent 的元年”。从科技巨头到初创公司，从软件应用到智能硬件，几乎所有产品都在被“Agent”概念重构。AI Agent 正从一个技术概念，迅速演变为科技行业的新范式。

但热议背后，众说纷纭：AI Agent 的能力边界在哪里？在技术架构中，它应该扮演“超级应用”还是“新一代操作系统”？它的出现，将如何从根本上重塑人机关系？要回答这些问题，我们不能孤立地看待 AI Agent 本身，而应试着把它放在一个更广阔的参考系中。

如同电力设备之于电能的利用，AI Agent 是释放机器智能的最佳载体。其能力的发展路径，可以从生物智能由物种到个体、再到社会的演化过程中找到参照。

这些能力需要依托智能计算架构来实现。如同传统的指令式计算通过“计算元件-操作系统-应用软件”三层结构释放算力这一生产要素，智能计算架构也在沿着“模型底座—Agent 操作系统—垂直智能 Agent”的路径，逐步构建起释放智能生产要素的体系。

而 AI Agent 最终所呈现出的软硬件形态，则由不断演进的人机关系塑造。核心是匹配人类从指令级、任务级、意图级直到角色级的需求抽象，构建更高效、自然、自主的智能协作方式。

这篇文章将和大家一起回顾生物智能、计算架构和人机关系的演化，分别从能力、技术架构和软硬件形态三个角度，理解 AI Agent 当前的进展和未来可能的发展方向。

从生物智能的演化看 AI Agent 能力的发展

马毅老师提出了智能演化的四阶段路径：物种智能 -> 个体智能 -> 社会智能 -> 机器智能，将机器智能作为前三阶段自然演化智能的延续。

智能本质上是相通的。如果将机器智能看作一种新的智能形式，它的演化很可能会重复生物智能的物种->个体->社会三阶段路径。

1. 物种智能

生物智能的源头是只能对刺激做出反射性反应的单细胞生物，遵循固定的“刺激-反应”模式。类似的，最早的机械计算机严格遵循打孔纸带上的 0/1 机器指令，基于“指令-执行”的线性流程。

进入脊椎动物阶段，中枢神经系统对全身的感知和运动进行协调，实现了对环境变化的调控与适应。之后，哺乳动物的大脑皮层不断复杂化，其分层结构能够对海量的感官信息进行逐步整合、处理与抽象，形成了更高级的内部世界表征。在此基础上，灵长类动物的额叶区域显著增大，后续逐步发展出工具使用、模范学习、社会互动等、工具使用和模仿学习等能力，开启了通往现代人类的大门。

在机器智能中，这一过程体现为：从依赖人工编码、规则明确的程序执行逻辑，发展为基于数据驱动和概率的模型推断。AI 模型让机器获得了理解数据并进行推断的泛化能力。多层神经网络进一步实现了类似生物皮层的分层表征机制，能够从原始数据中提取和学习复杂的特征。随着数据规模的增长，学习到的特征具备了通用性与跨任务能力。

当模型和数据规模跨越了某个临界点，这些通用特征的潜力通过“预训练-微调”得以释放，机器智能逐步形成了可以统一感知、记忆、生成和推理的基础结构，“新物种”雏形初现，成为迈向类个体智能的转折点。

2. 个体智能

进入个体智能阶段，生物和计算的发展重心都从“硬件”转向了“软件”。

生物智能方面，由基因决定的物种级生理结构进化速度放缓，转向以学习和经验驱动的个体智能发展。

机器智能也经历了类似的路径。物种智能阶段的重心是设计优秀的模型架构，如 SVM、概率图模型、CNN 等。在基于 Transformer 的模型架构成熟和稳定后，模型智能的提升主要来源于数据侧：从预训练阶段的互联网存量语料，到后训练阶段通过模型采样生成的新的推理数据，再到推断阶段与环境交互中产生的行为数据。

在生物智能中，语言的出现是一次认知革命。语言不仅是交流的工具和思维的载体，而且实现了知识的跨时空传承。

对应到机器智能，当前 AI Agent 的记忆机制聚焦单个 Agent，致力于优化内部短期和长期记忆的存取。类似语言的知识传承作用，记忆研究要解决的另一个重要问题是：如何构建一个外部记忆网络，让 Agent 之间可以共享情境上下文和长期经验。

生物智能进入农业革命阶段，逐步建立起一套相对稳定的基础设施，包括农耕知识、历法制度、定居点等。基于这个简易的社会操作系统，农业生产内部出现开垦、播种、灌溉等专业分工，彼此协作进一步提升了生产效率。

机器智能中的垂直智能代理对应人类的专业分工，需要结合领域数据和专业工具，并设计工作流或设定奖励函数来实现。这些垂直智能代理的发展也需要一个抽象出的共性基础层，即 Agent 操作系统：负责资源调度、权限控制、记忆管理等。

这一层的抽象可以极大解放垂直智能 Agent 的开发者，使其专注于高层业务逻辑，加速垂直智能 Agent 应用的广度和深度。

3. 社会智能

根据能力和角色的不同，对应个体智能和社会智能两个阶段，AI Agent 可以分别翻译为智能代理和智能体。

在个体智能阶段，AI Agent 是被动代理，以完成人类指定的任务为目标。进入社会智能后，AI Agent 具备身份、信用、价值交换能力，成为社会主体之一，可以基于社会身份自主发起目标。

为了更好理解 AI Agent 在群体智能阶段的发展，先来回顾人类城市文明的形成过程。农业革命带来了专业化分工，进而有了交换产品和服务的需求。随着生产效率的不断提升，这种交换在没有血缘关系的陌生人之间展开。因此发明了货币、契约、法律等制度，构成了城市文明和大规模社会化协作的底层协议。

发展到社会智能阶段，不同 AI Agent 不只为了完成某个人类任务而协作，而是可以作为独立的社会节点，构成一个社会性协作网络。每个 AI Agent 能够基于规则、激励和目标，自主选择合作对象、进行价值交换，形成去中心化的协作模式。

随着这一协作网络的演化和扩大，机器智能将进入类似人类“工业革命”的阶段。

工业革命中，机器动力大规模替代了人类体力劳动，带来了生产力的指数级增长，从根本上重塑了生产关系和社会结构。

对应的，在协作网络和信用体系逐渐成熟后，计算社会智能将进入一种局部自治的阶段，类似 OpenAI 所定义的第五级 AGI-Organization。在这个阶段，人类脑力劳动和组织管理工作逐渐被大规模替代。AI Agent 能够自主地组建“公司”、进行研发创新、管理供应链，并提供服务。

人机关系将经历从“人主导、机器辅助”（human-in-the-loop）到“人监督、机器执行” (human-on-the-loop)，再到某些场景下由 AI 按需调用人类能力的“机器主导、人辅助”（human-on-demand）的转变。人类的角色更多地转向价值定义、制度设计和伦理边界引导。

生物智能的演化为我们指出了机器智能和 AI Agent 能力发展的路径：从物种的生理结构进化，到个体的后天学习，再到群体的社会化协作。这些能力的实现，需要依赖技术底座—智能计算架构的不断演进。

回顾我们熟悉的计算架构发展历程，从电子管到大规模集成电路，从单机操作系统到全球化的云计算，每一次技术演进都通过构建新的技术层级，更高效地释放和组织算力。

接下来，我们将试着对比这段发展史和今天的智能计算，看看技术架构如何通过层层抽象，逐步构建出能够支撑复杂智能的技术底座。

从计算架构的演化看 AI Agent 技术架构的发展

从技术实现的角度，机器智能的发展大致可以分为两个阶段:

指令式计算: 自机械计算机到基于冯·诺依曼体系的现代计算机，机器严格执行人类编写的显式指令。给定相同的输入，输出始终唯一且可精确复现。

智能计算：以传统机器学习、大模型和 AI Agent 为代表，其本质是概率性的，在高维空间中进行生成式推断，相同输入可以产生多样的、上下文相关的结果。

虽然指令式计算和智能计算在运行机理上有很大不同，但却有着高度一致的底层目标：持续降低“核心生产要素”的边际成本，最大化能力释放。指令式计算降低了算力的使用成本，引领了信息化时代。智能计算正在降低智能的成本，成为智能化时代的核心驱动力。一致的目标使得它们在技术架构上展现出相似的分层演化路径。

从计算理论的角度，所罗门诺夫归纳把“可计算预测”归结为图灵机描述长度最短的程序。无论编写显式指令，还是训练概率模型，本质都在逼近同一个极限——在可计算边界内，找到最优的信息表达与执行路径。因此，我们可以预期，智能计算将沿着与指令式计算非常相似的技术路线演化。

指令式计算的计算元件-操作系统-应用软件层级架构，在智能计算时代呈现出新的对应关系：大模型等模型架构相当于 CPU 等计算元件，通用 Agent 向 AgentOS 发展，而垂直 Agent 则扮演应用软件的角色。大模型提供原始推理算力， AgentOS 负责资源管理、任务调度、记忆持久化和权限隔离，为上层垂直 Agent 暴露一致的调用接口，后者再面向具体场景交付价值。

1. 计算元件 (模型架构）

传统计算架构的发展基本遵循“摩尔定律”：单颗芯片上集成指数级增长的晶体管数量，带来了计算性能功耗比的持续提升与成本的不断下降。这一进程始于早期体积大、功耗高的电子管，到小型化和可靠性提升的晶体管，最终到了集成电路时代。

1971 年，Intel 推出全球首颗商用微处理器 4004，将运算、控制和寄存器逻辑集中集成在一个芯片上，标志着超大规模集成电路的起点。此后，CPU 通过在单芯片上集成晶体管，同时整合多个计算核心提升并行处理能力。引领了 PC 的发展和信息化革命。

对应到智能计算架构，其发展的核心线索则由“规模定律”（Scaling Law）主导：不断增长的算力，可以通过扩大模型参数和数据规模，被有效地转换为更强大的模型智能。

量变产生质变的临界点出现在 2020 年，OpenAI 推出 GPT-3。GPT-3 验证了大规模预训练模型的潜力，相当于指令式计算的 4004，实现了通用语言能力的第一次规模化集成。此后，大模型参数量继续扩大，并从语言模型发展为具有更强规划和逻辑能力的推理模型。当下两种模式正走向融合，形成兼具“快思考”与“慢思考”能力的混合模型。

从趋势上，传统计算走向异构计算，通过 CPU+GPU+NPU 处理不同类型的任务，继续优化性能功耗比。规模上向微型化（移动 SoC、低功耗芯片）与巨型化（超算、数据中心级芯片）两个极端发展。

这也对应了智能计算当前的发展趋势。一方面是自回归模型与扩散模型协同发展：自回归擅长序列预测和逻辑规划，扩散擅长全局分布预测和高保真生成、并具有较快的生成速度。

另一方面，大模型也在同时朝着微型化与巨型化发展。微型化旨在应用普及。模型轻量化技术的发展使得大模型可以部署到手机、可穿戴设备等资源受限场景中。当然，Transformer 架构能否像晶体管一样，遵循“摩尔定律”不断缩小尺寸，仍然存疑。但可以明确的是，通过结合模型轻量化与芯片能力提升，终端设备上可运行的模型智能水平会持续、稳定地提升。

巨型化旨在探索极限。通过继续扩大模型与算力规模，探索智能的上限。以 Stargate 为例，将有更多集中的、巨大的资源被投入到解决人类社会的宏大问题上，包括新药发现、材料科学、可控核聚变等。

2. 操作系统 (AgentOS）

拥有了强大的计算元件（CPU）或模型基座（大模型）后，其上一层是操作系统：负责资源调度、屏蔽底层复杂性和承接上层应用。在指令式计算和智能计算的演进中，都能看到一个相似的“中间层”的发展，扮演着释放底层能力和支持上层应用的关键角色。

在智能计算架构中，AgentOS 的角色正由通用 Agent 来承担（或者是通用 Agent 的发展目标）：作为连接大模型和垂直 Agent 的中间层，正逐步承接传统操作系统的核心职能。可以从以下六个方面，看到二者的结构性对应：

资源管理：传统 OS 调度的是 CPU、内存等硬件资源；AgentOS 则统一调配大模型、工具调用和记忆系统。例如 ChatGPT 调用代码解释器和搜索插件，Manus 支持连接 shell、爬虫 API 等多种外部工具。MCP、A2A 等 Agent 通信协议也属于这一层。

任务调度：类似进程调度，AgentOS 需规划任务并拆解子任务。如 ChatGPT 依靠模型自身能力规划执行链条，Manus 基于工作流和提示词模板将任务分派给子 Agent 并行处理。

内存管理：除了模型的上下文窗口，AgentOS 还需维护更持久的记忆结构。ChatGPT 提供“Saved Memories”，Manus 构建了可编辑的结构化知识库，支持任务连续性与知识复用。

设备驱动：传统驱动连接硬件，AgentOS 驱动则面向数字环境，如操控文件系统、浏览器等。如 Manus 可模拟用户操作网页，实现表单填写与页面点击。

用户接口：AgentOS 提供以自然语言为核心的交互接口。如 ChatGPT 的 ChatUI 和 Canvas 面板，Manus提供了“Manus's Computer”可视化界面，实时展示执行过程。

权限管理：如同传统 OS 的沙箱机制，AgentOS 通过数据隔离、权限配置等保障执行安全。ChatGPT Enterprise 支持组织级数据控制，Manus 则采用云端虚拟机隔离执行环境。

值得注意的是，与传统计算架构中计算元件和传统 OS 存在物理边界不同，智能计算架构中各层级的边界是动态变化的。大模型正逐步融合通用 Agent 层的很多能力，从任务调度、GUI 操作，到记忆和权限等。

当前适合构建通用 Agent 并向 AgentOS 发展的几类公司: (1) 大模型公司，如 ChatGPT；(2) 有前端用户和后端工具生态，如微信元宝；(3) 有操作系统/硬件入口，如苹果和微软。

AgentOS 和传统 OS 在功能上的相似性，背后是因为二者都要通过不断地演进，来管理和调度日益复杂的底层资源。在指令式计算架构中，操作系统的发展遵循了“安迪-比尔定律”，即 CPU 性能的提升会被软件层的更新迭代所吸收。这条规律驱动着操作系统从早期的单任务命令行，到具备图形用户界面和多任务管理，再到支持多机通信和并发处理，最终发展为支持弹性伸缩、容器调度和资源池化的云原生平台。核心线索是向下管理更强大的硬件、并为上层应用提供更强大的运行环境。

智能计算架构下的 AgentOS 发展，也遵循类似的“智能消耗定律”：完成单次任务所需的智能资源(如 token)不断增长。最初的工具使用只是将模型推断 token 转换为调用函数的指令。进入任务编排阶段后，Agent 能够将一个高层目标拆解为多个子任务，按顺序或并行调度模型与工具完成各步动作。

在目前的多 Agent 协作阶段，多个专业 Agent 相互通信、角色分工、动态协作。每个 Agent 本身的推断消耗，再加上它们之间为了保持上下文一致进行的交互消耗，总 Token 量组合式增长。

未来，AgentOS 需要将多模型能力、基础工具接口、知识和记忆模块抽象化并池化，形成可以自动调用的基础能力层。开发者无需关心使用哪个模型、组合哪些垂直 Agent、调用哪个工具。他们只需定义业务逻辑和最终目标，AgentOS 即可动态地、自动地编排和调度所需资源来完成任务。具有角色和长期目标的Agent会自主决策和行动、持续推断消耗 token。微软最近提出了“Agentic Web”构想，目标是成为连接和协调智能代理的操作系统。其生成在操作系统曾原生支持 MCP，并依托 Azure 云平台，为 AI Agent 提供运行、通信和管理的基础设施。

3. 应用软件 (垂直智能代理)

最后到应用软件层。

操作系统提供的是应用软件的运行环境，应用软件的构建还需要开发引擎。操作系统层提供了硬件资源抽象与调用的统一接口，应用开发引擎则支持了从编码、调试到部署的一整套流程。

在智能计算架构下，Coze、LangChain 等 Agent 开发平台正尝试扮演类似的角色。但一个显著的不同是：由于大模型本身具备自然语言交互和上下文理解能力，Agent 的开发可以通过低代码甚至零代码的方式完成，开发工具/平台独立存在的必要性似乎有所降低。

比如，目前 Coze 支撑的主要是其自身生态内的应用构建。更多的垂直 Agent 开发者选择直接与模型能力对接，使用 Anthropic 等大模型厂商提供的原生开发接口进行构建。从这个角度看，Claude Code 更像是在 Claude API 基础上，可以快速验证模型能力边界、搭建垂直 Agent 原型的开发工具。

传统应用软件的发展线索是标准化功能使用的便捷性：从安装包到网页、再到 SaaS，软件逐渐从离线变为在线，从本地变为云端。

垂直智能代理的发展与智能操作系统（AgentOS）同步，其发展线索是灵活性和定制化的提升。在多 Agent 协作阶段，多个拥有不同专业能力的垂直 Agent 可以基于统一的协议和 AgentOS 的调度，进行复杂的协同作业。协作方式可以是基于工作流驱动的，也可以是基于模型原生规划驱动（非提示词触发）的。AgentOS 需要同时支持两种规划方式，既支持以预设的工作流方式定义精确操作逻辑，也支持基于模型原生在推断时动态规划来解决开放式任务。

进一步发展到“Agent 即服务”阶段，自主服务智能代理将呈现出指令式计算架构中没有的软件形态。垂直智能代理不限于被动执行预设任务，而是能自主发现任务、调度资源、持续与环境互动。此外，与传统软件只能调用预定义函数、基于固定的 UI 不同，Agent 可以借助AI编码能力，在线、动态地创建任务所需的新工具，甚至即时构建新的垂直智能代理，并根据具体任务需求实时生成相应的用户界面。

通过以上对比，我们可以看到，智能计算正沿着与指令式计算高度平行的路径，构建起“大模型-AgentOS-垂直智能代理”的三层技术架构。这一架构将为实现更复杂、更自主的智能能力提供坚实的技术底座。

从人机关系的演化看 AI Agent 软硬件形态的发展

在前两部分，我们分别参照了生物智能和计算架构的演化路径，粗略分析了 AI Agent 能力发展和技术实现的方向。这一部分将从人机关系的演化出发，更具体地讨论 AI Agent 将以什么样的形态呈现。

未来很难预测。因此，我们先确定一个人机关系演化的基本原则，基于此构建思考框架，再从这个框架出发，展开对终端设备、操作系统和应用软件形态的具体讨论。

原则：在越来越抽象的层面满足人类需求

乔布斯在 40 年前对计算机的发展做过总结：“过去 20 年里，我们在越来越高的抽象级别使用计算机”。最初通过打孔纸带和按钮的机器语言处于最底层，是完全适应机器的二进制码；汇编语言虽然与机器码一一对应，但具备了一定的语义，编程变得相对容易；高级语言则更接近人类的自然语言，具备更高的表达能力和效率。

这一总结在今天仍然适用，可以作为理解 AI Agent 继续发展的原则：

从机器码到高级语言，人类需要学习机器的语言，逐步指挥计算机完成具体指令，即“如何做”（how to do）。此时的人机关系是人调用工具。

到了大模型阶段，人类第一次可以不用关心底层实现过程，而是通过自然语言下达一个明确的任务，即“要做什么”（what to do）。这标志着机器的定位从“工具”转变为“助手”：人类将理解、分析等认知活动委托给机器。

目前的 AI Agent 阶段更进一步，用户不再委托一个孤立的任务，而是可以表达复杂的意图，即“我想要什么”（what I want）。由机器理解意图、规划任务、然后调用资源并完成执行。

沿着这一趋势，AI Agent 将继续在更高的抽象层级上满足人类需求。当需求足够抽象，以至于可以表达为一种“角色”（who you are）--比如“旅行管家”--人机关系也将达到质变的“奇点”，从委托变成授权：人类授权机器在某个角色身份下自主决策和行动，机器可以自主决策、主动发起行动、持续与环境互动，甚至在必要时向人类指派任务。这标志着人机共生时代的到来，AI Agent 可以在数字甚至物理世界中持续为人类创造价值。

以旅行规划为例，任务级AI可以处理的需求是“帮我预定一张明天去上海的机票”，这是一个边界清晰、一次性的任务。给意图级 AI 的需要是“我想策划一次暑假去欧洲的家庭旅行”，这需要机器分解任务，但目标仍然是具体的、有终点的。对于角色级 AI，我们可以授予机器一个持续的角色：“从现在起，你是我的家庭旅行管家”。AI 会进入持续服务的状态，会在发现最佳旅行时机时（比如结婚纪念日和目标航线打折），主动发起旅行建议并规划行程供人类决策。

思考框架：更好地理解 & 更好地执行抽象意图

对应人类需求的逐步抽象，人机交互的重心从“操作”转向“表达”：从最初对执行细节的精确控制（指令级），逐步转向对目标的描述（任务级），再到如今对更抽象意图的表达（意图级），最终演进为对机器角色的直接定义（角色级）。交互方式也随着改变：从物理指令（打孔纸带、按钮）、程序命令和图形界面（鼠标、多点触控），发展到更自然的自然语言和多模态交互，直至融合手势、位置等全情境信号的环境交互。在环境交互阶段，系统可能不再依赖明确的交互界面，而是通过持续感知环境和用户状态来进行交互。

对应的，机器的定位从“执行”上升到“理解+规划+执行”，并最终走向“自主决策和持续行动”。为了支撑这种定位的升级，终端设备、操作系统和应用软件的形态也在不断变化：终端设备从最早的机械计算机，到个人电脑、智能手机，再向AI原生终端演化，并最终可能发展为无处不在的空间计算平台。操作系统从面向硬件资源调度的命令行 OS、桌面 OS 和移动 OS，转向对模型、记忆等智能资源的组织与服务的 AgentOS，最终演变为管理多智能体社会关系的社会化 AgentOS。应用软件则从满足明确需求的应用程序，逐步演变为能完成复杂委托任务的智能代理，最终发展为被授权具备社会身份的社会智能体。

AI Agent 软硬件发展的线索是：更好地理解抽象意图+更好地执行抽象意图”。在“理解”层面，需要获取尽可能完整且实时的任务上下文；在“执行”层面，需要更好地整合硬件资源、大模型能力和各类工具服务，实现对用户意图的精准响应。这为讨论智能终端设备和操作系统的形态提供了一个基本框架。以下基于这一框架，探讨一种可能的发展路径。

1. 智能终端设备的形态

智能终端设备担任着将 AI 接入物理世界的角色。头部科技公司在布局大模型的同时，也在发展自己的硬件生态：苹果有 iPhone 和 Vision Pro、谷歌有 Pixel 和眼镜、Meta 在发展眼镜和手势硬件、亚马逊通过 Echo 连接智能家居等。

OpenAI 最近收购了苹果前首席设计官 Jony Ive 的智能硬件公司 LoveFrom，也要打造自己的 AI 原生终端设备。Sam Altman 描绘了一个很有意思的场景：“如果你订阅了 ChatGPT，我们会寄给你一台专用的终端设备，你通过使用这个设备来使用 ChatGPT。”

从硬件的发展规律看，智能手机仍会在较长时间内是主要的终端设备。其在屏幕显示、移动计算和网络连接等方面有不可替代的优势。但同时，会有新的AI原生终端设备出现，但它们与手机/PC 不是竞争关系，而是会形成互补。

手机本身，尤其是其操作系统，将逐步向支持 AI Agent 的方向进行优化。例如，未来的手机可能会更注重意图识别、任务调度和跨设备协同能力。但短期内不会消失，而是会发展成为“边”上的智能中枢。

更好地理解抽象意图：暴露传感器，感知上下文

要理解用户的抽象意图，需要结合物理环境上下文与数字行为上下文。比如，当用户说“我有点累了”，理解这一抽象意图需要的信息可能包括：

(1) 物理上下文：当前时间（晚上 9 点）、用户所处的位置（在家还是办公室）、环境噪声（是否安静）、用户生理状态（如佩戴设备检测到的心率偏高、步数异常少）、光照情况等。

(2) 数字上下文：日程中是否还有未完成的重要任务、近期连续加班的记录、用户偏好中“疲惫时希望调整日程”这一习惯、历史上“我累了”时系统的默认处理等。

其中的物理上下文主要依靠终端设备的传感器获得。只有能持续获取这两个维度的上下文，Agent 才可能做出合理响应：如推迟今晚的日程、播放冥想音乐、关闭信息通知，并提醒用户明早的安排等。

目前的智能手机虽然内置了多种传感器（如加速度计、陀螺仪、麦克风、摄像头等），但由于体积和佩戴方式的限制，它无法始终暴露在环境中，难以持续捕捉物理上下文的变化。

新的 AI 原生终端设备，需要具备两个特征：

(1) “全”：全面感知。能够感知用户的手势、语音语调、表情、语境、生理信号等。

(2) “久”：始终在线。轻便易佩戴，且具备低功耗、长续航的特点，能够持续运行，随时响应，支持长程对话与连续交互。

一种可能的设备形态是胸针、夹子或纽扣：

(1) 轻便、可轻松固定在衣物上，使麦克风与摄像头等传感器始终面向外部环境，持续采集语音、动作、环境光等信息；

(2) 没有屏幕，不依赖视觉交互，专注于上下文感知，依托手机/PC 进行结果呈现。大多数时候 AI Agent 之间可以直接通信和协作，无需 GUI 界面；只有在需要人类确认或查看结果时，才借助手机的屏幕展示信息。

由 Lovart 生成

反观前不久失败的 AI 原生硬件产品—如 AI Pin 和 Rabbit R1--都试图独立于手机的主设备生态而存在。AI Pin 提供了一套独立的全息投影 GUI，导致显示模组过于笨重、功耗与散热失控；而 Rabbit R1 则想整体替代手机，忽视了用户对现有手机生态、习惯与功能的依赖。

因此，新的AI原生终端可能不是颠覆现有设备，而是围绕“更好地理解用户意图”这一目标，与手机、PC 等已有设备协同发展、优势互补。

更好地执行抽象意图：端-边-云协同

为了更好地执行用户的抽象意图，终端架构将向“端-边-云”协同的方向发展。“端”是 AI 原生终端，作为感知和交互的入口；“边”是智能手机/PC 或其他边缘设备，承担任务协调与中等复杂度的推断计算，并提供显示和网络连接等能力；“云”则作为认知中枢，负责运行基础大模型、调用外部工具和服务，并处理复杂的任务链。

作为边缘节点的智能手机不再只是通信工具或内容消费设备，而是成为连接“端”与“云”的枢纽，因而需要具备更强的异构计算和多设备协同能力。一方面，手机芯片将集成更强大的 AI 能力，为端上的 AI 原生终端提供延申的算力。另一方面，手机需要配备更高带宽的网络连接模块，以保障与端侧设备的稳定实时通信。

此外，手机的摄像头、屏幕、扬声器等 I/O 模块不再只由用户来操作，而可能重新面向 AI Agent 设计，由 AI Agent 根据任务需要进行调度。比如在语音交互过程中提供视觉或听觉层面的辅助反馈，实现更自然、高效的人机协作体验。

PC、手机、AI 原生终端将构成一个人的完整智能生态：

(1) PC：处理相对复杂的生产力任务；

(2) 手机：作为移动计算和通信的中枢；

(3) AI 原生终端：作为与物理世界持续连接的桥梁，时刻感知环境、理解上下文，让其他设备能更智能、更主动地服务。

2. 智能操作系统的形态

随着终端设备形态的改变，智能操作系统的交互和执行逻辑也要跟着变化。特别是手机和 PC 这类具备完整交互界面的终端上，操作系统不再只是应用的调度平台，而变成智能代理系统的中枢：负责理解用户意图，并协调模型、工具和垂直智能代理来执行意图。

更好地理解抽象意图：从“幕后”到“台前”

在指令式计算架构下，用户交互的主要入口是网页、软件和 App 等应用层。但在智能计算架构中，OS 将成为用户表达意图的核心界面--即便不是唯一入口，也会是最主要的起点。

具体来说，任务发起可以有两种主要形式：

(1) 在 Agent OS 层表达意图，OS Agent 负责理解意图、规划任务、并协调多个垂直 Agent 或直接调用工具来完成任务。

(2) 以垂直 Agent 为入口，这个 Agent 会自行判断是否需要调用其他工具或与其他 Agent 协作。

这种变化也将重构操作系统的 UI。应用层会只保留几个核心 APP，作为垂直 Agent 的独立入口。这其中可以包含用户定制的、满足特定需要的垂直 Agent，比如给孩子批改作业的 Agent：拍摄作业、识别错误点，标注和讲解错误原因。而多数应用会退化为服务接口，供 ChatUI 形式的 OS Agent 在需要时调用。

由 Lovart 生成

为了更好地理解抽象意图，操作系统还需要具备强大的上下文整合能力。智能操作系统需要提供一种突破应用生态“数据孤岛”的解决方案，具备在数字世界中统一访问、组织、引用各类数据的能力，比如同时调用日历、邮件、文件系统和第三方 App 信息来判断某个任务的优先级和执行路径。

同时，OS 还要打通物理世界的感知数据，具备跨终端感知能力，能统一处理来自AI原生终端、可穿戴设备、智能家居等多种来源的数据。实现全场景的物理+数字上下文融合，支持更完整、准确的意图理解。

此外，为了支持终端设备持续感知、随时响应的能力，Agent 操作系统层需要支持常驻智能体。这些智能体常驻后台运行，具备状态记忆、上下文追踪和事件触发能力。

更好地执行抽象意图：面向 AI Agent 重构

为了将用户的抽象意图转化为可执行的行为，智能操作系统需要协调多种智能资源，包括长期记忆库、知识图谱、大模型、垂直 Agent 以及各类工具接口等。在第二部分介绍 AgentOS 的发展路径时，我们讨论了这一层的主要职责。在此基础上，我们进一步聚焦于当前 Agent 的两种主要构建范式：基于工作流与基于模型。回顾传统操作系统的发展，有助于更好地理解这两种方法的差异和适用场景。

在指令式计算架构中，最初通过汇编语言直接编写面向硬件的操作指令，每一步行为都需手动设计、显式调用，类似今天基于工作流的 Agent 构建方式。开发者明确指定每个执行步骤的触发条件、调用顺序与控制结构。这种方式具备高度可控性与可解释性，但抽象层级低，缺乏灵活性。

基于模型的 Agent 构建方式则更像是使用高级语言编写程序。它不再依赖显式的流程定义，而是通过大模型理解用户意图后，自动生成任务序列，并动态调用合适的工具或子 Agent 来完成目标。这种方式抽象级别更高，能够应对模糊、多变的用户请求，也更适合开放环境下的复杂交互。

当然，正如今天仍有少数高性能、底层控制场景仍依赖汇编语言（如芯片驱动、安全模块、资源极限计算任务），基于工作流的 Agent 构建方式在某些精度要求高、资源受限或强安全性的场景中依然不可或缺。例如工业自动化、合规流程审批或关键业务节点等，需要明确且稳定的执行路径，适合用工作流显式描述。

最后来讨论智能操作系统的结果呈现形态。传统操作系统的界面是为人类操作设计的：窗口、图标、按钮、触屏手势等 UI 元素，目的是帮助人类完成具体指令操作。而在 AgentOS 中，核心交互逻辑转向面向 AI 的任务协同，UI 主要承担两个功能：表达意图的入口，和展示结果的出口。

随着 AI Coding 能力不断增强，智能操作系统可以根据当前任务动态生成最合适的 UI 界面。就像浏览器加载网页时自动进行布局与渲染一样。这样的 UI 是任务驱动和结果导向的，由系统按需渲染、临时创建、用完即消失。

由 Lovart 生成

当操作系统 UI 不再聚焦复杂的人机操作，而是专注于精准传递意图输入和结果输出，才能成为人和 AI Agent 之间高效沟通的媒介，支撑越来越抽象的意图理解和执行。

3. 应用软件的形态

Andrej Karpathy 在 YC 的 AI Startup School 演讲中，将软件的发展划分为三个阶段：1.0 的手工显式编写，2.0 的通过数据训练生成神经网络，以及今天基于大模型的 3.0，即基于提示词的自然语言编程。

来源：Andrej Karpathy《Software in the Age of AI》

我们在 Karpathy 总结的基础上，结合 AI Agent 的最新进展和未来可能发展方向，进一步延伸出软件 3.5 和软件 4.0 两个新阶段。

软件 1.0：核心是显式编程。开发者通过机器、汇编或高级语言，将指令级的需求明确编码，再由编译器构建出应用程序，最终在进程执行环境中执行。

软件 2.0：通过准备训练样本的方式来表达任务级抽象。例如，要训练一个排序模型，需要准备排序前和排序后的样本对。训练得到的神经网络模型，在 TensorFlow、PyTorch 等深度学习推断框架上运行。要注意的是，软件 1.0 只能实现类似排序这种程序员可以明确指令的任务。而从 2.0 开始，引入模型使计算机能够处理那些无法通过编程直接实现的模糊问题，比如人脸识别。

软件 3.0：以大模型为核心，用户可以直接通过自然语言表达需求。软件载体呈现两种形态：一种是由大模型作为编程工具显式生成代码，再经过编译获得应用程序；另一种则是通过上下文学习（In-context Learning），将即时配置后的大模型本身作为软件载体（ICL 大模型）来直接完成任务。

软件 3.5：即智能代理阶段。在人机关系上与 3.0 都属于“委托”，但需求抽象提升到了意图级。用户通过智能代理开发平台，将复杂的个人意图构建为定制化的垂直智能代理。运行环境 AgentOS 则负责提供任务规划、工具调用和记忆管理等必要的 Agent 运行时能力。

我们可以清晰地看到 3.5 阶段的软件服务与传统软件之间的区别。从满足的需求上看，传统软件往往只能覆盖高频、标准化、静态的需求场景，而垂直 Agent 可以深入处理长尾、个性化、动态的问题，甚至应对用户在上下文中临时提出的复杂任务。从使用方式上看，软件形态正从原本用户需要手动操作、流程式控制的“面向过程”式的软件界面，转变为“面向结果”：用户只需表达意图，Agent 即可自动规划、执行所有中间过程，并交付最终结果。

软件 4.0：即社会智能体阶段。此时 AI 不再是仅仅执行任务的代理，而是在角色级需求定义下，被授权在特定领域内自主决策和行动的主体。用户通过社会智能体建模平台，构造社会智能体运行的环境、角色与边界规则。

这一阶段的软件形态，也与这部分之前讨论的操作系统与终端形态相对应。对应的操作系统是社会化 AgentOS，不仅要支撑单个 Agent 运行，还需要提供身份信用管理、环境共享、社会规则引擎等群体管理功能。而对应的交互载体，可能不是某个终端设备，而是能够融合多种终端、实现全域环境感知的空间计算平台。

基于以上软件阶段的划分，接下来，我们聚焦当前应用软件的主要形态--SaaS，一起看一下从软件 3.0 向 3.5、乃至 4.0 迈进的过程中，垂直领域的 SaaS 产品可能呈现出的理想发展轨迹。

SaaS 产品向 AI Agent 的演化，可以看作一个从提供标准工具，到赋能定制化服务，再到构筑领域生态的过程。可以分为三个主要阶段：

Agent 化：主要变化是从传统的、基于点击的图形界面，转向更自然的对话式界面。同时，SaaS 厂商开始内嵌预设的智能助手，将原本用户手动操作、信息查询的功能，升级为“目标导向+自动执行”的智能服务。比如，投顾领域的 SaaS 可以研发“研报分析 Agent”、“资产配置 Agent”或“市场情绪追踪 Agent”。这些预设 Agent 具备自然语言对话界面，能够理解高阶目标，完成任务规划、工具调用并交付最终结果。

平台化：随着需求复杂度提升，预设 Agent 已无法覆盖所有场景。此时，可以将内部用于构建标准 Agent 的核心能力，转变为一个开放的能力底座，对外提供服务。包括包括预设的专业工作流模板、将标准功能和数据源封装好的工具集等。基于这个开放平台，用户可以接入自有知识库、专有数据源和专业工具（如策略模型），构建出高度定制化的专属 Agent。

生态化：当定制 Agent 数量和种类足够丰富后，平台可以转向构建一个垂直领域的智能体操作系统，支持生态内不同参与者进行 Agent 资源的共享、分发与价值交换。这一生态可以以两种互补的形态呈现：

(1) 2B 的市场化，仿照 App Store 模式，为专业开发者和机构提供一个发布、订阅和销售其专业 Agent 与工具的 Agent 商店；

(2) 2C 的社区化，类似 AI Agent 版的小红书/GitHub，支持普通用户在创作者社区中发布、分享和订阅轻量级 Agent，并进行二次创作。这两种形态可以底层的基础设施，包括模型底座、工具接口、信用体系等，但面向不同用户群提供差异化的 UI，并可通过跨平台分享的方式实现互通。可以预见，这一阶段将会同时出现由核心厂商主导的闭源生态，以及由社区驱动的开源 Agent 生态，共同推动垂直领域的智能化进程。

从不断演进的人机关系出发，我们观察到终端设备正在从智能手机向 AI 原生终端和空间计算平台演化，操作系统也正重构为以智能调度和意图理解为核心的 AgentOS，而应用软件则迈向基于垂直 Agent 的、具备更强自主性和协作性的智能体体系。这些软硬件形态的变迁，正是为了在更高抽象层级上理解人类意图、释放机器智能。

回顾整篇文章对 AI Agent 发展路径的讨论，从能力、技术架构到软硬件形态的逐层演进，背后似乎遵循着一条更为基本的演化规律，可以称之为“智能的尺度定律”：一个智能系统所能有效应对的复杂性尺度，决定了其智能的层级。

从生物智能的角度，这一定律体现为表征（可处理的数据和信息量）、执行（工具使用和逻辑推理）和协作（社会关系层级）三个维度的持续扩展。从计算架构的角度，它表现为后端“执行深度”的增长：机器自主完成的操作链条越来越长、执行逻辑和流程越来越复杂。从人机关系的角度，这一定律体现为前端交互抽象层级的提升：从 how to do 到 who you are，人类用更少的信息，调动更大尺度的智能资源。

生物智能、计算架构和人机关系的演化过程，为我们理解 AI Agent 的发展提供了一个参考系。从“后视镜”里找规律和相似点总是容易的。但在向前看时，一方面要敏锐判断未来究竟会压什么“韵脚”，另一方面要充分考虑生物智能与机器智能之间、指令式计算架构与智能计算架构之间的底层差异。

生物智能进化由自然选择驱动，充满偶然性。而机器智能的发展，目前主要由人类的意图和工程实现驱动，目标性更强，迭代速度也更快，因此有可能跳过某些生物智能发展的阶段。同样，指令式计算以确定性和逻辑驱动为核心，强调结果的唯一性和可复现性；智能计算则是概率性、上下文驱动的，其结果往往是生成式、非唯一的，更侧重在不确定性中进行推理、自我调整和反馈。

此外，从人机关系的角度，本文关于计算架构和软硬件形态的讨论，仍然聚焦“以人为中心”的智能代理阶段。当真正进入“以 AI 为中心”的阶段，如人机共生的社会智能体和自治智能体，AI Agent 的形态和技术实现将变得更加模糊和不可预测。在讨论这个更远的未来时，应保持足够的开放性：我们面对的，不只是一个更聪明强大的工具，而是可能拥有自主行为逻辑和高阶目标的新型智能主

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业