微信扫码
添加专属顾问
我要投稿
AI Agent正重塑科技行业新范式,从能力边界到技术架构,全面解析这一革命性趋势。核心内容: 1. AI Agent能力发展的生物智能演化路径 2. 智能计算架构的三层技术实现体系 3. 人机关系演进塑造的软硬件形态变革
如果说 2023 年是生成式 AI 的爆发之年,那么 2025 年无疑正在成为“AI Agent 的元年”。从科技巨头到初创公司,从软件应用到智能硬件,几乎所有产品都在被“Agent”概念重构。AI Agent 正从一个技术概念,迅速演变为科技行业的新范式。
但热议背后,众说纷纭:AI Agent 的能力边界在哪里?在技术架构中,它应该扮演“超级应用”还是“新一代操作系统”?它的出现,将如何从根本上重塑人机关系?要回答这些问题,我们不能孤立地看待 AI Agent 本身,而应试着把它放在一个更广阔的参考系中。
如同电力设备之于电能的利用,AI Agent 是释放机器智能的最佳载体。其能力的发展路径,可以从生物智能由物种到个体、再到社会的演化过程中找到参照。
这些能力需要依托智能计算架构来实现。如同传统的指令式计算通过“计算元件-操作系统-应用软件”三层结构释放算力这一生产要素,智能计算架构也在沿着“模型底座—Agent 操作系统—垂直智能 Agent”的路径,逐步构建起释放智能生产要素的体系。
而 AI Agent 最终所呈现出的软硬件形态,则由不断演进的人机关系塑造。核心是匹配人类从指令级、任务级、意图级直到角色级的需求抽象,构建更高效、自然、自主的智能协作方式。
这篇文章将和大家一起回顾生物智能、计算架构和人机关系的演化,分别从能力、技术架构和软硬件形态三个角度,理解 AI Agent 当前的进展和未来可能的发展方向。
从生物智能的演化看 AI Agent 能力的发展
马毅老师提出了智能演化的四阶段路径:物种智能 -> 个体智能 -> 社会智能 -> 机器智能,将机器智能作为前三阶段自然演化智能的延续。
智能本质上是相通的。如果将机器智能看作一种新的智能形式,它的演化很可能会重复生物智能的物种->个体->社会三阶段路径。
生物智能的源头是只能对刺激做出反射性反应的单细胞生物,遵循固定的“刺激-反应”模式。类似的,最早的机械计算机严格遵循打孔纸带上的 0/1 机器指令,基于“指令-执行”的线性流程。
进入脊椎动物阶段,中枢神经系统对全身的感知和运动进行协调,实现了对环境变化的调控与适应。之后,哺乳动物的大脑皮层不断复杂化,其分层结构能够对海量的感官信息进行逐步整合、处理与抽象,形成了更高级的内部世界表征。在此基础上,灵长类动物的额叶区域显著增大,后续逐步发展出工具使用、模范学习、社会互动等、工具使用和模仿学习等能力,开启了通往现代人类的大门。
在机器智能中,这一过程体现为:从依赖人工编码、规则明确的程序执行逻辑,发展为基于数据驱动和概率的模型推断。AI 模型让机器获得了理解数据并进行推断的泛化能力。多层神经网络进一步实现了类似生物皮层的分层表征机制,能够从原始数据中提取和学习复杂的特征。随着数据规模的增长,学习到的特征具备了通用性与跨任务能力。
当模型和数据规模跨越了某个临界点,这些通用特征的潜力通过“预训练-微调”得以释放,机器智能逐步形成了可以统一感知、记忆、生成和推理的基础结构,“新物种”雏形初现,成为迈向类个体智能的转折点。
进入个体智能阶段,生物和计算的发展重心都从“硬件”转向了“软件”。
生物智能方面,由基因决定的物种级生理结构进化速度放缓,转向以学习和经验驱动的个体智能发展。
机器智能也经历了类似的路径。物种智能阶段的重心是设计优秀的模型架构,如 SVM、概率图模型、CNN 等。在基于 Transformer 的模型架构成熟和稳定后,模型智能的提升主要来源于数据侧:从预训练阶段的互联网存量语料,到后训练阶段通过模型采样生成的新的推理数据,再到推断阶段与环境交互中产生的行为数据。
在生物智能中,语言的出现是一次认知革命。语言不仅是交流的工具和思维的载体,而且实现了知识的跨时空传承。
对应到机器智能,当前 AI Agent 的记忆机制聚焦单个 Agent,致力于优化内部短期和长期记忆的存取。类似语言的知识传承作用,记忆研究要解决的另一个重要问题是:如何构建一个外部记忆网络,让 Agent 之间可以共享情境上下文和长期经验。
生物智能进入农业革命阶段,逐步建立起一套相对稳定的基础设施,包括农耕知识、历法制度、定居点等。基于这个简易的社会操作系统,农业生产内部出现开垦、播种、灌溉等专业分工,彼此协作进一步提升了生产效率。
机器智能中的垂直智能代理对应人类的专业分工,需要结合领域数据和专业工具,并设计工作流或设定奖励函数来实现。这些垂直智能代理的发展也需要一个抽象出的共性基础层,即 Agent 操作系统:负责资源调度、权限控制、记忆管理等。
这一层的抽象可以极大解放垂直智能 Agent 的开发者,使其专注于高层业务逻辑,加速垂直智能 Agent 应用的广度和深度。
根据能力和角色的不同,对应个体智能和社会智能两个阶段,AI Agent 可以分别翻译为智能代理和智能体。
在个体智能阶段,AI Agent 是被动代理,以完成人类指定的任务为目标。进入社会智能后,AI Agent 具备身份、信用、价值交换能力,成为社会主体之一,可以基于社会身份自主发起目标。
为了更好理解 AI Agent 在群体智能阶段的发展,先来回顾人类城市文明的形成过程。农业革命带来了专业化分工,进而有了交换产品和服务的需求。随着生产效率的不断提升,这种交换在没有血缘关系的陌生人之间展开。因此发明了货币、契约、法律等制度,构成了城市文明和大规模社会化协作的底层协议。
发展到社会智能阶段,不同 AI Agent 不只为了完成某个人类任务而协作,而是可以作为独立的社会节点,构成一个社会性协作网络。每个 AI Agent 能够基于规则、激励和目标,自主选择合作对象、进行价值交换,形成去中心化的协作模式。
随着这一协作网络的演化和扩大,机器智能将进入类似人类“工业革命”的阶段。
工业革命中,机器动力大规模替代了人类体力劳动,带来了生产力的指数级增长,从根本上重塑了生产关系和社会结构。
对应的,在协作网络和信用体系逐渐成熟后,计算社会智能将进入一种局部自治的阶段,类似 OpenAI 所定义的第五级 AGI-Organization。在这个阶段,人类脑力劳动和组织管理工作逐渐被大规模替代。AI Agent 能够自主地组建“公司”、进行研发创新、管理供应链,并提供服务。
人机关系将经历从“人主导、机器辅助”(human-in-the-loop)到“人监督、机器执行” (human-on-the-loop),再到某些场景下由 AI 按需调用人类能力的“机器主导、人辅助”(human-on-demand)的转变。人类的角色更多地转向价值定义、制度设计和伦理边界引导。
生物智能的演化为我们指出了机器智能和 AI Agent 能力发展的路径:从物种的生理结构进化,到个体的后天学习,再到群体的社会化协作。这些能力的实现,需要依赖技术底座—智能计算架构的不断演进。
回顾我们熟悉的计算架构发展历程,从电子管到大规模集成电路,从单机操作系统到全球化的云计算,每一次技术演进都通过构建新的技术层级,更高效地释放和组织算力。
接下来,我们将试着对比这段发展史和今天的智能计算,看看技术架构如何通过层层抽象,逐步构建出能够支撑复杂智能的技术底座。
从计算架构的演化看 AI Agent 技术架构的发展
从技术实现的角度,机器智能的发展大致可以分为两个阶段:
指令式计算: 自机械计算机到基于冯·诺依曼体系的现代计算机,机器严格执行人类编写的显式指令。给定相同的输入,输出始终唯一且可精确复现。
智能计算:以传统机器学习、大模型和 AI Agent 为代表,其本质是概率性的,在高维空间中进行生成式推断,相同输入可以产生多样的、上下文相关的结果。
虽然指令式计算和智能计算在运行机理上有很大不同,但却有着高度一致的底层目标:持续降低“核心生产要素”的边际成本,最大化能力释放。指令式计算降低了算力的使用成本,引领了信息化时代。智能计算正在降低智能的成本,成为智能化时代的核心驱动力。一致的目标使得它们在技术架构上展现出相似的分层演化路径。
从计算理论的角度,所罗门诺夫归纳把“可计算预测”归结为图灵机描述长度最短的程序。无论编写显式指令,还是训练概率模型,本质都在逼近同一个极限——在可计算边界内,找到最优的信息表达与执行路径。因此,我们可以预期,智能计算将沿着与指令式计算非常相似的技术路线演化。
指令式计算的计算元件-操作系统-应用软件层级架构,在智能计算时代呈现出新的对应关系:大模型等模型架构相当于 CPU 等计算元件,通用 Agent 向 AgentOS 发展,而垂直 Agent 则扮演应用软件的角色。大模型提供原始推理算力, AgentOS 负责资源管理、任务调度、记忆持久化和权限隔离,为上层垂直 Agent 暴露一致的调用接口,后者再面向具体场景交付价值。
传统计算架构的发展基本遵循“摩尔定律”:单颗芯片上集成指数级增长的晶体管数量,带来了计算性能功耗比的持续提升与成本的不断下降。这一进程始于早期体积大、功耗高的电子管,到小型化和可靠性提升的晶体管,最终到了集成电路时代。
1971 年,Intel 推出全球首颗商用微处理器 4004,将运算、控制和寄存器逻辑集中集成在一个芯片上,标志着超大规模集成电路的起点。此后,CPU 通过在单芯片上集成晶体管,同时整合多个计算核心提升并行处理能力。引领了 PC 的发展和信息化革命。
对应到智能计算架构,其发展的核心线索则由“规模定律”(Scaling Law)主导:不断增长的算力,可以通过扩大模型参数和数据规模,被有效地转换为更强大的模型智能。
量变产生质变的临界点出现在 2020 年,OpenAI 推出 GPT-3。GPT-3 验证了大规模预训练模型的潜力,相当于指令式计算的 4004,实现了通用语言能力的第一次规模化集成。此后,大模型参数量继续扩大,并从语言模型发展为具有更强规划和逻辑能力的推理模型。当下两种模式正走向融合,形成兼具“快思考”与“慢思考”能力的混合模型。
从趋势上,传统计算走向异构计算,通过 CPU+GPU+NPU 处理不同类型的任务,继续优化性能功耗比。规模上向微型化(移动 SoC、低功耗芯片)与巨型化(超算、数据中心级芯片)两个极端发展。
这也对应了智能计算当前的发展趋势。一方面是自回归模型与扩散模型协同发展:自回归擅长序列预测和逻辑规划,扩散擅长全局分布预测和高保真生成、并具有较快的生成速度。
另一方面,大模型也在同时朝着微型化与巨型化发展。微型化旨在应用普及。模型轻量化技术的发展使得大模型可以部署到手机、可穿戴设备等资源受限场景中。当然,Transformer 架构能否像晶体管一样,遵循“摩尔定律”不断缩小尺寸,仍然存疑。但可以明确的是,通过结合模型轻量化与芯片能力提升,终端设备上可运行的模型智能水平会持续、稳定地提升。
巨型化旨在探索极限。通过继续扩大模型与算力规模,探索智能的上限。以 Stargate 为例,将有更多集中的、巨大的资源被投入到解决人类社会的宏大问题上,包括新药发现、材料科学、可控核聚变等。
拥有了强大的计算元件(CPU)或模型基座(大模型)后,其上一层是操作系统:负责资源调度、屏蔽底层复杂性和承接上层应用。在指令式计算和智能计算的演进中,都能看到一个相似的“中间层”的发展,扮演着释放底层能力和支持上层应用的关键角色。
在智能计算架构中,AgentOS 的角色正由通用 Agent 来承担(或者是通用 Agent 的发展目标):作为连接大模型和垂直 Agent 的中间层,正逐步承接传统操作系统的核心职能。可以从以下六个方面,看到二者的结构性对应:
资源管理:传统 OS 调度的是 CPU、内存等硬件资源;AgentOS 则统一调配大模型、工具调用和记忆系统。例如 ChatGPT 调用代码解释器和搜索插件,Manus 支持连接 shell、爬虫 API 等多种外部工具。MCP、A2A 等 Agent 通信协议也属于这一层。
任务调度:类似进程调度,AgentOS 需规划任务并拆解子任务。如 ChatGPT 依靠模型自身能力规划执行链条,Manus 基于工作流和提示词模板将任务分派给子 Agent 并行处理。
内存管理:除了模型的上下文窗口,AgentOS 还需维护更持久的记忆结构。ChatGPT 提供“Saved Memories”,Manus 构建了可编辑的结构化知识库,支持任务连续性与知识复用。
设备驱动:传统驱动连接硬件,AgentOS 驱动则面向数字环境,如操控文件系统、浏览器等。如 Manus 可模拟用户操作网页,实现表单填写与页面点击。
用户接口:AgentOS 提供以自然语言为核心的交互接口。如 ChatGPT 的 ChatUI 和 Canvas 面板,Manus提供了“Manus's Computer”可视化界面,实时展示执行过程。
权限管理:如同传统 OS 的沙箱机制,AgentOS 通过数据隔离、权限配置等保障执行安全。ChatGPT Enterprise 支持组织级数据控制,Manus 则采用云端虚拟机隔离执行环境。
值得注意的是,与传统计算架构中计算元件和传统 OS 存在物理边界不同,智能计算架构中各层级的边界是动态变化的。大模型正逐步融合通用 Agent 层的很多能力,从任务调度、GUI 操作,到记忆和权限等。
当前适合构建通用 Agent 并向 AgentOS 发展的几类公司: (1) 大模型公司,如 ChatGPT;(2) 有前端用户和后端工具生态,如微信元宝;(3) 有操作系统/硬件入口,如苹果和微软。
AgentOS 和传统 OS 在功能上的相似性,背后是因为二者都要通过不断地演进,来管理和调度日益复杂的底层资源。在指令式计算架构中,操作系统的发展遵循了“安迪-比尔定律”,即 CPU 性能的提升会被软件层的更新迭代所吸收。这条规律驱动着操作系统从早期的单任务命令行,到具备图形用户界面和多任务管理,再到支持多机通信和并发处理,最终发展为支持弹性伸缩、容器调度和资源池化的云原生平台。核心线索是向下管理更强大的硬件、并为上层应用提供更强大的运行环境。
智能计算架构下的 AgentOS 发展,也遵循类似的“智能消耗定律”:完成单次任务所需的智能资源(如 token)不断增长。最初的工具使用只是将模型推断 token 转换为调用函数的指令。进入任务编排阶段后,Agent 能够将一个高层目标拆解为多个子任务,按顺序或并行调度模型与工具完成各步动作。
在目前的多 Agent 协作阶段,多个专业 Agent 相互通信、角色分工、动态协作。每个 Agent 本身的推断消耗,再加上它们之间为了保持上下文一致进行的交互消耗,总 Token 量组合式增长。
未来,AgentOS 需要将多模型能力、基础工具接口、知识和记忆模块抽象化并池化,形成可以自动调用的基础能力层。开发者无需关心使用哪个模型、组合哪些垂直 Agent、调用哪个工具。他们只需定义业务逻辑和最终目标,AgentOS 即可动态地、自动地编排和调度所需资源来完成任务。具有角色和长期目标的Agent会自主决策和行动、持续推断消耗 token。微软最近提出了“Agentic Web”构想,目标是成为连接和协调智能代理的操作系统。其生成在操作系统曾原生支持 MCP,并依托 Azure 云平台,为 AI Agent 提供运行、通信和管理的基础设施。
最后到应用软件层。
操作系统提供的是应用软件的运行环境,应用软件的构建还需要开发引擎。操作系统层提供了硬件资源抽象与调用的统一接口,应用开发引擎则支持了从编码、调试到部署的一整套流程。
在智能计算架构下,Coze、LangChain 等 Agent 开发平台正尝试扮演类似的角色。但一个显著的不同是:由于大模型本身具备自然语言交互和上下文理解能力,Agent 的开发可以通过低代码甚至零代码的方式完成,开发工具/平台独立存在的必要性似乎有所降低。
比如,目前 Coze 支撑的主要是其自身生态内的应用构建。更多的垂直 Agent 开发者选择直接与模型能力对接,使用 Anthropic 等大模型厂商提供的原生开发接口进行构建。从这个角度看,Claude Code 更像是在 Claude API 基础上,可以快速验证模型能力边界、搭建垂直 Agent 原型的开发工具。
传统应用软件的发展线索是标准化功能使用的便捷性:从安装包到网页、再到 SaaS,软件逐渐从离线变为在线,从本地变为云端。
垂直智能代理的发展与智能操作系统(AgentOS)同步,其发展线索是灵活性和定制化的提升。在多 Agent 协作阶段,多个拥有不同专业能力的垂直 Agent 可以基于统一的协议和 AgentOS 的调度,进行复杂的协同作业。协作方式可以是基于工作流驱动的,也可以是基于模型原生规划驱动(非提示词触发)的。AgentOS 需要同时支持两种规划方式,既支持以预设的工作流方式定义精确操作逻辑,也支持基于模型原生在推断时动态规划来解决开放式任务。
进一步发展到“Agent 即服务”阶段,自主服务智能代理将呈现出指令式计算架构中没有的软件形态。垂直智能代理不限于被动执行预设任务,而是能自主发现任务、调度资源、持续与环境互动。此外,与传统软件只能调用预定义函数、基于固定的 UI 不同,Agent 可以借助AI编码能力,在线、动态地创建任务所需的新工具,甚至即时构建新的垂直智能代理,并根据具体任务需求实时生成相应的用户界面。
通过以上对比,我们可以看到,智能计算正沿着与指令式计算高度平行的路径,构建起“大模型-AgentOS-垂直智能代理”的三层技术架构。这一架构将为实现更复杂、更自主的智能能力提供坚实的技术底座。
从人机关系的演化看 AI Agent 软硬件形态的发展
在前两部分,我们分别参照了生物智能和计算架构的演化路径,粗略分析了 AI Agent 能力发展和技术实现的方向。这一部分将从人机关系的演化出发,更具体地讨论 AI Agent 将以什么样的形态呈现。
未来很难预测。因此,我们先确定一个人机关系演化的基本原则,基于此构建思考框架,再从这个框架出发,展开对终端设备、操作系统和应用软件形态的具体讨论。
原则:在越来越抽象的层面满足人类需求
乔布斯在 40 年前对计算机的发展做过总结:“过去 20 年里,我们在越来越高的抽象级别使用计算机”。最初通过打孔纸带和按钮的机器语言处于最底层,是完全适应机器的二进制码;汇编语言虽然与机器码一一对应,但具备了一定的语义,编程变得相对容易;高级语言则更接近人类的自然语言,具备更高的表达能力和效率。
这一总结在今天仍然适用,可以作为理解 AI Agent 继续发展的原则:
从机器码到高级语言,人类需要学习机器的语言,逐步指挥计算机完成具体指令,即“如何做”(how to do)。此时的人机关系是人调用工具。
到了大模型阶段,人类第一次可以不用关心底层实现过程,而是通过自然语言下达一个明确的任务,即“要做什么”(what to do)。这标志着机器的定位从“工具”转变为“助手”:人类将理解、分析等认知活动委托给机器。
目前的 AI Agent 阶段更进一步,用户不再委托一个孤立的任务,而是可以表达复杂的意图,即“我想要什么”(what I want)。由机器理解意图、规划任务、然后调用资源并完成执行。
沿着这一趋势,AI Agent 将继续在更高的抽象层级上满足人类需求。当需求足够抽象,以至于可以表达为一种“角色”(who you are)--比如“旅行管家”--人机关系也将达到质变的“奇点”,从委托变成授权:人类授权机器在某个角色身份下自主决策和行动,机器可以自主决策、主动发起行动、持续与环境互动,甚至在必要时向人类指派任务。这标志着人机共生时代的到来,AI Agent 可以在数字甚至物理世界中持续为人类创造价值。
以旅行规划为例,任务级AI可以处理的需求是“帮我预定一张明天去上海的机票”,这是一个边界清晰、一次性的任务。给意图级 AI 的需要是“我想策划一次暑假去欧洲的家庭旅行”,这需要机器分解任务,但目标仍然是具体的、有终点的。对于角色级 AI,我们可以授予机器一个持续的角色:“从现在起,你是我的家庭旅行管家”。AI 会进入持续服务的状态,会在发现最佳旅行时机时(比如结婚纪念日和目标航线打折),主动发起旅行建议并规划行程供人类决策。
思考框架:更好地理解 & 更好地执行抽象意图
对应人类需求的逐步抽象,人机交互的重心从“操作”转向“表达”:从最初对执行细节的精确控制(指令级),逐步转向对目标的描述(任务级),再到如今对更抽象意图的表达(意图级),最终演进为对机器角色的直接定义(角色级)。交互方式也随着改变:从物理指令(打孔纸带、按钮)、程序命令和图形界面(鼠标、多点触控),发展到更自然的自然语言和多模态交互,直至融合手势、位置等全情境信号的环境交互。在环境交互阶段,系统可能不再依赖明确的交互界面,而是通过持续感知环境和用户状态来进行交互。
对应的,机器的定位从“执行”上升到“理解+规划+执行”,并最终走向“自主决策和持续行动”。为了支撑这种定位的升级,终端设备、操作系统和应用软件的形态也在不断变化:终端设备从最早的机械计算机,到个人电脑、智能手机,再向AI原生终端演化,并最终可能发展为无处不在的空间计算平台。操作系统从面向硬件资源调度的命令行 OS、桌面 OS 和移动 OS,转向对模型、记忆等智能资源的组织与服务的 AgentOS,最终演变为管理多智能体社会关系的社会化 AgentOS。应用软件则从满足明确需求的应用程序,逐步演变为能完成复杂委托任务的智能代理,最终发展为被授权具备社会身份的社会智能体。
AI Agent 软硬件发展的线索是:更好地理解抽象意图+更好地执行抽象意图”。在“理解”层面,需要获取尽可能完整且实时的任务上下文;在“执行”层面,需要更好地整合硬件资源、大模型能力和各类工具服务,实现对用户意图的精准响应。这为讨论智能终端设备和操作系统的形态提供了一个基本框架。以下基于这一框架,探讨一种可能的发展路径。
智能终端设备担任着将 AI 接入物理世界的角色。头部科技公司在布局大模型的同时,也在发展自己的硬件生态:苹果有 iPhone 和 Vision Pro、谷歌有 Pixel 和眼镜、Meta 在发展眼镜和手势硬件、亚马逊通过 Echo 连接智能家居等。
OpenAI 最近收购了苹果前首席设计官 Jony Ive 的智能硬件公司 LoveFrom,也要打造自己的 AI 原生终端设备。Sam Altman 描绘了一个很有意思的场景:“如果你订阅了 ChatGPT,我们会寄给你一台专用的终端设备,你通过使用这个设备来使用 ChatGPT。”
从硬件的发展规律看,智能手机仍会在较长时间内是主要的终端设备。其在屏幕显示、移动计算和网络连接等方面有不可替代的优势。但同时,会有新的AI原生终端设备出现,但它们与手机/PC 不是竞争关系,而是会形成互补。
手机本身,尤其是其操作系统,将逐步向支持 AI Agent 的方向进行优化。例如,未来的手机可能会更注重意图识别、任务调度和跨设备协同能力。但短期内不会消失,而是会发展成为“边”上的智能中枢。
更好地理解抽象意图:暴露传感器,感知上下文
要理解用户的抽象意图,需要结合物理环境上下文与数字行为上下文。比如,当用户说“我有点累了”,理解这一抽象意图需要的信息可能包括:
(1) 物理上下文:当前时间(晚上 9 点)、用户所处的位置(在家还是办公室)、环境噪声(是否安静)、用户生理状态(如佩戴设备检测到的心率偏高、步数异常少)、光照情况等。
(2) 数字上下文:日程中是否还有未完成的重要任务、近期连续加班的记录、用户偏好中“疲惫时希望调整日程”这一习惯、历史上“我累了”时系统的默认处理等。
其中的物理上下文主要依靠终端设备的传感器获得。只有能持续获取这两个维度的上下文,Agent 才可能做出合理响应:如推迟今晚的日程、播放冥想音乐、关闭信息通知,并提醒用户明早的安排等。
目前的智能手机虽然内置了多种传感器(如加速度计、陀螺仪、麦克风、摄像头等),但由于体积和佩戴方式的限制,它无法始终暴露在环境中,难以持续捕捉物理上下文的变化。
新的 AI 原生终端设备,需要具备两个特征:
(1) “全”:全面感知。能够感知用户的手势、语音语调、表情、语境、生理信号等。
(2) “久”:始终在线。轻便易佩戴,且具备低功耗、长续航的特点,能够持续运行,随时响应,支持长程对话与连续交互。
一种可能的设备形态是胸针、夹子或纽扣:
(1) 轻便、可轻松固定在衣物上,使麦克风与摄像头等传感器始终面向外部环境,持续采集语音、动作、环境光等信息;
(2) 没有屏幕,不依赖视觉交互,专注于上下文感知,依托手机/PC 进行结果呈现。大多数时候 AI Agent 之间可以直接通信和协作,无需 GUI 界面;只有在需要人类确认或查看结果时,才借助手机的屏幕展示信息。
由 Lovart 生成
反观前不久失败的 AI 原生硬件产品—如 AI Pin 和 Rabbit R1--都试图独立于手机的主设备生态而存在。AI Pin 提供了一套独立的全息投影 GUI,导致显示模组过于笨重、功耗与散热失控;而 Rabbit R1 则想整体替代手机,忽视了用户对现有手机生态、习惯与功能的依赖。
因此,新的AI原生终端可能不是颠覆现有设备,而是围绕“更好地理解用户意图”这一目标,与手机、PC 等已有设备协同发展、优势互补。
更好地执行抽象意图:端-边-云协同
为了更好地执行用户的抽象意图,终端架构将向“端-边-云”协同的方向发展。“端”是 AI 原生终端,作为感知和交互的入口;“边”是智能手机/PC 或其他边缘设备,承担任务协调与中等复杂度的推断计算,并提供显示和网络连接等能力;“云”则作为认知中枢,负责运行基础大模型、调用外部工具和服务,并处理复杂的任务链。
作为边缘节点的智能手机不再只是通信工具或内容消费设备,而是成为连接“端”与“云”的枢纽,因而需要具备更强的异构计算和多设备协同能力。一方面,手机芯片将集成更强大的 AI 能力,为端上的 AI 原生终端提供延申的算力。另一方面,手机需要配备更高带宽的网络连接模块,以保障与端侧设备的稳定实时通信。
此外,手机的摄像头、屏幕、扬声器等 I/O 模块不再只由用户来操作,而可能重新面向 AI Agent 设计,由 AI Agent 根据任务需要进行调度。比如在语音交互过程中提供视觉或听觉层面的辅助反馈,实现更自然、高效的人机协作体验。
PC、手机、AI 原生终端将构成一个人的完整智能生态:
(1) PC:处理相对复杂的生产力任务;
(2) 手机:作为移动计算和通信的中枢;
(3) AI 原生终端:作为与物理世界持续连接的桥梁,时刻感知环境、理解上下文,让其他设备能更智能、更主动地服务。
随着终端设备形态的改变,智能操作系统的交互和执行逻辑也要跟着变化。特别是手机和 PC 这类具备完整交互界面的终端上,操作系统不再只是应用的调度平台,而变成智能代理系统的中枢:负责理解用户意图,并协调模型、工具和垂直智能代理来执行意图。
更好地理解抽象意图:从“幕后”到“台前”
在指令式计算架构下,用户交互的主要入口是网页、软件和 App 等应用层。但在智能计算架构中,OS 将成为用户表达意图的核心界面--即便不是唯一入口,也会是最主要的起点。
具体来说,任务发起可以有两种主要形式:
(1) 在 Agent OS 层表达意图,OS Agent 负责理解意图、规划任务、并协调多个垂直 Agent 或直接调用工具来完成任务。
(2) 以垂直 Agent 为入口,这个 Agent 会自行判断是否需要调用其他工具或与其他 Agent 协作。
这种变化也将重构操作系统的 UI。应用层会只保留几个核心 APP,作为垂直 Agent 的独立入口。这其中可以包含用户定制的、满足特定需要的垂直 Agent,比如给孩子批改作业的 Agent:拍摄作业、识别错误点,标注和讲解错误原因。而多数应用会退化为服务接口,供 ChatUI 形式的 OS Agent 在需要时调用。
由 Lovart 生成
为了更好地理解抽象意图,操作系统还需要具备强大的上下文整合能力。智能操作系统需要提供一种突破应用生态“数据孤岛”的解决方案,具备在数字世界中统一访问、组织、引用各类数据的能力,比如同时调用日历、邮件、文件系统和第三方 App 信息来判断某个任务的优先级和执行路径。
同时,OS 还要打通物理世界的感知数据,具备跨终端感知能力,能统一处理来自AI原生终端、可穿戴设备、智能家居等多种来源的数据。实现全场景的物理+数字上下文融合,支持更完整、准确的意图理解。
此外,为了支持终端设备持续感知、随时响应的能力,Agent 操作系统层需要支持常驻智能体。这些智能体常驻后台运行,具备状态记忆、上下文追踪和事件触发能力。
更好地执行抽象意图:面向 AI Agent 重构
为了将用户的抽象意图转化为可执行的行为,智能操作系统需要协调多种智能资源,包括长期记忆库、知识图谱、大模型、垂直 Agent 以及各类工具接口等。在第二部分介绍 AgentOS 的发展路径时,我们讨论了这一层的主要职责。在此基础上,我们进一步聚焦于当前 Agent 的两种主要构建范式:基于工作流与基于模型。回顾传统操作系统的发展,有助于更好地理解这两种方法的差异和适用场景。
在指令式计算架构中,最初通过汇编语言直接编写面向硬件的操作指令,每一步行为都需手动设计、显式调用,类似今天基于工作流的 Agent 构建方式。开发者明确指定每个执行步骤的触发条件、调用顺序与控制结构。这种方式具备高度可控性与可解释性,但抽象层级低,缺乏灵活性。
基于模型的 Agent 构建方式则更像是使用高级语言编写程序。它不再依赖显式的流程定义,而是通过大模型理解用户意图后,自动生成任务序列,并动态调用合适的工具或子 Agent 来完成目标。这种方式抽象级别更高,能够应对模糊、多变的用户请求,也更适合开放环境下的复杂交互。
当然,正如今天仍有少数高性能、底层控制场景仍依赖汇编语言(如芯片驱动、安全模块、资源极限计算任务),基于工作流的 Agent 构建方式在某些精度要求高、资源受限或强安全性的场景中依然不可或缺。例如工业自动化、合规流程审批或关键业务节点等,需要明确且稳定的执行路径,适合用工作流显式描述。
最后来讨论智能操作系统的结果呈现形态。传统操作系统的界面是为人类操作设计的:窗口、图标、按钮、触屏手势等 UI 元素,目的是帮助人类完成具体指令操作。而在 AgentOS 中,核心交互逻辑转向面向 AI 的任务协同,UI 主要承担两个功能:表达意图的入口,和展示结果的出口。
随着 AI Coding 能力不断增强,智能操作系统可以根据当前任务动态生成最合适的 UI 界面。就像浏览器加载网页时自动进行布局与渲染一样。这样的 UI 是任务驱动和结果导向的,由系统按需渲染、临时创建、用完即消失。
由 Lovart 生成
当操作系统 UI 不再聚焦复杂的人机操作,而是专注于精准传递意图输入和结果输出,才能成为人和 AI Agent 之间高效沟通的媒介,支撑越来越抽象的意图理解和执行。
Andrej Karpathy 在 YC 的 AI Startup School 演讲中,将软件的发展划分为三个阶段:1.0 的手工显式编写,2.0 的通过数据训练生成神经网络,以及今天基于大模型的 3.0,即基于提示词的自然语言编程。
来源:Andrej Karpathy《Software in the Age of AI》
我们在 Karpathy 总结的基础上,结合 AI Agent 的最新进展和未来可能发展方向,进一步延伸出软件 3.5 和软件 4.0 两个新阶段。
软件 1.0:核心是显式编程。开发者通过机器、汇编或高级语言,将指令级的需求明确编码,再由编译器构建出应用程序,最终在进程执行环境中执行 。
软件 2.0:通过准备训练样本的方式来表达任务级抽象。例如,要训练一个排序模型,需要准备排序前和排序后的样本对。训练得到的神经网络模型,在 TensorFlow、PyTorch 等深度学习推断框架上运行。要注意的是,软件 1.0 只能实现类似排序这种程序员可以明确指令的任务。而从 2.0 开始,引入模型使计算机能够处理那些无法通过编程直接实现的模糊问题,比如人脸识别。
软件 3.0:以大模型为核心,用户可以直接通过自然语言表达需求。软件载体呈现两种形态:一种是由大模型作为编程工具显式生成代码,再经过编译获得应用程序;另一种则是通过上下文学习(In-context Learning),将即时配置后的大模型本身作为软件载体(ICL 大模型)来直接完成任务。
软件 3.5:即智能代理阶段。在人机关系上与 3.0 都属于“委托”,但需求抽象提升到了意图级。用户通过智能代理开发平台,将复杂的个人意图构建为定制化的垂直智能代理。运行环境 AgentOS 则负责提供任务规划、工具调用和记忆管理等必要的 Agent 运行时能力 。
我们可以清晰地看到 3.5 阶段的软件服务与传统软件之间的区别。从满足的需求上看,传统软件往往只能覆盖高频、标准化、静态的需求场景,而垂直 Agent 可以深入处理长尾、个性化、动态的问题,甚至应对用户在上下文中临时提出的复杂任务。从使用方式上看,软件形态正从原本用户需要手动操作、流程式控制的“面向过程”式的软件界面,转变为“面向结果”:用户只需表达意图,Agent 即可自动规划、执行所有中间过程,并交付最终结果。
软件 4.0:即社会智能体阶段。此时 AI 不再是仅仅执行任务的代理,而是在角色级需求定义下,被授权在特定领域内自主决策和行动的主体。用户通过社会智能体建模平台,构造社会智能体运行的环境、角色与边界规则。
这一阶段的软件形态,也与这部分之前讨论的操作系统与终端形态相对应。对应的操作系统是社会化 AgentOS,不仅要支撑单个 Agent 运行,还需要提供身份信用管理、环境共享、社会规则引擎等群体管理功能。而对应的交互载体,可能不是某个终端设备,而是能够融合多种终端、实现全域环境感知的空间计算平台。
基于以上软件阶段的划分,接下来,我们聚焦当前应用软件的主要形态--SaaS,一起看一下从软件 3.0 向 3.5、乃至 4.0 迈进的过程中,垂直领域的 SaaS 产品可能呈现出的理想发展轨迹。
SaaS 产品向 AI Agent 的演化,可以看作一个从提供标准工具,到赋能定制化服务,再到构筑领域生态的过程。可以分为三个主要阶段:
Agent 化:主要变化是从传统的、基于点击的图形界面,转向更自然的对话式界面。同时,SaaS 厂商开始内嵌预设的智能助手,将原本用户手动操作、信息查询的功能,升级为“目标导向+自动执行”的智能服务。比如,投顾领域的 SaaS 可以研发“研报分析 Agent”、“资产配置 Agent”或“市场情绪追踪 Agent”。这些预设 Agent 具备自然语言对话界面,能够理解高阶目标,完成任务规划、工具调用并交付最终结果。
平台化:随着需求复杂度提升,预设 Agent 已无法覆盖所有场景。此时,可以将内部用于构建标准 Agent 的核心能力,转变为一个开放的能力底座,对外提供服务。包括包括预设的专业工作流模板、将标准功能和数据源封装好的工具集等。基于这个开放平台,用户可以接入自有知识库、专有数据源和专业工具(如策略模型),构建出高度定制化的专属 Agent。
生态化:当定制 Agent 数量和种类足够丰富后,平台可以转向构建一个垂直领域的智能体操作系统,支持生态内不同参与者进行 Agent 资源的共享、分发与价值交换。这一生态可以以两种互补的形态呈现:
(1) 2B 的市场化,仿照 App Store 模式,为专业开发者和机构提供一个发布、订阅和销售其专业 Agent 与工具的 Agent 商店;
(2) 2C 的社区化,类似 AI Agent 版的小红书/GitHub,支持普通用户在创作者社区中发布、分享和订阅轻量级 Agent,并进行二次创作。这两种形态可以底层的基础设施,包括模型底座、工具接口、信用体系等,但面向不同用户群提供差异化的 UI,并可通过跨平台分享的方式实现互通。可以预见,这一阶段将会同时出现由核心厂商主导的闭源生态,以及由社区驱动的开源 Agent 生态,共同推动垂直领域的智能化进程。
从不断演进的人机关系出发,我们观察到终端设备正在从智能手机向 AI 原生终端和空间计算平台演化,操作系统也正重构为以智能调度和意图理解为核心的 AgentOS,而应用软件则迈向基于垂直 Agent 的、具备更强自主性和协作性的智能体体系。这些软硬件形态的变迁,正是为了在更高抽象层级上理解人类意图、释放机器智能。
回顾整篇文章对 AI Agent 发展路径的讨论,从能力、技术架构到软硬件形态的逐层演进,背后似乎遵循着一条更为基本的演化规律,可以称之为“智能的尺度定律”:一个智能系统所能有效应对的复杂性尺度,决定了其智能的层级。
从生物智能的角度,这一定律体现为表征(可处理的数据和信息量)、执行(工具使用和逻辑推理)和协作(社会关系层级)三个维度的持续扩展。从计算架构的角度,它表现为后端“执行深度”的增长:机器自主完成的操作链条越来越长、执行逻辑和流程越来越复杂。从人机关系的角度,这一定律体现为前端交互抽象层级的提升:从 how to do 到 who you are,人类用更少的信息,调动更大尺度的智能资源。
生物智能、计算架构和人机关系的演化过程,为我们理解 AI Agent 的发展提供了一个参考系。从“后视镜”里找规律和相似点总是容易的。但在向前看时,一方面要敏锐判断未来究竟会压什么“韵脚”,另一方面要充分考虑生物智能与机器智能之间、指令式计算架构与智能计算架构之间的底层差异。
生物智能进化由自然选择驱动,充满偶然性。而机器智能的发展,目前主要由人类的意图和工程实现驱动,目标性更强,迭代速度也更快,因此有可能跳过某些生物智能发展的阶段。同样,指令式计算以确定性和逻辑驱动为核心,强调结果的唯一性和可复现性;智能计算则是概率性、上下文驱动的,其结果往往是生成式、非唯一的,更侧重在不确定性中进行推理、自我调整和反馈。
此外,从人机关系的角度,本文关于计算架构和软硬件形态的讨论,仍然聚焦“以人为中心”的智能代理阶段。当真正进入“以 AI 为中心”的阶段,如人机共生的社会智能体和自治智能体,AI Agent 的形态和技术实现将变得更加模糊和不可预测。在讨论这个更远的未来时,应保持足够的开放性:我们面对的,不只是一个更聪明强大的工具,而是可能拥有自主行为逻辑和高阶目标的新型智能主体。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-01
从8万+数据源提炼洞察,ChatGPT+Zilliz +LangChain如何成创新药研发新范式
2025-07-01
MPC安全之魂:承诺方案技术深度解析
2025-07-01
一文解读小白怎么快速搭建一个基于MCP协议的AI agent应用
2025-07-01
ZeroSearch:在不进行搜索的情况下激励大语言模型的搜索能力
2025-07-01
腾讯大模型应用演进之路:从 RAG 到 MCP 的技术实践
2025-07-01
从理论到应用:AI搜索MCP的最佳实践案例解析
2025-07-01
如何用“图增强 RAG”提升中文问答体验
2025-07-01
巨头混战Agent,押注背后是真未来还是新泡沫?
2025-05-29
2025-04-11
2025-04-12
2025-04-06
2025-04-29
2025-04-12
2025-04-29
2025-04-17
2025-05-07
2025-05-07
2025-07-01
2025-07-01
2025-07-01
2025-07-01
2025-06-30
2025-06-30
2025-06-30
2025-06-27