支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


当操作系统遇见智能体,OS Agent和AgentOS驱动的人机交互变革及启示

发布日期:2025-07-09 08:19:17 浏览次数: 1528
作者:天翼智库

微信搜一搜,关注“天翼智库”

推荐语

当操作系统与智能体深度融合,人机交互将迎来革命性变革,OS Agent和AgentOS正引领这一浪潮。

核心内容:
1. OS Agent如何通过三大关键要素实现通用控制
2. AgentOS如何通过深度集成突破落地阻碍
3. 两种技术路径对人机交互未来的深远影响

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

AI Agent能够自主使用工具,操作系统为应用(工具)运行提供环境,操作系统智能体(OS Agent)和智能体操作系统(AgentOS)应运而生。前者侧重基于现有操作系统发挥Agent的能力,是“外接型”轻量适配;后者侧重重构操作系统使其原生支持Agent,是“内置型”深度集成。无论外接还是内置,OS与Agent的碰撞都将把人机交互推向新纪元。

OS Agent:让Agent“能用”操作系统和应用

根据浙江大学联合OPPO、零一万物等十个机构发表的综述1OS Agent能够通过操作系统提供的环境和接口(如图形用户界面,GUI),在电脑或手机等计算设备上自动完成各类任务。Claude的Computer Use功能、Apple Intelligence、智谱AI的AutoGLM和Google DeepMind的Project Mariner等均属于OS Agent。

OS Agent通过与操作系统提供的环境和输入/输出接口交互实现对计算设备的通用控制,依赖三大关键要素:一是环境,即Agent可操作的系统或平台,如电脑、手机和浏览器等;二是观察空间,即Agent可获取的所有信息范围,如屏幕截图、文本描述或GUI界面结构等,是Agent理解环境和任务的基础;三是动作空间,即Agent与环境交互的动作集合,定义了Agent可执行的操作,如点击按钮、输入文本、菜单导航和调用API等。

基于上述关键要素,OS Agent在理解、规划和操作等自身核心能力的支持下即可正确有效的与操作系统交互。其中,理解要求OS Agent从HTML代码、屏幕截图,以及屏幕界面中密集的图标和文本信息中提取关键内容,构建对任务和环境的全面认知;规划要求OS Agent将复杂任务拆解为多个子任务并制定操作序列,同时最好能够据环境变化动态调整计划;操作要求OS Agent将规划转化为具体的、可执行的操作,实现从文字描述到落地执行的精准转换。

AgentOS:让Agent“用好”操作系统和应用

1.深度集成帮助AgentOS突破落地阻碍

微软牵头发表的论文2指出,微软UFO、Claude的 Computer Use功能和 OpenAI 的Operator等基于大模型的计算机智能体(Computer-Using Agents,CUAs),即OS Agent,存在缺乏操作系统层面的集成、对应用特定功能认知有限、多采用破坏性和不安全的执行模式(如劫持鼠标和键盘)等问题,在实际环境中的部署应用受到制约。对此,微软将Agent与Windows操作系统深度集成,推出并开源名为UFO2的AgentOS,将任务编排、运行自检、控制执行和Agent协作等以系统级服务的形式呈现。

图片来源:《UFO²: The Desktop AgentOS》

UFO2采用多智能体架构,包括一个中央HostAgent和一系列应用专属AppAgent。其中,HostAgent 负责将用户请求分解为子任务,检查子任务对应的应用是否正在运行并启动未运行的应用,为活跃应用创建相应的AppAgent等;AppAgent 针对应用定制,深度了解各应用的API接口、控件语义和领域逻辑,通过持续观察应用状态、推理下一步操作和调用适当动作等执行子任务。

通过与Windows深度集成,UFO2实现了较CUA/OS Agent更为高效、准确、稳定和安全的操作。支持根据操作环境与任务特性动态选择通过API还是GUI执行,良好平衡效率与通用性;二是通过将Windows UIA(UI Automation)接口与先进视觉识别模型结合使用实现更加精准的界面元素感知,有效提高控件识别的准确性与覆盖率;三是整合应用文档和执行日志构建动态知识库,保障高效准确执行任务;四是采用推测式多步预测机制减少模型调用次数以降低延迟,并通过实时界面状态校验提升鲁棒性;五是利用Windows原生远程桌面协议(RDP)回环技术为Agent创建独立安全的虚拟桌面,避免对用户主桌面产生干扰。

2.开放共建帮助AgentOS加速规模化进程

华为发布的白皮书3将鸿蒙智能体定义为两类,一是系统智能体,即小艺,可以充分结合操作系统底层能力,为用户提供体系化、可扩展的智能能力;二是领域/应用智能体,具有特定领域的专属知识和工具,更擅长闭环垂域任务。类比微软UFO2,系统和领域/应用智能体可分别对应Host Agent和App Agent。

领域/应用智能体与应用强关联,发动应用厂商构建能与系统智能体高效协作的领域智能体将有效促进AgentOS发展壮大。华为因此开放鸿蒙智能体框架(HMAF),帮助合作伙伴和开发者开发智能体,将智能体和应用深度集成,实现智能体与操作系统的深度交互。目前,微博、喜马拉雅、ChatExcel、大众点评、深圳航空、京东、小红书等超过50个先锋鸿蒙智能体已全面启动开发。

OS Agent与AgentOS驱动的人机交互变革与启示

从DOS命令行,到Windows和macOS的图形界面,再到iOS的触控互动,操作系统始终是以技术突破革新人机交互的重要载体。随AI Agent自主能力持续进化,人机交互方式又将被重新定义,机器的响应方式将从根据人类指令被动服务发展为领会人类意图主动服务。操作系统的深度参与对于这一进程而言既是加速器也是目的地。未来5~10年,AI Agent市场规模将以40%以上的增速扩张,在2030年和2035年分别达到约500亿和2000亿美元。其中,能够让Agent充分施展能力的AgentOS势必成为主战场。

操作系统作为中枢,每一次演进都将搅动软硬件生态。建议设备厂商密切关注OS Agent和AgentOS发展,评估其对计算、存储、显示、通信、电源、传感器、输入/输出等的新要求;应用厂商和开发者及时跟进AgentOS开源项目和开放框架等,推进Agent与操作系统/系统智能体协同共生。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询