微信扫码
添加专属顾问
我要投稿
研究人员开发出了一个能像人类一样使用电脑的AI系统!
这个名为Agent S的系统,通过将复杂的桌面任务分解成易于管理的小步骤,并记住有效的操作方法,成功实现了在不同系统上处理各种桌面任务的能力。这项突破性研究为AI自动化复杂计算机任务开辟了新天地。
Agent S采用了一种名为"经验增强分层规划"的方法,让它能够更好地处理各种图形用户界面(GUI)任务。这种方法主要包含三个关键组件:
管理器模块:负责将复杂任务分解成子任务,利用网络知识和叙事记忆来制定整体计划。
工作者模块:执行具体的子任务,依靠情景记忆和轨迹反思来完成操作。
自我评估器:将经验总结为文本形式的奖励,并更新叙事和情景记忆。
这种结构使Agent S能够像人类一样,逐步学习、积累经验,并不断提高自己的操作技能。
传统的AI系统在处理复杂计算机任务时面临三大挑战:
获取各种应用程序的专门知识
规划长期任务
应对动态、非统一的界面
Agent S通过其独特的设计巧妙地解决了这些问题。它不仅能够理解任务,还能制定合理的执行计划,并在动态变化的界面中灵活应对。
研究团队还开发了一个称为Agent-Computer Interface(ACI)的抽象层,进一步提升了Agent S的性能:
双输入策略:结合视觉输入和图像增强的可访问性树,既能理解环境变化,又能精确定位界面元素。
有界动作空间:定义了一组基于语言的原语操作,有利于多模态大语言模型(MLLM)进行推理。
适当的环境转换:生成合适时间分辨率的环境反馈,便于观察即时结果。
这些创新使Agent S能够更好地"理解"和"操作"计算机界面,就像一个熟练的人类用户一样。
研究团队在多个benchmark上测试了Agent S的性能,结果令人振奋:
在OSWorld基准测试中,Agent S达到了20.58%的成功率,相比基线方法提升了83.6%。
在五个计算机任务类别中,Agent S都表现出了持续的改进。
在WindowsAgentArena测试中,即使没有专门适应,Agent S也取得了18.2%的成功率,比基线方法提高了36.8%。
Agent S 不仅能够执行预定义的任务,还能通过持续学习来适应新的任务和环境。这种能力对于提高办公效率、自动化测试、以及开发更智能的数字助手都具有重要意义。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-13
蚂蚁数科宣布:支持企业客户按大模型应用效果付费
2025-09-13
阿里Qoder IDE进行AI辅助编程的简单验证
2025-09-13
Docling将pdf转markdown以及与AI生态集成
2025-09-13
Claude Code 为何如此强大?Anthropic 万字长文揭秘 AI Agent 工具开发五大“心法”
2025-09-12
从“代码补全”到“知识对齐”:Qoder Repo Wiki 迎来重磅升级
2025-09-12
基于智能体的自适应资损防控体系 - 淘工厂实践(二)
2025-09-12
运维老王:创业第十年,我用Elevo找回内心翻腾的梦想
2025-09-12
大模型可观测1-5-10:发现、定位、恢复的三层能力建设
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-19
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-07-04
2025-09-12
2025-09-11
2025-09-11
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07