我要投稿

Agent S：像人类一样使用电脑的AI来了！

发布日期：2024-10-27 19:41:34 浏览次数： 2824

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

研究人员开发出了一个能像人类一样使用电脑的AI系统！

这个名为Agent S的系统，通过将复杂的桌面任务分解成易于管理的小步骤，并记住有效的操作方法，成功实现了在不同系统上处理各种桌面任务的能力。这项突破性研究为AI自动化复杂计算机任务开辟了新天地。

Agent S：AI界的"电脑高手"

Agent S采用了一种名为"经验增强分层规划"的方法，让它能够更好地处理各种图形用户界面（GUI）任务。这种方法主要包含三个关键组件：

管理器模块：负责将复杂任务分解成子任务，利用网络知识和叙事记忆来制定整体计划。
工作者模块：执行具体的子任务，依靠情景记忆和轨迹反思来完成操作。
自我评估器：将经验总结为文本形式的奖励，并更新叙事和情景记忆。

这种结构使Agent S能够像人类一样，逐步学习、积累经验，并不断提高自己的操作技能。

为什么Agent S如此与众不同？

传统的AI系统在处理复杂计算机任务时面临三大挑战：

获取各种应用程序的专门知识
规划长期任务
应对动态、非统一的界面

Agent S通过其独特的设计巧妙地解决了这些问题。它不仅能够理解任务，还能制定合理的执行计划，并在动态变化的界面中灵活应对。

Agent-Computer Interface：AI与计算机的"神经接口"

研究团队还开发了一个称为Agent-Computer Interface（ACI）的抽象层，进一步提升了Agent S的性能：

双输入策略：结合视觉输入和图像增强的可访问性树，既能理解环境变化，又能精确定位界面元素。
有界动作空间：定义了一组基于语言的原语操作，有利于多模态大语言模型（MLLM）进行推理。
适当的环境转换：生成合适时间分辨率的环境反馈，便于观察即时结果。

这些创新使Agent S能够更好地"理解"和"操作"计算机界面，就像一个熟练的人类用户一样。

惊人的实验结果

研究团队在多个benchmark上测试了Agent S的性能，结果令人振奋：

在OSWorld基准测试中，Agent S达到了20.58%的成功率，相比基线方法提升了83.6%。
在五个计算机任务类别中，Agent S都表现出了持续的改进。
在WindowsAgentArena测试中，即使没有专门适应，Agent S也取得了18.2%的成功率，比基线方法提高了36.8%。

Agent S 不仅能够执行预定义的任务，还能通过持续学习来适应新的任务和环境。这种能力对于提高办公效率、自动化测试、以及开发更智能的数字助手都具有重要意义。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-21

从提示 Agent 到循环工程

2026-06-21

微信小微，几个要点

2026-06-21

AI 也会做梦？拆解 OpenClaw 独特的梦境记忆系统

2026-06-21

[译] 我所知的全部智能体工程技巧

2026-06-20

13人团队叫板Anthropic：我们造了一个更快更便宜的大模型

2026-06-20

微信左上角长出“两只眼睛”：小微测试版，可能是微信 AI 化最关键的一步

2026-06-20

Agent Skill 管理范式探索：像管理软件包一样管理 Agent 能力

2026-06-18

企业智能体的下半场，如何让智能体越用越聪明？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw