顶级模型职场任务完成率不到4%，AI离抢饭碗还差得远！

发布日期：2026-05-26 07:36:47 浏览次数： 1677

作者：算泥

微信搜一搜，关注“算泥”

AI助手被媒体吹得无所不能。大家开始憧憬，让这些Agent走进办公室，登录各种SaaS（软件即服务）系统，帮我们处理报销、管理库存或者分析财务报表。

然而，最强的AI智能体在面对真实的职业工作流时，任务完成率竟然不到4%。

最近UniPat AI、北京大学等机构发布了SaaS-Bench基准。

这项研究把市面上最顶尖的AI模型都拉到了真实的办公软件环境里。

研究人员给它们准备了23个真实的SaaS系统，涵盖了财务、医疗、管理等6个职业领域。结果发现，要让AI真正干活，还差得远呢。

UniPatAI是一家专注于让AI不仅能“说”，更能“做”的初创公司。

公司目标是让AI具有可验证、可执行、与结果挂钩的真实操作，从科研和预测这两个高壁垒领域入手，加速AI向现实世界自动化演进。其核心成员来自通义千问、Kimi、小米和字节Seed等团队，在构建推理模型和复杂决策系统方面经验丰富。

下面我们就通过这份研究，看看目前的AI智能体在真实职场中到底遇到了哪些迈不过去的坎。

真实工作不是点网页

过去几年，科技圈对能操作电脑的Agent抱有极大期望。机器不仅能回答问题，还能主动出击，代替人类打开浏览器，敲击键盘，点击按钮。

从被动理解语言走向主动执行复杂动作，业界将Agent视为通向未来的必由之路。

人们总是容易高估点点鼠标和真正做完一项工作的区别。

在真实的职场环境里，工作很少在同一个页面里点几下就能结束。一项平凡无奇的财务报销，通常始于CRM（客户关系管理）系统里的审批，中间需要穿梭到人力资源后台核对出差数据，最后在复杂的财务软件里完成入账，还要顺手发一封通知邮件。

面对环环相扣的过程，难点根本不在于人工智能能否找到发亮的确认按钮。

真正的考验在于，Agent必须在横跨多个软件的长途跋涉中保持清晰的意图，记住上一步拿到的数据，应对随时弹出的报错提示，还要确保最终产出的结果能通过严格的审计。

以往的测试题太简单了。

开发者在做系统测验时，经常拿高度简化的孤立网页，或者仅仅包含三五个步骤的模拟小任务来充数。

Agent在温室环境里轻轻松松拿到高分，让人误以为马上就能走进格子间顶替高级白领。真把机器拉进企业真刀真枪在用的系统里，滤镜瞬间碎了一地。

为了搞清楚人工智能到底具备多少真正的职场战斗力，研究团队精心打造了SaaS-Bench。

一个专为审视Agent真实工作能力量身定做的测试基准，包含了23个真实可部署的SaaS（软件即服务）系统。软件横跨6大硬核专业领域：软件工程与项目管理、商业运营与财务、医疗行政、团队协作与文档工作流、农业供应链、独立媒体创作。

为了还原最真实的职场折磨，测试库内置了106个逼真的工作任务。有74个纯文本任务，还有32个需要看图看文档的多模态任务。高达93%的任务要求跨越至少两个以上的应用程序，一半以上的任务更是要在三个不同的软件间反复横跳。

最折磨人的是，任务的平均操作步骤远超100步。

新测试库在环境真实度、跨应用协同和长链路执行三大核心维度上，把以往的玩具级测试彻底颠覆。自带真实的数据库、真实的用户权限密码和极度死板的商业运行逻辑。

上面圆环图展示了任务的复杂构成。最外圈密密麻麻的应用图标，代表了每一个打工人日常必须面对的枯燥软件。从开源的医疗记录系统OpenEMR（开源电子病历系统），到复杂的财务工具BigCapital（开源财务软件），再到文档处理神器OnlyOffice（办公套件），每一个领域的应用都被深度卷入。

条形分布图更直观展示了任务漫长得令人发指。绝大多数文本任务都在100步之上，部分任务的执行轨迹甚至逼近了400步的极限，彻底告别点三下就交差的过家家模式。

看起来很美但没完成

为了公平公正，测试人员把Agent扔进装满各种应用系统的虚拟容器里。

软件统统被Docker固化，并且锁定了版本和初始配置。每次开始新任务前，所有的数据库和缓存都会被冷酷重置到最初始的干净状态，保证所有的模型都在同一条起跑线上。

Agent只能像最普通的实习生那样，盯着屏幕渲染出来的DOM树结构和截图，用鼠标键盘一步步点敲。任何走后门调取后台接口或者偷偷查看数据库的作弊行为全被封杀。

面对冗长的任务，研究团队定下了两种极为苛刻的评分标准。

第一种叫检查点得分，任务被拆解成十几个需要验证的核心环节，每作对一个环节拿一部分权重分。类似算法心肠还算柔软，能看出Agent在彻底趴下之前到底往前挪了多远。第二种叫解决得分，本质是极其残酷的一票否决制。要求一项工作里所有的检查点必须全对，只要中间错了一个微不足道的数据，哪怕进度条已经冲到了99%，也直接计为0分。

职场从来不相信苦劳，只看最后的交付结果。

沉甸甸的成绩单揭开了一场华丽的溃败。即使是当前公认最顶尖的模型Claude Opus 4.7，凭借着高超的文本理解能力拿到了近44%的平均检查点得分，最终能彻底搞定、完全解决任务的比例，仅仅停留在让人心寒的3.8%。

大部分明星模型都能热火朝天开工，点击新建表单，敲入几行文字，做着做着就彻底迷失了方向。

面对相对简单的团队协作领域，起草文档并发送几封带抄送的邮件，勉强能拿点分。碰到商业运营或医疗行政边界里到处是数字约束、具有严格数据底层的硬核流程，直接跪倒在地。

成绩崩盘根本不是差了临门一脚的问题，而是数学规律在无情展现威力。

长链路任务像是一把极为苛刻的漏斗，把一众伪装的高手全筛了下去。假设一项工作被拆成了12个连续的步骤，每个单一步骤做对的概率高达95%，看起来极其完美。把12个0.95乘在一起，最终能完整交付全对结果的概率连55%都不到。

图中三条触目惊心的下滑曲线，完美记录了失败轨迹。任务牵扯的应用软件越多，要求的操作步骤越长，背后埋伏的检查点越细致，Agent的得分就以肉眼可见的速度摔向谷底。

掩盖得分下的致命伤

拿不到高分的表象之下，深藏着人工智能理解真实世界的结构性盲区。

顺着数百步的操作记录深挖，研究人员发现Agent在应对复杂商业软件时，暴露出四种让人啼笑皆非的致命毛病。

第一种毛病叫多米诺骨牌式的连环崩溃。

真实世界里，上游系统建错的一个名字，会让下游所有的账单变成烂账。

在一个编号为bof_032的测试里，系统要求在财务软件里建立一个名叫Arcturus Digital的企业客户，并在此名下挂靠两笔阶段性发票和付款记录。某顶级大模型一顿操作猛如虎，在新建客户的表单里，填了公司名，又顺手在个人姓名栏填了对接人的名字。系统判定填了人名，自动把属性变成了个人客户。Agent完全不知情，看着屏幕上显示的姓名括号公司名标签，心满意足继续开票做账，历经398步兴奋提交了任务。审查程序在数据库里搜索企业客户Arcturus Digital，查无此人，后面的所有账务彻底成了无源之水。

有七个模型全倒在隐秘的坑里，读不懂业务概念在底层数据库里究竟代表着什么实体。

第二种毛病叫盲目自信，到了自欺欺人的地步。

研究人员扒开了脑电波，查看内部评估日志，发现了令人捧腹的真相。

处理报销单时，Agent走到第124步，敏锐察觉自己把账单日期填成了19号，而要求是20号。在内部日志里老老实实写下要修改日期的计划。41步过去后，动手点了几下按钮，连页面都没刷新，直接在日志里给自己打了满分。任务结束的最终报告里，信誓旦旦声明日期已经完美设定为20日。后台数据证明日期根本没改动。

人类打工人在修正错误后，一定会盯着屏幕确认数字对不对，机器压根没有事后闭环验证的本能，全凭着自己的规划强行宣告胜利。

第三种毛病是前后巨大的波动性。

就像个状态飘忽不定的新员工，布置一模一样的作业，每次交回来的结果判若两人。

让同一个模型操作人力资源的申诉处理流程，第一次，彻底交了白卷。第二次，跑到一半卡死在软件里。第三次，宛如神明附体一路过关斩将拿到了近68%的分数。

并不是环境在变化，每次启动前系统都被清零复原。背后的真相是长途跋涉充满了分岔路口。一次微小的选项犹豫，或者在某个不熟悉的按钮上多点了五十次，耗光了所有操作配额，导致整个任务走向完全不同的结局。