2026年5月28日 周四晚上19:30,报名腾讯会议了解“如何转型成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

顶级模型职场任务完成率不到4%,AI离抢饭碗还差得远!

发布日期:2026-05-26 07:36:47 浏览次数: 1506
作者:算泥

微信搜一搜,关注“算泥”

推荐语

AI智能体在真实职场任务中完成率不足4%,揭示了当前AI与人类工作能力的差距。

核心内容:
1. AI在真实SaaS工作流中的表现短板
2. 传统测试与真实职场环境的巨大差异
3. 未来AI智能体发展需要克服的关键障碍

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!


AI助手被媒体吹得无所不能。大家开始憧憬,让这些Agent走进办公室,登录各种SaaS(软件即服务)系统,帮我们处理报销、管理库存或者分析财务报表。

然而,最强的AI智能体在面对真实的职业工作流时,任务完成率竟然不到4%。

最近UniPat AI、北京大学等机构发布了SaaS-Bench基准。

这项研究把市面上最顶尖的AI模型都拉到了真实的办公软件环境里。

研究人员给它们准备了23个真实的SaaS系统,涵盖了财务、医疗、管理等6个职业领域。结果发现,要让AI真正干活,还差得远呢。

UniPatAI是一家专注于让AI不仅能“说”,更能“做”的初创公司。

公司目标是让AI具有可验证、可执行、与结果挂钩的真实操作,从科研和预测这两个高壁垒领域入手,加速AI向现实世界自动化演进。其核心成员来自通义千问、Kimi、小米和字节Seed等团队,在构建推理模型和复杂决策系统方面经验丰富。

下面我们就通过这份研究,看看目前的AI智能体在真实职场中到底遇到了哪些迈不过去的坎。

真实工作不是点网页

过去几年,科技圈对能操作电脑的Agent抱有极大期望。机器不仅能回答问题,还能主动出击,代替人类打开浏览器,敲击键盘,点击按钮。

从被动理解语言走向主动执行复杂动作,业界将Agent视为通向未来的必由之路。

人们总是容易高估点点鼠标和真正做完一项工作的区别。

在真实的职场环境里,工作很少在同一个页面里点几下就能结束。一项平凡无奇的财务报销,通常始于CRM(客户关系管理)系统里的审批,中间需要穿梭到人力资源后台核对出差数据,最后在复杂的财务软件里完成入账,还要顺手发一封通知邮件。

面对环环相扣的过程,难点根本不在于人工智能能否找到发亮的确认按钮。

真正的考验在于,Agent必须在横跨多个软件的长途跋涉中保持清晰的意图,记住上一步拿到的数据,应对随时弹出的报错提示,还要确保最终产出的结果能通过严格的审计。

以往的测试题太简单了。

开发者在做系统测验时,经常拿高度简化的孤立网页,或者仅仅包含三五个步骤的模拟小任务来充数。

Agent在温室环境里轻轻松松拿到高分,让人误以为马上就能走进格子间顶替高级白领。真把机器拉进企业真刀真枪在用的系统里,滤镜瞬间碎了一地。

为了搞清楚人工智能到底具备多少真正的职场战斗力,研究团队精心打造了SaaS-Bench。

一个专为审视Agent真实工作能力量身定做的测试基准,包含了23个真实可部署的SaaS(软件即服务)系统。软件横跨6大硬核专业领域:软件工程与项目管理、商业运营与财务、医疗行政、团队协作与文档工作流、农业供应链、独立媒体创作。

为了还原最真实的职场折磨,测试库内置了106个逼真的工作任务。有74个纯文本任务,还有32个需要看图看文档的多模态任务。高达93%的任务要求跨越至少两个以上的应用程序,一半以上的任务更是要在三个不同的软件间反复横跳。

最折磨人的是,任务的平均操作步骤远超100步。

新测试库在环境真实度、跨应用协同和长链路执行三大核心维度上,把以往的玩具级测试彻底颠覆。自带真实的数据库、真实的用户权限密码和极度死板的商业运行逻辑。

上面圆环图展示了任务的复杂构成。最外圈密密麻麻的应用图标,代表了每一个打工人日常必须面对的枯燥软件。从开源的医疗记录系统OpenEMR(开源电子病历系统),到复杂的财务工具BigCapital(开源财务软件),再到文档处理神器OnlyOffice(办公套件),每一个领域的应用都被深度卷入。

条形分布图更直观展示了任务漫长得令人发指。绝大多数文本任务都在100步之上,部分任务的执行轨迹甚至逼近了400步的极限,彻底告别点三下就交差的过家家模式。

看起来很美但没完成

为了公平公正,测试人员把Agent扔进装满各种应用系统的虚拟容器里。

软件统统被Docker固化,并且锁定了版本和初始配置。每次开始新任务前,所有的数据库和缓存都会被冷酷重置到最初始的干净状态,保证所有的模型都在同一条起跑线上。

Agent只能像最普通的实习生那样,盯着屏幕渲染出来的DOM树结构和截图,用鼠标键盘一步步点敲。任何走后门调取后台接口或者偷偷查看数据库的作弊行为全被封杀。

面对冗长的任务,研究团队定下了两种极为苛刻的评分标准。

第一种叫检查点得分,任务被拆解成十几个需要验证的核心环节,每作对一个环节拿一部分权重分。类似算法心肠还算柔软,能看出Agent在彻底趴下之前到底往前挪了多远。第二种叫解决得分,本质是极其残酷的一票否决制。要求一项工作里所有的检查点必须全对,只要中间错了一个微不足道的数据,哪怕进度条已经冲到了99%,也直接计为0分。

职场从来不相信苦劳,只看最后的交付结果。

沉甸甸的成绩单揭开了一场华丽的溃败。即使是当前公认最顶尖的模型Claude Opus 4.7,凭借着高超的文本理解能力拿到了近44%的平均检查点得分,最终能彻底搞定、完全解决任务的比例,仅仅停留在让人心寒的3.8%。

大部分明星模型都能热火朝天开工,点击新建表单,敲入几行文字,做着做着就彻底迷失了方向。

面对相对简单的团队协作领域,起草文档并发送几封带抄送的邮件,勉强能拿点分。碰到商业运营或医疗行政边界里到处是数字约束、具有严格数据底层的硬核流程,直接跪倒在地。

成绩崩盘根本不是差了临门一脚的问题,而是数学规律在无情展现威力。

长链路任务像是一把极为苛刻的漏斗,把一众伪装的高手全筛了下去。假设一项工作被拆成了12个连续的步骤,每个单一步骤做对的概率高达95%,看起来极其完美。把12个0.95乘在一起,最终能完整交付全对结果的概率连55%都不到。

图中三条触目惊心的下滑曲线,完美记录了失败轨迹。任务牵扯的应用软件越多,要求的操作步骤越长,背后埋伏的检查点越细致,Agent的得分就以肉眼可见的速度摔向谷底。

掩盖得分下的致命伤

拿不到高分的表象之下,深藏着人工智能理解真实世界的结构性盲区。

顺着数百步的操作记录深挖,研究人员发现Agent在应对复杂商业软件时,暴露出四种让人啼笑皆非的致命毛病。

第一种毛病叫多米诺骨牌式的连环崩溃。

真实世界里,上游系统建错的一个名字,会让下游所有的账单变成烂账。

在一个编号为bof_032的测试里,系统要求在财务软件里建立一个名叫Arcturus Digital的企业客户,并在此名下挂靠两笔阶段性发票和付款记录。某顶级大模型一顿操作猛如虎,在新建客户的表单里,填了公司名,又顺手在个人姓名栏填了对接人的名字。系统判定填了人名,自动把属性变成了个人客户。Agent完全不知情,看着屏幕上显示的姓名括号公司名标签,心满意足继续开票做账,历经398步兴奋提交了任务。审查程序在数据库里搜索企业客户Arcturus Digital,查无此人,后面的所有账务彻底成了无源之水。

有七个模型全倒在隐秘的坑里,读不懂业务概念在底层数据库里究竟代表着什么实体。

第二种毛病叫盲目自信,到了自欺欺人的地步。

研究人员扒开了脑电波,查看内部评估日志,发现了令人捧腹的真相。

处理报销单时,Agent走到第124步,敏锐察觉自己把账单日期填成了19号,而要求是20号。在内部日志里老老实实写下要修改日期的计划。41步过去后,动手点了几下按钮,连页面都没刷新,直接在日志里给自己打了满分。任务结束的最终报告里,信誓旦旦声明日期已经完美设定为20日。后台数据证明日期根本没改动。

人类打工人在修正错误后,一定会盯着屏幕确认数字对不对,机器压根没有事后闭环验证的本能,全凭着自己的规划强行宣告胜利。

第三种毛病是前后巨大的波动性。

就像个状态飘忽不定的新员工,布置一模一样的作业,每次交回来的结果判若两人。

让同一个模型操作人力资源的申诉处理流程,第一次,彻底交了白卷。第二次,跑到一半卡死在软件里。第三次,宛如神明附体一路过关斩将拿到了近68%的分数。

并不是环境在变化,每次启动前系统都被清零复原。背后的真相是长途跋涉充满了分岔路口。一次微小的选项犹豫,或者在某个不熟悉的按钮上多点了五十次,耗光了所有操作配额,导致整个任务走向完全不同的结局。

研究人员特意放宽了要求,做了允许多次尝试的测试。柱状图清晰可见,给三次机会确实能挽救一些分数,进一步证明运气因素在整个过程中扮演了不可忽略的角色。

微末的提升,距离让打工人安心交接工作,还有好几十条街的距离。

软件该为AI重做

当前的Agent设计思路,走入了一个看似热闹却收效甚微的怪圈。

开发工程师满脑子装的都是如何教机器认全网页上的像素点,如何找准下拉框,反而忽略了职场工作的核心灵魂在于业务逻辑的闭环流转。

为了打造出真实的试金石,团队搬出了由构建者、挑战者、提炼者组成的评审法庭。

大模型负责批量生成测试提案,人类专家充当最挑剔的考官,把完全不切实际、把CRM系统当垃圾桶乱塞数据的奇葩任务通通毙掉。

经过静态检查和人工试运行的双重残酷清洗,仅仅只有45%的候选任务存活下来。严格淘汰机制保驾护航之下,每一道题,都是职场里每天都在发生的真实苦难。

Agent想要成为合格的数字员工,必须经历脱胎换骨的进化。点完确认键,脑子里必须明白不仅仅是页面刷新了一下,而是远端服务器里的数据库多出了一条不可磨灭的记录。

学会把横跨几个软件的记忆钉在脑子里,跑到第四个应用界面时,精准背出第一个软件里刚刚生成的项目识别码。

最迫在眉睫的改变是,像个被现实毒打过的老员工那样,长出复查核验的心眼。做完一个操作,退出来重新查询一遍,用真实的查询结果去验证动作是否真的落到了实处,而不是蒙着眼睛一路瞎跑。

前述数据还引发了一个更底层的反思。

强行让机器适应给人类眼睛和手指量身定做的繁杂软件,从根源上可能就走错了方向。

软件里塞满了为了让人类看着舒服而设计的各类花哨菜单、隐藏折叠面板和延迟加载效果,花哨界面对机器来说全是毫无意义的绊脚石。

与其费尽心机训练Agent在复杂的下拉菜单里大海捞针,商业软件行业更应该主动刮骨疗毒,打造一套从底层就原生适配人工智能调用的界面规则。

当Agent大军真正走进办公室的那天,曾经为了折磨人类而发明的复杂管理软件,必将迎来一场推倒重来的全面重构。

参考资料:

https://unipat.ai/blog/SaaS-Bench

https://github.com/UniPat-AI/SaaS-Bench

https://arxiv.org/pdf/2605.15777


END

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询