微信扫码
添加专属顾问
我要投稿
Anthropic揭秘AI Agent评估真相:分数不是一切,执行痕迹才是关键。 核心内容: 1. 评分标准死板导致Agent表现被低估,灵活调整后分数飙升 2. 执行痕迹比最终结果更重要,要关注Agent的实际行动而非口头承诺 3. 评估应贯穿开发全程,从真实失败案例中学习并提升Agent能力
最近 Anthropic 发布了一篇深度博客 《Demystifying evals for AI Agents》,撕开了“Agent 看起来很美,跑起来稀碎”的真相。读完之后,我最大的启发不是怎么写测试题,而是——我们对 Agent 的信任,不该建立在“它说了什么”,而应建立在“它留下了什么”。
大家构建 AI Agent 的流程通常很“标准”:选个模型,塞几个工具,写段 System Prompt,自己点两下觉得行,就上线了。然后?然后用户就开始在各种你没想到的地方报 Bug。
以下是藏在技术细节背后的几个底层洞见。
博客里提到了一个极具戏剧性的案例:Anthropic 内部测试顶级模型 Opus 4.5 时,在 CORE-Bench(一个衡量 Agent 核心能力的基准)跑分居然只有 42%。
是模型退步了吗?不,是评分系统太死板(Brittle Grading)。
当研究员修复了这些评分 Bug 并给 Agent 更宽松的运行支架(Scaffold)后, 分数瞬间从 42% 飙升到了 95% 。
启发: 在你质疑 Agent “智商”之前,先审视一下你的测试标准。很多时候,我们是用工业时代的刻度尺去量量子时代的波函数。
传统的软件测试是函数式的:输入 A,预期输出 B。但在 Agent 的多轮对话中,这套逻辑彻底崩了。Agent 是非确定性的,它可能通过三步完成任务,也可能绕路走十步。
Anthropic 提出了一个核心标准:执行痕迹(Transcript)比最终结果(Outcome)更重要。
金句: 评价一个 Agent,不要听它的表白,要看它的银行流水。
很多团队把评估(Eval)当作上线的最后一道门槛。但在 Anthropic 看来,评估应该是贯穿始终的“免疫系统”。
他们建议:
为什么评估这么难?因为 Agent 的价值在于“处理不确定性”,而评估要求的是“确定性”。
这中间的张力揭示了 Agent 开发的本质:评估不是为了追求 100% 的正确率,而是为了划清“它可以放手去干”和“必须人机协同”的边界。
只有建立了足够鲁棒的评估体系,你才敢给你的 Agent 真正的权限,而不是让它在一个名为“自主”的笼子里打转。
如果你把 Agent 看作是一个“新入职的数字化员工”,你会发现这套评估逻辑与企业管理惊人地相似:
参考资源与深度阅读:
最后的一点思考:在这个“Vibe Coding”(氛围感编程)盛行的时代,很多人在凭感觉调优。但 Anthropic 提醒我们,真正通往生产级的阶梯,是用无数个枯燥的 Eval 搭建起来的。
与其花时间写那段花里胡哨的 Prompt,不如静下心来写三个能反映真实业务痛点的评估脚本。毕竟,在这个赛道上,慢即是快,稳即是赢。
从“死板评分”到“全链路追踪”的跨越:真正的评估不再是冰冷的期末考分数,而是像免疫系统一样,时刻感知 Agent 在复杂现实中的每一次呼吸与脉动。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-02
GPT-5.4据传下周上线!200万上下文窗口+持久化状态,告别频繁遗忘
2026-03-02
AI时代,企业应立即停止使用低代码平台
2026-03-02
打造高可靠 AI 助手:Skill 编排、Workflow 设计与 Spec Coding 的深度实践
2026-03-02
百万人围观!Claude Code团队成员亲述CC究竟如何被开发出来:四条黄金经验
2026-03-01
Figma 着急了!Codex 和 Figma 双向构建前端 UI
2026-03-01
Claude动手抄OpenAI老家了:一键把你在 ChatGPT 攒的记忆全搬走
2026-03-01
App 开始消失,我们正在进入一个「不会用软件」的时代
2026-03-01
Claude Code 的记忆机制:从CLAUDE.md到Auto Memory,它到底记住了什么?
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2025-12-21
2026-01-09
2026-01-09
2025-12-30
2026-01-27
2026-03-01
2026-02-27
2026-02-27
2026-02-26
2026-02-24
2026-02-24
2026-02-14
2026-02-13