我要投稿

别被分数骗了：拆解 Anthropic 的 Agent 评估方法论

发布日期：2026-01-16 10:14:58 浏览次数： 2325

作者：AI贺贺

微信搜一搜，关注“AI贺贺”

最近 Anthropic 发布了一篇深度博客《Demystifying evals for AI Agents》，撕开了“Agent 看起来很美，跑起来稀碎”的真相。读完之后，我最大的启发不是怎么写测试题，而是——我们对 Agent 的信任，不该建立在“它说了什么”，而应建立在“它留下了什么”。

大家构建 AI Agent 的流程通常很“标准”：选个模型，塞几个工具，写段 System Prompt，自己点两下觉得行，就上线了。然后？然后用户就开始在各种你没想到的地方报 Bug。

以下是藏在技术细节背后的几个底层洞见。

1. 考卷出错了，学生再牛也只有 42 分

博客里提到了一个极具戏剧性的案例：Anthropic 内部测试顶级模型 Opus 4.5 时，在 CORE-Bench（一个衡量 Agent 核心能力的基准）跑分居然只有 42%。

是模型退步了吗？不，是评分系统太死板（Brittle Grading）。

Agent 给出了 "96.12"，评分标准非要 "96.12499..."。
任务描述极其模糊，Agent 走了一条更聪明的路，却被判定“不按套路出牌”。

当研究员修复了这些评分 Bug 并给 Agent 更宽松的运行支架（Scaffold）后， 分数瞬间从 42% 飙升到了 95% 。

启发： 在你质疑 Agent “智商”之前，先审视一下你的测试标准。很多时候，我们是用工业时代的刻度尺去量量子时代的波函数。

2. 扔掉你的单元测试，去读“脚印(Trace)”

传统的软件测试是函数式的：输入 A，预期输出 B。但在 Agent 的多轮对话中，这套逻辑彻底崩了。Agent 是非确定性的，它可能通过三步完成任务，也可能绕路走十步。

Anthropic 提出了一个核心标准：执行痕迹（Transcript）比最终结果（Outcome）更重要。

不要只看 Agent 说“票订好了”：那可能只是幻觉。
去看数据库记录：那才是真实发生的改变。

金句： 评价一个 Agent，不要听它的表白，要看它的银行流水。

3. 评估是免疫系统，不是裁判席

很多团队把评估（Eval）当作上线的最后一道门槛。但在 Anthropic 看来，评估应该是贯穿始终的“免疫系统”。

他们建议：

从失败中生长：不要凭空编题，直接把生产环境里的真实失败案例捞出来，脱敏后作为测试题。
对抗随机性：同一个任务跑 1 次是运气，跑 10 次取平均值才是实力。
人肉 Review 痕迹：在初期，你必须亲手翻开那几百页的 Trace（执行痕迹）。如果你不理解 Agent 是怎么错的，你就永远修不对。

4. 评估本质上是对“自主性”的定价

为什么评估这么难？因为 Agent 的价值在于“处理不确定性”，而评估要求的是“确定性”。

这中间的张力揭示了 Agent 开发的本质：评估不是为了追求 100% 的正确率，而是为了划清“它可以放手去干”和“必须人机协同”的边界。

只有建立了足够鲁棒的评估体系，你才敢给你的 Agent 真正的权限，而不是让它在一个名为“自主”的笼子里打转。

5. 延展思考：Agent 评估与组织管理

如果你把 Agent 看作是一个“新入职的数字化员工”，你会发现这套评估逻辑与企业管理惊人地相似：

KPI vs OKR：如果你只考核 KPI（结果分数），员工就会学会“刷分”或在评分漏洞上钻营；如果你关注 OKR（执行过程与最终价值），你就能识别出谁是真正的能人。
面试 vs 试用期：目前的 Benchmark 跑分大多是“面试”，通过一两道题看智力；而 Anthropic 强调的 Evals 是“试用期”，通过真实业务场景下的多轮协作，看实际落地能力。

参考资源与深度阅读：