微信扫码
添加专属顾问
我要投稿
Anthropic分享多智能体系统的评估与优化实战经验,揭示如何平衡自动化与人工评估的智慧。 核心内容: 1. 多智能体评估的革新方法:从预设路径转向结果导向与过程合理性验证 2. LLM作为评判工具的应用与优化:从多评委实验到单评委提示的演进 3. 人工评估的关键作用:捕捉自动化评估盲区的三大典型场景
这一篇写Anthropic的智能体评估、生产可靠性和工程挑战。
如何做智能体评估呢?传统的做法是“给定输入 X,必须走步骤 Y,才能得到正确输出 Z”。但是多智能体不能这样做,因为它没有固定唯一的、可预先写死的解题路径。
不要去检查是否走了预设的路径,而要判断是否有合理的过程和正确的结果。
不要等数据量大时才开始做评估,在小样本的时候就开始做评估
Anthropic 制定了一些打分规则:
评分方式:LLM评判工具会根据上述标准对每个输出进行评分,评分范围为0.0到1.0,并给出通过或不通过的等级。
实验与优化
在传统软件里,一个小 bug 可能仅仅让功能崩溃、性能下降或触发一次故障。
而在agentic 系统里,微小的改动会像滚雪球一样放大,引发巨大的行为漂移——这使得为那些需要在长时间运行中保持状态的复杂智能体编写可靠代码变得异常困难。
智能体可能长时间运行,在多次工具调用之间持续保持状态。这意味者必须保证代码的持久执行,并在每一步都能妥善处理错误。
出错时,不能简单地“重启”:重启太昂贵了。所以Anthropic 构建了一套可从故障点原地恢复的系统,并加上了重试逻辑和定期快照来保证断点恢复的功能。
在传统软件里,同样的输入基本会得到同样的输出,可 AI 智能体是“动态、非确定性”的——同一套提示词跑两次,内部决策路径都可能不同,于是调试难度成倍上升。 举个例子:用户投诉“智能体连显而易见的资料都找不到”。光凭日志根本看不出问题出在哪——是它生成了糟糕的搜索关键词?还是选到了垃圾网页?还是工具本身调用失败?
Anthropic 引入了一套“全链路追踪(full production tracing)”,记录每一次调用、每一个决策节点(关键词→结果→评分→下一步动作),但不记录对话正文,保证用户隐私。
好处:
考虑到无论什么时候发布更新都有可能有用户在使用智能体,Anthropic 采用“彩虹部署(rainbow deployments)”:旧版本和新版本同时在线,逐步将流量从旧实例切到新实例,从而避免打断正在运行的智能体。
当 AI 代理需要与用户进行几百轮对话时,如何让它“记住”前面发生的事,又不会因为上下文窗口塞不下而失效呢?
后续任何时刻,代理都能按需回查外部记忆里的研究计划、数据表、引用列表,而不用把这些庞杂信息一直放在对话上下文里。
把 AI 原型变成真正可依赖的生产系统,比大多数人想象的要难得多。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-24
当软件不值钱了以后,最稀缺的资源是什么?
2026-02-24
OpenAI Codex负责人:我们熟悉的编程方式正在终结 | Jinqiu Select
2026-02-24
OpenClaw 最佳实践:5条“基本原则”
2026-02-24
春节归来第一天,Second Me 做了一个「Agent 互联网的 App Store」
2026-02-24
万字深度解读 MCP Apps:重构 Web 应用,开启 AI 助手的“小程序”时代。
2026-02-24
AI Agent系列|什么是 ReAct Agent?
2026-02-24
刚刚,Anthropic深夜大点名,这三家中国公司进行蒸馏攻击?!
2026-02-23
Claude Code如何突破白领工业革命
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2026-02-03
2025-12-21
2026-01-09
2026-01-09
2026-01-27
2026-02-24
2026-02-24
2026-02-20
2026-02-14
2026-02-13
2026-02-12
2026-02-12
2026-02-11