微信扫码
添加专属顾问
我要投稿
OPPO团队最新研究:如何让Agent通过经验沉淀实现自我进化,性能提升显著! 核心内容: 1. 构建经验库的双阶段方法:人工制作种子经验+自动化扩展 2. Multi-Agent系统设计:Teacher-Student架构与Reason-Retrieve-Refine流程 3. 在GAIA和SWE基准上的验证结果与详细实现方案
很值得仔细琢磨的一篇论文,58页,作者主要来自oppo,oppo最近还发了好几篇Agent的论文,都挺不错的~
这个工作讲的是如何沉淀Agent过去的执行经验,让Agent性能越来越好。
先看结果,提升很大。 分别在GAIA、SWE 上验证了。
内容蛮简单,但是细节很多。
沉淀Agent过去的执行经验。 那首先得有个经验库把,经验库怎么构造,怎么召回。
有了经验库,他们又折腾了一个Multi-Agent的系统。然后每个Agent里边又有一个Reason-Retrieve-Refine的流程。
对应到下左图,构建经验库,右图如何解决问题。
他们避开了Multi-Agent这个词,用teacher 、 student 代替了。 teacher Agent、Student Agent 分别什么意思呢? 就类似于学生写作业,老师评改作业,改完学生在修正这么个步骤。
Reason-Retrieve-Refine 这3个词就是字面意思。
虽然又是teacher Agent又是Student Agent,然后还 Reason-Retrieve-Refine 。但是其实挺workflow的(测试了很多,实验出这么个pipeline)。 原文有个消融实验,证明了每个部分都有必要。
那到底要怎么去沉淀经验库呢?论文附录有很长的一节讲这个东西。
构造过程是一个结合了人工经验和自动化生成的流程:
第一阶段:人工制作高质量的“种子经验”
团队组建: 招募了三名熟悉GAIA基准和Agentic工作流的计算机专业的学生 。
日志分析: 他们审查了Agent在GAIA任务中成功和失败的日志,总结出高效的、符合逻辑的行动序列和通用模式 。
编写范例: 将这些成功的策略和对失败的反思,手动编写成高质量、标准化的自然语言指令式提示(Prompt) 。
测试和筛选: 通过测试,最终筛选出表现最好的80个手写经验作为种子。
第二阶段:利用“种子经验”进行自动化扩展
Few-shot 学习: 使用第一阶段产出的高质量“种子经验”作为范例(Few-shot Examples),去提示大语言模型 。
批量生成: 让大模型为来自多个不同数据集的大量新任务,自动生成格式统一的经验条目 。
数据来源:
为GAIA构造的经验库,经验来源于四个数据集:BrowseComp、HopRAG、HLE (text-based subset) 和 WebWalkerQA 。
为SWE-bench构造的知识库,经验则来源于三个数据集:RepoClassBench、SWE-Gym-Raw 和 RepoEval 。
经验库格式长什么样子? 论文有个例子,翻译了一下,放在下边。
{
"question": "有一个获得多项格莱美奖的知名人物……",
"true_answer": "St. John’s Health Center(圣约翰健康中心)",
"agent_planning": "1. 解析问题,提取所有关键约束条件:获得多项格莱美奖,第一张专辑发行于1969年之前,有药物依赖问题,20岁前被学校开除,第一位人生伴侣于1997年去世,曾作为军装人员服役,确定死亡地点/医院。\n2. 概念性规划:\n- 确定所有符合以上条件的艺人候选人。\n- 对每位候选人:\n a) 验证首张专辑发行时间(1969年之前)\n b) 检查格莱美获奖历史\n c) 检索传记资料,确认药物依赖与教育背景\n d) 确认伴侣去世年份和军装服役信息\n e) 锁定匹配人物的死亡日期和具体地点/医院。",
"search_agent_planning": "1. 从代码代理处获得精确的人物身份,或利用传记线索进行三角定位。\n2. 制定搜索查询,确认人物身份及其具体去世医院。\n3. 优先查找官方传记、权威新闻媒体、格莱美官方记录。\n4. 交叉核查关键信息点,确保人物匹配。\n5. 从讣告中提取死亡地点和医院信息。",
"agent_experience": [
"将复杂多条件问题拆分为小型约束检查",
"明确记录并多渠道验证传记约束条件",
"优先选用高可靠性传记和奖项数据来源",
"在早期将具体子查询委托给搜索代理",
"通过依次回链所有事实,最终验证答案"
],
"search_agent_experience": [
"将复杂查询分解为连续的搜索细化步骤",
"为模糊身份设计高度具体的检索关键词",
"优先使用权威信息源而非娱乐/八卦内容",
"从多方独立来源交叉验证信息",
"直接引用和明确来源,规范化结果格式"
]
}
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-12
【Agent专题】MCP架构实战:开发者必藏!最全MCP智能代理构建指南,附实操解析
2025-07-12
又一个细分领域被AI颠覆,750万美元押注AI产品测试,这家公司让4-6周测试周期缩短至数小时
2025-07-12
AI Agent 的护城河:从私有数据、专有工具到演化式信任
2025-07-11
让大模型更懂你,京东零售的算法工程师做了这些事
2025-07-11
Agent革命前夜,中国移动“九天”如何落地
2025-07-11
用了它之后,我明白了Manus的困境
2025-07-11
AI 将如何改变我们构建产品的途径
2025-07-11
如何利用企业架构构建可扩展的数据和人工智能战略
2025-05-29
2025-05-23
2025-04-29
2025-04-29
2025-05-07
2025-05-07
2025-05-07
2025-06-01
2025-05-07
2025-04-17
2025-07-10
2025-07-10
2025-07-10
2025-07-09
2025-07-08
2025-07-07
2025-07-05
2025-07-04