我要投稿

跨越孤岛：AGENT KB如何实现AI智能体的跨领域经验共享

发布日期：2025-08-21 13:39:22 浏览次数： 2321

作者：AI贺贺

微信搜一搜，关注“AI贺贺”

一. 介绍

AI智能体（Agent）很重要，但能力有瓶颈：随着人工智能的发展，智能体在解决复杂问题中扮演着越来越重要的角色。尽管它们已经展示了强大的能力，但在处理需要复杂长期规划和工具使用的任务时，仍然力不从心。

核心瓶颈在于错误修正能力不足：在复杂推理过程中的错误修正（error correction）。当智能体在解决问题的途中遇到困难时，仅仅依靠自我反思（self-feedback）是远远不够的。它们缺乏像人类专家那样的能力，即无法接触到海量的、多样化的推理策略和从成功经验中提炼出的隐性指导信号。
虽然已经有研究表明，从过去探索的经验（或称为“记忆”）中学习可以提升性能，但目前的方法存在一个致命缺陷：这些经验是任务特定且孤立的（task-specific experiences that operate in isolation）。
经验孤岛”导致效率低下：这种经验的孤立性，迫使智能体在遇到新类型的任务时，不得不重复地“重新发明轮子”。它们无法将在其他相关领域已经证明行之有效的成功策略，进行调整和复用。

为了解决上述问题、论文提出了 AGENT KB (Agent Knowledge Base) 框架。它通过构建一个分层的、可共享的知识库，并设计了一套新颖的“推理-检索-精炼”（Reason-Retrieve-Refine）流程，通过师生双阶段检索机制，来系统性地解决Agent的经验孤岛和经验使用的难题，从而实现AI智能体的高效、跨领域学习和成长。

左侧面板 (A): 没有 AGENT KB 的原始工作流，智能体死板地执行指令“收集PDB文件的前两个条目”。从图中可以看到，它不加分辨地读取了文件的前两行有效数据：一行是 ATOM（原子），另一行是 ANISOU（描述原子振动的参数，不是一个独立的原子坐标），没有经验指导的AI智能体就像一个只会严格执行字面命令的“新手”，它缺乏特定领域的“常识”，容易在关键步骤上犯错，导致整个任务失败。

右侧面板 (B): 经 AGENT KB 增强的工作流，在开始执行任务前，智能体从 AGENT KB 中检索到了相关的经验（Experiences）。关键经验: #1: 总是忽略 ANISOU/HETATM 记录。 #2: 只使用 ATOM 记录。 #3: 对结果进行常识性检查（比如对照已知的化学键长度范围）。 #4: 优先使用专业的库（如Biopython的PDBParser）来避免手动解析的错误。得到AGENT KB增强的智能体就像一个“有经验的专家”。它在行动前会先“回忆”一下过去的成功经验和失败教训，从而制定出更可靠、更智能的执行计划，成功避开了新手会犯的错误。

二、实现AgentKB

实现可以分为两大核心阶段：

AGENT KB的构建阶段 (Construction Phase)
AGENT KB的增强推理阶段 (Enhanced Inference Phase)

阶段一：AGENT KB的构建阶段 - “如何打造知识库？”

这个阶段的目标是从海量的原始数据中，提炼出可复用的、结构化的经验，并存入知识库。这个过程好比是为AI智能体编写一本“经验百科全书”。

1. 经验的来源 (Task Pool)

知识库的原始材料来自于多个不同的数据集和任务领域。
论文中提到了用于通用任务的 BrowseComp、HopRAG 等，以及用于软件工程任务的 SWE-Bench、RepoBench 等。
这么做的目的是为了保证知识库的多样性和广度，从而支持跨领域的知识迁移。

2. 经验的抽象 (Knowledge Abstraction)

这是最关键的一步。论文强调，直接存储原始的执行日志是低效的。必须对经验进行抽象，提取出通用的模式。

自动化与人工结合：

人工指导 (Hand-crafted path): 研究人员首先会手动分析一些典型的失败案例，总结出常见的错误模式和正确的解决方法。这些高质量的人工经验被用作“种子”或“范例”（few-shot examples）。
自动化生成 (Automated summarization): 然后，他们使用一个大型语言模型（LLM）作为“经验生成器”。这个生成器会读取大量的原始执行日志（包括成功和失败的），并以人工制作的范例为指导，自动地将这些原始日志抽象成结构化的经验条目。

经验的标准化格式：

π (pi): 问题模式 (Problem pattern)，描述了这是哪一类问题。
γ (gamma): 目标 (Goal)，描述了要达成的目的。
S: 解决方案轨迹 (Solution trajectory)，这是一个抽象过的工作流，而不是具体的代码。
C: 上下文 (Context)，如任务领域、难度等。
R: 与其他经验的关系 (Relationships)，虽然当前版本为了简化没有实现，但设计上考虑了经验之间的关联。

每一条被抽象出的经验都会被存成一个标准化的元组（tuple）格式：E = ⟨π, γ, S, C, R⟩。
这个元组包含了：

3. 经验的存储与索引 (Storage and Indexing)

所有结构化的经验被序列化（例如存为JSON格式）并存储起来。
为了能在海量经验中快速检索，系统会为这些经验建立索引，方便后续的推理阶段高效查找。

阶段二：AGENT KB的增强推理阶段 - “如何使用知识库？”

当一个新任务来临时，系统会启动一个“师生双阶段推理”的流程，在这个阶段，除了真正执行任务的“执行智能体”外，还有两个辅助智能体：

学生智能体 (Student Agent)
教师智能体 (Teacher Agent)

它们都遵循一个“推理-检索-精炼 (Reason-Retrieve-Refine)”的循环，但侧重点完全不同。

这个“学生尝试 -> 老师指导”的循环可以重复N次（x N），直到问题被完美解决。

1. 学生智能体的宏观规划 (Student Reason-Retrieve-Refine)

学生智能体的角色像一个“初学者”或“规划师”，负责制定解决问题的宏观战略。

推理 (Reason): 首先，学生智能体分析新任务，对“这个问题大概要怎么解决”形成一个初步的想法。
检索 (Retrieve): 接着，它带着这个初步想法去AGENT KB中进行检索。它的检索目标是“工作流级别 (workflow-level)”的模式。它想找的是：“以前有没有解决过类似的大问题？整体的步骤是怎样的？”
精炼 (Refine): 它将检索到的宏观工作流与自己对当前任务的理解相结合，进行调整和适配，最终形成一个初步的、结构化的执行计划（Plan 0）。

然后，“执行智能体”会根据这个初步计划去尝试解决问题。

输入：

Query Q: 用户提出的新问题或新任务。
Knowledge base K: 已经构建好的AGENT KB知识库。

过程：

解析问题、提取出核心的问题模式 π 和目标 γ
生成一些初始想法 T
带着它的初步想法 T 和对问题的理解 π, γ，去知识库 K 中进行检索
经验 Ew。也就是说，寻找解决类似问题的完整解决方案或高级步骤
通过一个相关性函数 ϕr 来计算知识库中每条经验与当前任务的匹配度，并找出最匹配的 top-k 条
学生智能体将检索到的工作流经验 Ew 与自己的初始想法 T 进行整合与提炼，最终形成一个具体的、可执行的计划 Π
“执行智能体”根据这个计划 Π 去执行任务，并产生一个执行轨迹 S（即详细的操作记录）

输出：

Execution trajectory S: 完整的执行记录。
Plan Π: 生成的执行计划。

2. 教师智能体的微观修正 (Teacher Reason-Retrieve-Refine)

在执行智能体第一轮尝试后（无论成功还是失败），教师智能体登场。它的角色像一个“导师”或“代码审查员”，负责分析执行过程并提供微观的、针对性的指导。

推理 (Reason): 教师智能体不关心问题的宏观策略，而是审查刚刚生成的执行日志（Execution Trajectory）。它会分析：“学生在哪一步卡住了？哪个工具用错了？逻辑上有什么缺陷？”
检索 (Retrieve): 基于这些具体的错误或不足，它再次向AGENT KB发起检索。但这次，它的检索目标是“执行步骤级别 (step-level)”的经验。它想找的是：“以前有没有人犯过完全一样的错误？具体是怎么修复这个小问题的？”
精炼 (Refine): 它将检索到的这些“微观经验”或“修复技巧”提炼成非常具体的、可操作的指导意见（例如，在图2中，它给出了关于正则表达式的具体建议）。

输入 (Input):

Query Q: 原始问题。
Execution trajectory S: 学生阶段产生的执行记录（这是最重要的输入）。
Plan Π: 学生制定的计划。
Knowledge base K: 知识库。

过程：

SUMMARIZETRAJECTORY，是分析学生提交的“作业”——执行记录 S。它会总结这个执行过程 Z，识别出其中的潜在错误、失败步骤或效率低下的地方
教师智能体带着它发现的具体问题（即总结出的轨迹 Z），去知识库 K 中进行检索
教师智能体将检索到的这些零散的、针对具体步骤的修复经验 Es，进行转化和适配，使其适用于当前任务的上下文，生成可用的经验 Ep
最后，教师智能体将这些适配好的经验，组织成明确的、可操作的指导意见 Γ，准备反馈给学生

输出：

Guidance Γ: 一套精准的、用于修正计划的指导意见

3. 迭代与最终产出

教师智能体将这些精准的指导反馈给学生智能体。
学生智能体吸收这些指导，修正并完善自己的计划，形成一个更优的执行计划（Plan 1）。
“执行智能体”根据这个优化后的计划再次执行任务，从而得到一个更准确、更可靠的最终答案。

三、实验结论

Single Model: 单个模型直接解决问题的得分，通常较低，是最低的基准线。
Closed-source Agent Frameworks (闭源智能体框架):

这是一些由公司或研究机构开发的、不公开源代码的强大框架，如 TraseAgent、OpenAI Deep Research 的成果以及 Alita。
看点: 它们代表了当前业界领先的水平。例如，Alita 在 pass@3（三次尝试内通过）的设置下，平均分高达 **86.06%**，是全场的最高分。

Open-Source Agent Frameworks (开源智能体框架):

这是一些社区可以访问和使用的开源框架，如 OWL Workforce、TapeAgents 等。
看点:smolagents（本文使用的基础框架）的基线成绩（GPT-4.1模型）是 **55.15%**。这个分数在开源框架中处于中等水平，并不突出。这恰恰反衬出后续AGENT KB带来的提升是真实有效的，而不是因为基础框架本身就特别强大

现有各种AI智能体框架相比，集成了AGENT KB的简单框架（smolagents）能够取得显著的性能提升，甚至超越一些更复杂的系统。

错误类型的分布变化，柱状图则进一步揭示了AGENT KB具体在哪些类型的错误上表现优异。

检索失败 (Retrieval Failures) / 规划缺陷 (Planning Flaws) / 推理错误 (Reasoning Errors) 的减少:

这是最显著的改进之一。例如，对于Claude-3.7，推理错误从13个减少到8个。
原因分析： 论文指出，这是因为AGENT KB的知识库中包含了标准化的搜索协议和成功的工作流范例。这使得智能体在面对新任务时，能够遵循一条经过验证的、更可靠的路径，从而避免了在规划和推理中“走弯路”或犯下逻辑错误。