我要投稿

Agent 2.0：从提示词优化到工具自造的自我进化革命

发布日期：2025-05-20 18:19:21 浏览次数： 2340

作者：哆啦的AI产品实践录

微信搜一搜，关注“哆啦的AI产品实践录”

本篇文章总结自 4 月份 Hugging Face上热度最高的论文《ADVANCES AND CHALLENGES IN FOUNDATION AgentS》，是一篇关于 AI Agent 的全景综述。文章有近200页，分 4 个主要部分。今天带来第二部分， Agent 的自我进化。

过去，AI系统很多都是靠人手动设计的，比如特征提取和行为规则。但随着技术进步，这些工作越来越多被机器自己完成。像以前需要专家设计的神经网络，现在可以通过算法自动生成。Agent系统也正在经历同样的变化。

虽然现在还没完全实现“自动进化”的Agent，但这个方向已经很明确。未来的Agent系统，不需要人一步步搭建，而是自己能学、能改、能变强。人工设计会被自我优化的系统替代，就像人类不断学习一样，Agent也能自己成长。

这样的系统有什么好处？一是更省事，不用每次都重新训练语言模型；二是更省人力，不需要开发者一直调整；三是更像人类思维，遇到问题能自己解决，不等人来修。

现在很多研究都在用大语言模型推动这件事。语言模型不仅能理解指令，还能帮Agent选择工具、优化流程。有的系统（比如 AFLOW）已经能自动生成完整的Agent工作流程。这说明：Agent不是被造出来的，而是“长”出来的。

接下来，我们一起来看一下目前都有哪些可实操的方向。

提示词优化

在基于大语言模型的Agent优化中，提示词的优化是最核心的环节。相比修改模型结构，调整提示词可以更直接地影响任务表现、响应速度和计算成本。优化的目标，是为特定任务生成一个最合适的提示，使得模型执行效果最好。

整个优化过程依赖于三个关键步骤：优化、执行、评估。执行模块用当前提示词生成结果；评估模块负责分析结果好坏，生成评估信号和优化信号；优化模块据此改进提示词。

评估的基础是 评估函数。它接收模型输出和标准答案，采用不同方法来判断提示词是否有效。常见的评估来源包括：模型输出与标准答案的对比、模型输出之间的比较、甚至只依靠模型自身的反馈。

评估方法分为三种：基准测试、语言模型作为评审、人工反馈。基准测试依靠设定指标打分，使用最广泛；语言模型评审通过自然语言生成反馈，逐步成为自动化的主流方式；人工反馈提供最精准的评价，但代价较高，不利于大规模应用。

评估信号的形式也有三类：数值反馈可以量化效果、文本反馈能提供具体建议、排名反馈帮助模型比较不同提示词的优劣，而不必定义绝对标准。

在优化过程中，有的方法只依赖评估信号，从效果最好的提示出发，通过进化算法或启发式策略不断调整；也有的方法使用更明确的优化信号，比如直接分析失败案例，或者从高分提示中提取共性，用来引导下次修改。比如 TextGrad 会将失败反思转化为“文本梯度”，作为新的提示改写基础；Revolve 则模拟更深一层的反馈链条，帮助系统跳出局部最优。

为了判断优化效果，研究者使用三类指标：性能指标、效率指标、行为指标。性能指标如准确率、F1 分数能直接反映结果；效率指标关注所需计算资源和样本量；行为指标关注一致性、公平性和模型自信程度。这些指标共同反映出一个提示词优化系统的能力与边界。

工作流优化

提示词优化能提升单个语言模型的效果，但复杂任务通常需要多个模型协作完成。这就需要对整个Agent的工作流程进行优化，而不仅仅是提示词。

一个工作流由多个节点组成，每个节点代表一个负责子任务的语言模型。节点之间通过预设的规则和目标协作，不具备完全自主性。很多系统如 MetaGPT、AlphaCodium 都采用了这种结构。优化这些流程，能提升系统整体表现，也是构建更强Agent的关键。

一个工作流可形式化为 节点集合 N 与边集合 E 的组合。每个节点涉及四个维度：模型、温度、提示词、输出格式。优化目标是找到一个最优结构 K*，在任务完成度、计算效率和响应速度上取得最优平衡。

边的表示方式决定了结构的可表达性和可优化性。常见表示包括：图结构，适合表达复杂流程；神经网络结构，支持动态调整；代码结构，最灵活，可集成逻辑判断和循环控制。

节点优化也很重要，不同模型、温度设置、输出格式会影响响应效果。提示词仍是关键，但在工作流中只是优化的一部分。

随着节点数量增加，搜索空间迅速扩大，优化策略必须兼顾效率与规模。整体来看，优化Agent，不只是调整词句，而是系统性地构建和调整一个能协同完成任务的结构。

工具优化

与传统单轮对话的语言模型不同，Agent具备多轮规划和调用外部工具的能力。因此，工具优化成为提升Agent表现的关键环节，目标是让Agent更高效地选择、调用和组合工具，降低延迟，提高决策准确性和任务完成能力。

工具优化分为两个方向：学习使用工具与创造新工具。

学习使用工具可以通过模仿人类操作，或基于反馈进行强化学习。前者通过行为克隆学习使用方式，后者通过环境或人类反馈不断调整行为策略。语言模型也可以通过思维链（如 Chain-of-Thought 或 Tree-of-Thought）增强其工具调用决策，结合模型的输出进一步优化调用顺序和方式。

除了学习现有工具，一些系统已能根据任务自动生成新工具。比如 ToolMakers 会先生成函数，再进行自动测试与封装；CREATOR 引入“创建-决策-执行-修正”闭环；CRAFT 提取可复用的小工具，并组合处理复杂问题。这些方式展示出工具生成与演化的可能性。

为了评估工具使用效果，有研究者提出了一套完整的度量体系。第一步是判断是否需要调用工具，接着再选择哪个工具最合适，最后是评估检索与调用效率。评估中包括调用准确率、选择准确率、排序能力、成本回报比等。对于复杂任务，还需评估工具调用顺序是否合理，计划是否连贯，语言是否清晰，逻辑是否一致。

有些评估框架也强调行为计划的质量，要求模型不仅要选对工具，还要合理总结中间结果，规划下一步操作。整体而言，工具优化不仅仅是功能选择，更关乎Agent如何在任务中进行系统性地思考和行动。这决定了一个Agent是否真的具备解决现实问题的能力。

将大模型作为优化手段

这一章讲的是一件挺有意思的事：怎么把大模型当成优化手段来用。以前我们更多是让它们生成答案，现在有人开始让它们去试、去改、去优化，比如调教提示词、设计任务流程，甚至决定Agent怎么分工协作。

过去的优化方法，大多是数学里的套路：有梯度就用梯度，比如梯度下降；没有梯度就靠试错，比如贝叶斯优化。但这些方法很难搞定自然语言这种没结构、没公式的东西。而语言模型擅长处理这些“乱七八糟但人类懂”的输入，于是就成了另一类优化器，能在没有明确目标函数的情况下，用语言和上下文反复调整、慢慢把结果往好里推。

这类优化一般不是一步到位，而是靠“试—评估—再试”的循环搞定的。刚开始有人直接靠随机搜索生成很多提示，挑表现好的继续试。但这种方式成本太高。后来一些方法开始模拟“有方向地调整”，比如参考历史的修改记录，或者用语言模型自己生成下一步该怎么改。这就像是在没有真实梯度的地方，模拟出“语言版的下降方向”。

还有一种节省成本的做法是建一个替身模型，先预测哪些改法可能效果好，再少量验证真实效果。这种方式虽然省钱省力，但也有赖于“替身”建得准不准。

另外，这种优化过程里的参数设置也很关键，比如要不要加“动量”、一次试多少组、怎么总结反馈……目前大家主要靠经验调，没啥统一标准。于是就有了个新方向：让语言模型自己优化自己，也就是所谓的“元优化”。模型回头看自己之前怎么做的，从中学经验，下次做得更好。

时间这个维度也挺重要。大多数优化方法是一次性地调完，但LLM可以像RNN一样，一轮一轮持续优化，越做越好。一些工作甚至把整个优化过程设计成状态机或者博弈系统，让它能更灵活地应对变化。

虽然很多结果挺惊艳，但理论基础还没完全跟上。有人试图解释LLM的优化能力来自哪儿，比如上下文学习能力、或者Transformer结构本身的“计算特性”。也有人在做可解释性研究，看模型内部到底发生了什么。但目前这些解释还不够完善，尤其在面对不确定环境时，模型还是不太会“试新东西”。

简单说，语言模型已经不只是“回答器”，而是在慢慢变成一个能思考、能试错、能改进的智能系统。它优化的方式不是传统意义上的数学解法，而更像是人类的做事方式：先试一下，看效果，再想想怎么改，越改越好。这种方法很有潜力，但也还有很多需要探索的地方。

Agent 的离线和在线自我进化

Agent的自我进化有两种路径：在线优化和离线优化。

在线优化发生在Agent运行过程中，依赖实时反馈不断调整自身行为。比如，模型会在输出后马上检视错误并尝试修正（如 Reflexion、Self-Refine），多个Agent之间也可以协作交流，共同提升对任务的理解（如 MetaGPT、ChatDev）。奖励机制在执行过程中动态更新，参数也会根据环境调整，不再依赖人工干预。这一过程使得Agent具备了边用边学的能力，能跟随环境的变化即时反应。

离线优化则更像是一种结构化的训练。它依赖高质量数据和预定训练计划，系统性地提升模型的泛化能力。包括大规模的微调、使用检索增强方法增强记忆力、调整奖励函数使其更贴合真实目标。离线优化强调稳定性，它让Agent在面对正式场景前，已经有了坚实可靠的底子。

二者各有长短。在线优化反应快，但容易偏离轨道；离线优化扎实稳，但不够灵活。越来越多的系统选择将两者结合，形成混合优化框架。

在这种混合策略中，Agent首先通过离线训练打好基础；接着在实际运行中，自主调整和优化策略；最后，再定期将这些在线获得的提升“写入”主模型，以维持长期性能。整个过程是一个循环：从预训练，到实战调整，再到归纳总结。

这种机制，使得Agent既能像人类一样随时改进，也能像机器一样保持稳定，是通向复杂任务能力的重要路径。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业