2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Loop Engineering 具体做些什么

发布日期:2026-06-29 10:05:52 浏览次数: 1518
作者:NanoAgent

微信搜一搜,关注“NanoAgent”

推荐语

深入了解智能体工程落地的核心差异,不在基础循环,而在其外围的访问控制与执行约束。

核心内容:
1. 智能体工程落地的四大关键领域
2. 为何不能完全依赖模型的停止信号
3. 防止上下文腐烂与确保任务完成的机制

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Loop Engineering 具体做些什么

无论使用哪一种开发框架、什么人工智能辅助工具,每个智能体(Agent)背后都运行着相同的基础循环。这个循环通常包含以下步骤:

将上下文发送给模型
上下文内容影响工具调用(tool call)
运行具体的外部工具
将工具运行结果追加到上下文
回到第一步,继续下一轮循环

这个循环会一直运行,直到模型在没有请求工具调用的情况下给出最终响应。它很短,也很简单。在 LangGraph、OpenAI Agents SDK 和 Claude Code 中,这个核心循环几乎完全相同。没有人会在 while 循环本身上形成真正的竞争壁垒,因此竞争的重心转移到了循环之外。

真正需要编写的代码,是智能体循环之外的一切:循环如何停止、上下文保留哪些内容、模型可以访问哪些工具,以及如何检查结果。

⚡ 核心判断

Agent 工程落地的差异,不在基础循环的设计,而在围绕循环建立的访问控制、执行约束、上下文管理和结果验证。


智能体工程落地关注什么

• Prompt工程:直接发送给模型的文字,用于引导模型生成准确且符合预期的输出。
Context 工程:模型在每一轮循环中看到的所有内容,包括历史消息、工具结果、状态摘要和外部资料。
Harness 工程:围绕模型运行工具、跟踪状态以及从错误中恢复的逻辑实现。
Loop 工程:决定智能体执行什么任务、如何推进任务,以及何时完成任务的外部控制循环。

循环结束并不意味着完成任务

通常情况下,会认为模型在没有工具调用的情况下给出响应作为循环结束的标识,本质上取决于模型判断自己是否完成任务。

但这种判断往往并不可靠。智能体完成修改后,可能返回一个非常自信的总结摘要,不再调用任何工具,循环就此结束。问题是,它可能根本没有运行测试,或者测试已经失败。

循环结束了,并不意味着任务完成了。因为不能完全信任模型自身的停止信号,就需要添加模型无法控制的外部条件:

最大迭代次数:硬性限制,防止卡住的智能体无限运行。
预算和时间限制:限制 Token、成本和实际运行时间。
无进展检测:组织智能体用相同参数重复调用同一工具的情况。
真正的完成检查:用明确的标准证明任务已经完成。

💡 完成检查的价值

完成检查是用客观信号取代模型自我评估的关键机制。完成应该意味着测试通过、类型检查通过或目标条件被验证,而不是模型报告“我已经完成”。

Claude Code 的 /goal 命令就是类似思路:持续运行循环,直到满足可验证的条件,并使用一个单独的模型确认该条件。


上下文腐烂与循环

循环运行得越久,上下文中积累的噪声就越多,例如旧的工具输出、废弃的探索路径和过时的推理。随着这些信息堆积,模型质量会快速下降。这种现象通常被称为上下文腐烂(context rot)。

循环会让这种腐烂呈螺旋式恶化:被污染的上下文导致更差的决策,更差的决策又会产生更多噪声,进一步侵蚀上下文。智能体运行时间越长,执行效率和判断质量就越容易下降。LangChain 在开发框架中加入了中间件,用于检测这种死循环。

解决办法是把上下文窗口视为一种资源,提前做好预算:

对过长对话进行总结,再基于总结继续执行。
将大量输出卸载到文件里,只在上下文中保留关键结果。
使用多智能体协作,让不同智能体之间只传递精简的执行结果。

循环内部的工具设计

如果给智能体太多相似工具,它就很容易无法判断应该调用哪一个。因此,一个重点突出、边界清晰、互不重叠的工具集合,通常效果最好。

如果工程师都不能确定哪个工具更合适,智能体通常也不能确定。减少可用工具数量,反而可以提高成功率。

写入操作必须可以安全重复执行:循环会重试失败步骤,如果创建操作不具备幂等性,就可能产生重复记录。
错误信息必须说明下一步动作:在循环中,错误信息也会成为下一轮输入。模糊错误会显著增加模型的推理成本。

在循环中加入一个评判智能体

判断任务是否完成的人,不应该是执行任务的模型。如果一个模型给自己的工作打分,通常会高分通过。因此,没有外部检查的循环,本质上只是智能体的自我认可。

img

所以,执行者和评判者应该分开。一个智能体负责执行任务,另一个智能体负责对任务成果进行评分。评分结果可以是测试失败、类型错误这类硬性结果,也可以是第二个模型基于不同指令运行的评审。在这个检查机制,检查者也有权判断任务尚未完成,所以人类可以真正放手让循环运行。


用户的工作剩下什么

用户只需要通过提示引导智能体分步行动即可。循环工程要做的是构建控制循环,然后定义任务完成的标准。最终的成功包含三个方面:

目标被定义成一个明确的成功标准,智能体可以据此进行自我检查。
循环不会因为模型主观判断而停止,只会因为正确结果被验证才停止。
检查者认定的成功来自客观检查与任务完成标准进行比较。

Loop Engineering 最佳实践

不需要一开始就拥有一个完全自主的智能体,更合适的路线是循序渐进地改进:

1从基本循环开始,并设置最大迭代次数、超时时间和成本上限。
2在任务开始前定义完成标准,而不是事后主观判断是否完成。
3压缩长时间运行的历史,卸载大量输出,并隔离混乱的子任务。
4执行任务时保持工具数量少且功能集中。
5确保写入操作可以安全重复执行,而不产生冗余信息。
6重写错误信息,指引智能体接下来做什么。
7引入评判者:当拥有足够信任评判者时,才能真正把任务交给自主循环。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询