微信扫码
添加专属顾问
我要投稿
别再被花哨概念迷惑!大模型Agent开发需要回归本质:单线程稳定运行、传统检索方法和精简指令设计。 核心内容: 1. 多智能体协作的实践困境与单线程优势 2. RAG技术的理论缺陷与更优替代方案 3. 指令堆砌的负面效应与精简策略的价值
#大语言模型(LLM)智能体开发中,有三种诱人的想法正在误导整个行业。这些"思维病毒"听起来高深莫测,实际应用却漏洞百出:多智能体协作、检索增强生成(RAG),以及"指令越多效果越好"的迷思。
经过大量实践验证,真正有效的智能体构建需要回归本质:单线程稳定运行、传统检索方法,以及精简而清晰的指令设计。下面是三种"思维病毒"的真面目:
可以关注公众号 #极客开源 👆 获取最新一手 #AI大模型 #开源项目 信息,如果这篇文章对你有用,可以点个“推荐”,听说会影响公众号的 #推荐算法。
那种科幻电影里的场景:"后方智能体、军需智能体、分析#智能体、指挥智能体"分别派出一大群子智能体,最后再将结果汇总起来。这一切听起来确实很酷,但现实很骨感:绝大多数有用的智能体工作都是单线程的。
像 #OpenAI 的 Swarm 和微软的 #AutoGen 这样的框架,竟然在推广完全错误的智能体构建思路。复杂的协作流程很少能带来真正的价值,反而常常制造混乱。要知道,仅仅让模型在单线程里稳定工作就已经够难的了,更别提去处理那些并行的协作逻辑了。
举个例子:假设任务是"做一个 Flappy Bird 克隆游戏",被拆分成"做游戏背景"和"做游戏角色"两个子任务。结果子智能体 1 做了超级马里奥风格的背景,子智能体 2 做了个既不像游戏素材、移动方式也完全错误的鸟。最终智能体要面对合并这两个沟通错误结果的糟心任务。
这不是个例。现实任务有很多层次的细节,都可能被误解。而且在真实生产系统中,对话是多轮的,智能体需要调用工具来决定如何拆分任务,任何细节都可能影响理解。
检索增强生成(#RAG)在理论上看起来很强大,但在实践中,尤其是在智能体场景下,有时候连 GREP 这种基础的文本搜索命令都比它好用。
为什么 RAG 的光环在实际的智能体工作流中会褪色?因为它检索到的信息往往是零散的片段,无法让模型形成连贯、有用的理解。
更好的方法几乎总是:让模型自己去列出文件,用类似 grep 的方式进行搜索,然后打开并阅读整个文件(就像人类一样)。Cline 团队很早就开始这么做了,后来 Amp 和 #Cursor 也都转向了这种更务实的方法。
有个流传很广的误解:在系统提示词里堆砌越来越多的"指令",就能让模型变得更聪明。这完全是错的。
给提示词"注水"只会让模型感到困惑,因为更多的指令往往会导致建议相互冲突和信息过载。结果就是,开发者不得不像玩"打地鼠"游戏一样,不停地修补模型的各种奇怪行为,而不是得到真正有用的输出。
对于如今大多数前沿模型而言,最好的方法是别挡它们的路,而不是在旁边不停地大喊大叫,试图把它们引向某个特定方向,每一个 Token 都要珍惜。
避开这些思维病毒后,我们来看真正重要的东西:#上下文工程。这是构建可靠智能体的核心。
原则一:共享上下文,要共享完整的智能体轨迹,不只是单独的消息
原则二:行动承载隐性决策,冲突决策导致糟糕结果
为什么要谈原则?
HTML 诞生于 1993 年。2013 年,Facebook 把 #React 推向世界。现在是 2025 年,React(及其后继者)主导着开发者构建网站和应用的方式。为什么?因为 React 不只是写代码的脚手架,它是一种哲学。用 React,你就拥抱了响应式和模块化的应用构建模式。
在大语言模型和 #AI智能体 的时代,行业仍像在玩原始的 HTML 和 CSS,琢磨着怎么把它们拼凑成好用的东西。除了一些基础套路,还没有哪种构建智能体的方法成为标准。
2025 年的模型已经极其聪明。但即使最聪明的人,没有工作背景也干不好活。"#提示工程"是指为 #LLM 聊天机器人写出理想格式任务描述的技巧。"上下文工程"是更高层次的概念,是在动态系统中自动完成这件事。它需要更多技巧,实际上是 AI 智能体工程师的第一要务。
当智能体需要长期稳定运行,保持连贯对话时,必须做好某些事情来防止错误累积。不然一不小心,整个系统就崩了。
以多智能体为例,即使给每个子智能体都提供完整的上下文,问题依然存在。当处理同样的 Flappy Bird 克隆任务时,可能得到完全不同视觉风格的鸟和背景。子智能体看不到对方在做什么,所以工作最终不一致。它们的行动基于事先没有明确的冲突假设。
遵循这些原则最简单的方法就是用单线程线性智能体。这里,上下文是连续的。对于有很多子部分的超大任务,可能遇到上下文窗口溢出的问题,但简单架构能让你走得很远。
对于真正长时间运行的任务,可以引入专门的压缩模型。这个大语言模型的主要目的是把行动和对话历史压缩成关键细节、事件和决策。这很难做对,需要投入来搞清楚什么是关键信息,创建一个善于此道的系统。根据领域不同,甚至可以考虑微调一个小模型。
Claude Code 的智慧选择
截至 2025 年 6 月,Claude Code 是一个生成子任务的智能体例子。但它从不与子任务智能体并行工作,子任务智能体通常只负责回答问题,不写任何代码。为什么?
子任务智能体缺乏主智能体的上下文,除了回答明确定义的问题外,它需要这些上下文来做任何事情。如果运行多个并行子智能体,可能会给出冲突回应,导致可靠性问题。#ClaudeCode 的设计者采取了故意简单的方法。
2024 年,很多模型在编辑代码方面表现很差。编程智能体、IDE、应用构建器等的常见做法是使用"编辑应用模型"。核心思想是,给小模型一个想要更改的 markdown 解释来让它重写整个文件,比让大模型输出格式正确的差异更可靠。
但这些系统仍然很有问题。小模型经常因为大模型指令中最轻微的歧义而误解指令,做出错误编辑。今天,编辑决策和应用更多是由单一模型在一个行动中完成。
自 #ChatGPT 发布后不久,人们就开始探索多个智能体相互交互来实现目标的想法。虽然智能体彼此协作的长期可能性值得期待,但显然在 2025 年,运行多个协作智能体只会导致脆弱的系统。
决策最终太分散,上下文无法在智能体之间充分共享。目前,没有人专门努力解决这个困难的跨智能体上下文传递问题。当单线程智能体更好地与人类沟通时,这个问题可能会自然而然地解决。当这一天到来时,将释放更大量的并行性和效率。
如果你是智能体构建者,确保智能体的每个行动都基于系统其他部分做出的所有相关决策的上下文。理想情况下,每个行动都能看到其他一切。由于有限的上下文窗口和实际权衡,这并不总是可能的,需要在复杂度和可靠性之间做出权衡。
这些关于上下文工程的观察只是构建智能体标准原则的开始。如果不是整天和 AI 打交道,可能会觉得它们都非常有道理,然而事实并非如此。当然,随着底层模型能力的提升,对这些方法的看法未来也可能会改变。
但至少在 2025 年,务实的路径很清晰:抛弃科幻幻象,回归工程本质,让单线程智能体稳定可靠地为人类服务。毕竟,一个能稳定工作的笨智能体,远比一群吵吵闹闹却不知道在干什么的聪明智能体更有价值
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-21
2025-05-29
2025-06-01
2025-06-21
2025-06-07
2025-06-12
2025-08-19
2025-06-19
2025-06-13
2025-05-28
2025-08-22
2025-08-22
2025-08-21
2025-08-20
2025-08-19
2025-08-19
2025-08-18
2025-08-18