微信扫码
添加专属顾问
我要投稿
LangChain与Manus创始人深度对话,首次公开AI智能体上下文工程的五大黄金策略,破解"上下文腐烂"难题。核心内容: 1. AI智能体面临的"上下文腐烂"危机及其成因分析 2. 五大核心策略:卸载、缩减、隔离、检索、缓存 3. 实现模型与应用最佳平衡的实践方法与行业洞见
AI智能体正遭遇前所未有的“上下文腐烂”危机,性能随信息堆积而急剧下降。本文深度剖析LangChain与Manus的最新上下文工程实践,揭秘如何通过卸载、缩减、隔离等五大策略,让智能体在海量信息中保持高效与精准,告别过度工程的陷阱,实现模型与应用的最佳平衡。
当下,一场静默的革命正在AI领域上演,核心便是如何驯服智能体的“记忆力”——上下文管理。你也许听过“提示工程”,但一个更新、更具颠覆性的概念正在迅速崛起,那就是上下文工程。它不仅是技术,更是一门精巧的艺术与科学,关乎如何让你的AI智能体在海量信息洪流中保持清醒和高效。
这并非危言耸听。当大语言模型被赋予工具,在一个又一个循环中自主运行,每次工具调用都会产生观察结果,并无限制地追加到聊天记录中。Manus的数据揭示,典型任务大约需要50次工具调用。Anthropic更是指出,生产环境中的智能体对话可能持续数百轮。这意味着,智能体的上下文正在以惊人的速度爆炸式增长,而随之而来的,却是令人担忧的“上下文腐烂”——模型性能随着上下文长度的增加而下降。这种悖论,正是所有智能体开发者面临的共同痛点。
“上下文工程”——这个由Andrej Karpathy在今年早些时候创造的词汇——正是为了解决这一核心挑战。它旨在用恰到好处的信息填充上下文窗口,确保智能体在每个时间点都能做出正确的决策,而非被历史信息所拖累。理解并掌握这一核心技术,将是驱动你的智能体从“可用”走向“卓越”的关键。
所以,结论先行:上下文工程是当前应用和模型之间最清晰、最实用的边界,通过巧妙地管理信息流,它将帮助你的智能体突破性能瓶颈,实现真正的智能跃迁。
其本质洞察可归结为以下几点:
“智能体之年”伴随着的,是“上下文腐烂”这一不可忽视的挑战。想象一下,一个大语言模型(LLM)被赋予了一系列工具,比如网页搜索、文件读写、代码执行。当它开始执行一个任务时,会自主地在循环中调用这些工具。每次工具调用后,都会产生一个“观察结果”,并被追加到智能体的消息历史中。这个消息列表如同一个不断膨胀的记忆库,随着智能体长时间自主运行和频繁使用工具,消息数量会呈指数级增长。
然而,Anthropic的一份报告明确指出,随着上下文长度的增加,模型的性能会下降,这就是所谓的“上下文腐烂”。这就形成了一个吊诡的悖论:智能体需要大量上下文来进行工具调用,但我们又清楚地知道,上下文越长,其决策质量和推理能力反而越差。通常在上下文达到200k Token左右时,模型性能便开始出现重复、推理变慢、质量下降等“腐烂”迹象。
如何在这条狭窄的路径上寻找平衡?这正是上下文工程的使命所在。
面对上下文爆炸带来的“记忆”危机,LangChain和Manus等先行者们总结出了一系列行之有效的策略,Manus的经验尤为深刻。
并非所有上下文都需要实时保存在智能体的消息历史中。上下文卸载的核心理念是将信息转移到上下文窗口之外的存储空间,例如文件系统。这样,信息在需要时仍可被检索,却不会永久占据宝贵的上下文窗口。
例如,消耗大量Token的网页搜索结果,可转储到文件系统,仅将最简必要信息返回给智能体。当智能体需要时,再通过文件路径引用完整上下文。这种方式在Open Deep Research等多个项目中得到验证,是许多生产级智能体的常见做法。
上下文缩减是卸载的补充,旨在对信息进行摘要或压缩。Manus将其细分为压缩(Compaction)和摘要(Summarization)两种不同操作。
在实践中,Manus通过大量评估,确定了“腐烂前”的阈值(通常在128k到200k Token之间),并将其作为触发上下文缩减的信号,优先启动压缩,而非直接摘要。
为智能体按需检索上下文是构建高效系统的关键。Cursor等产品采用索引和语义搜索,结合glob
和grep
等文件搜索工具。而Claude Code则更依赖文件系统和简单的搜索工具。Manus同样不使用动态向量索引,而是依赖于grep
和glob
在会话沙盒内的文件系统中进行检索,因为每个Manus会话都是一个全新的环境,动态构建索引成本过高。
对于长期记忆,Manus引入了“知识”的概念,这是一种显式记忆。例如,用户可以明确指示Manus记住特定偏好,这些偏好会通过用户确认机制存入长期记忆,而非自动插入。
上下文隔离通过多智能体来划分上下文,使每个子智能体拥有独立的上下文窗口,实现关注点分离。
Manus对此提出了独特的见解,借鉴了Go语言的“不要通过共享内存来通信,而要通过通信来共享内存”理念:
Manus提醒,共享上下文成本较高,因为每个子智能体都需要预填充更大的输入,且无法重用KV缓存。因此,需谨慎选择。
缓存上下文是一种有效减少Token消耗的技巧。Manus对此有很多讨论,尤其是在处理重复性任务或长期会话中,缓存能够显著提升效率,减少不必要的重新计算。
随着系统复杂性增加,工具本身也会占用大量上下文,导致“上下文混淆”。动态RAG工具描述固然可行,但会破坏KV缓存,且已移除工具的调用记录仍可能误导模型。为此,Manus正在试验一种全新的分层式行为空间:
关键在于,从模型的角度看,所有这三层最终都通过标准的函数调用来执行。例如,沙盒工具通过shell
工具函数访问,API调用通过文件函数读写文件再用shell
函数执行。这保持了接口的简单性、对缓存的友好性,并确保了各个函数之间的正交性。
最后,Manus的经验带来了一个反直觉的深刻启示:避免上下文过度工程。回溯Manus上线以来的数月,最大的飞跃并非来自增加更多花哨的上下文管理层或巧妙的检索技巧,而是来自简化,来自移除不必要的技巧,以及每一次都对模型多一点信任。
每当Manus简化架构,系统就会变得更快、更稳定、更智能。因为上下文工程的真正目标,是让模型的工作变得更简单,而不是更难。所以,请记住:少做加法,多做理解。
AI智能体的未来在于其灵活适应与进化。正如Manus每隔一两个月就会重构一次架构,并在不同模型间切换以测试其架构的“未来适应性”——今天的弱模型可能就是明天的强模型,这种前瞻性思维将确保你的智能体始终走在时代前沿。
附注:
如果你也渴望构建更智能、更高效的AI智能体,不妨将这些顶尖实践融入你的开发流程。点击【赞】或【分享】,让我们一起在AI浪潮中乘风破浪!
原文地址:
https://www.youtube.com/watch?v=6_BcCthVvb8
如果您想要让大模型写出优质的短篇小说,以及对其他内容感兴趣,也欢迎点击下面的链接,效果不错哦,很多朋友都说好。
效果如下
Agent设计模式" data-itemshowtype="0" linktype="text" data-linktype="2">一文读懂4种AI Agent设计模式
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-09
Langchain回应OpenAI:为什么我们不做拖拉拽工作流
2025-09-21
告别无效检索:我用LangExtract + Milvus升级 RAG 管道的实战复盘
2025-09-19
AI Agent 软件工程关键技术综述
2025-09-13
我为啥现在如此热衷于LangGraph智能体开发
2025-09-12
重磅发布!LangChain 1.0 Alpha 来了,Agent 终于统一了!
2025-09-06
沧海独家:LangChain 1.0 Alpha 架构重构全解析
2025-08-30
LangChain如何使用通义千问的向量模型
2025-08-29
Claude code prompt原来这么写的,怪不得这么厉害
2025-09-13
2025-09-21
2025-08-19
2025-08-17
2025-07-30
2025-09-19
2025-07-22
2025-07-23
2025-08-29
2025-08-03
2025-07-14
2025-07-13
2025-07-05
2025-06-26
2025-06-13
2025-05-21
2025-05-19
2025-05-08