我要投稿

LangChain对话Manus创始人：顶级AI智能体上下文工程的“满分作业”首次公开

发布日期：2025-10-15 22:07:54 浏览次数： 1947

作者：草台AI

微信搜一搜，关注“草台AI”

LangChain对话Manus创始人：顶级AI智能体上下文工程的“满分作业”首次公开

AI智能体正遭遇前所未有的“上下文腐烂”危机，性能随信息堆积而急剧下降。本文深度剖析LangChain与Manus的最新上下文工程实践，揭秘如何通过卸载、缩减、隔离等五大策略，让智能体在海量信息中保持高效与精准，告别过度工程的陷阱，实现模型与应用的最佳平衡。

当下，一场静默的革命正在AI领域上演，核心便是如何驯服智能体的“记忆力”——上下文管理。你也许听过“提示工程”，但一个更新、更具颠覆性的概念正在迅速崛起，那就是上下文工程。它不仅是技术，更是一门精巧的艺术与科学，关乎如何让你的AI智能体在海量信息洪流中保持清醒和高效。

这并非危言耸听。当大语言模型被赋予工具，在一个又一个循环中自主运行，每次工具调用都会产生观察结果，并无限制地追加到聊天记录中。Manus的数据揭示，典型任务大约需要50次工具调用。Anthropic更是指出，生产环境中的智能体对话可能持续数百轮。这意味着，智能体的上下文正在以惊人的速度爆炸式增长，而随之而来的，却是令人担忧的“上下文腐烂”——模型性能随着上下文长度的增加而下降。这种悖论，正是所有智能体开发者面临的共同痛点。

“上下文工程”——这个由Andrej Karpathy在今年早些时候创造的词汇——正是为了解决这一核心挑战。它旨在用恰到好处的信息填充上下文窗口，确保智能体在每个时间点都能做出正确的决策，而非被历史信息所拖累。理解并掌握这一核心技术，将是驱动你的智能体从“可用”走向“卓越”的关键。

所以，结论先行：上下文工程是当前应用和模型之间最清晰、最实用的边界，通过巧妙地管理信息流，它将帮助你的智能体突破性能瓶颈，实现真正的智能跃迁。

其本质洞察可归结为以下几点：

认知负荷管理
将上下文视为智能体有限的“注意力”，必须精简与优化。
信息生命周期
区分信息的重要性与时效性，动态调整其在上下文中的位置。
架构韧性
通过分层与隔离，增强智能体应对复杂任务和模型演进的能力。
策略平衡
在卸载、缩减、检索、隔离和缓存之间寻找最优解，而非单一路径。
信任与简化
避免过度工程，相信模型本身的进化能力，追求极致的简洁。

“上下文腐烂”的警钟：智能体为何失忆？

“智能体之年”伴随着的，是“上下文腐烂”这一不可忽视的挑战。想象一下，一个大语言模型（LLM）被赋予了一系列工具，比如网页搜索、文件读写、代码执行。当它开始执行一个任务时，会自主地在循环中调用这些工具。每次工具调用后，都会产生一个“观察结果”，并被追加到智能体的消息历史中。这个消息列表如同一个不断膨胀的记忆库，随着智能体长时间自主运行和频繁使用工具，消息数量会呈指数级增长。

然而，Anthropic的一份报告明确指出，随着上下文长度的增加，模型的性能会下降，这就是所谓的“上下文腐烂”。这就形成了一个吊诡的悖论：智能体需要大量上下文来进行工具调用，但我们又清楚地知道，上下文越长，其决策质量和推理能力反而越差。通常在上下文达到200k Token左右时，模型性能便开始出现重复、推理变慢、质量下降等“腐烂”迹象。

如何在这条狭窄的路径上寻找平衡？这正是上下文工程的使命所在。

Manus的实践心法：化解“记忆”危机的五维策略

面对上下文爆炸带来的“记忆”危机，LangChain和Manus等先行者们总结出了一系列行之有效的策略，Manus的经验尤为深刻。

1. 上下文卸载：让信息“离线”存储

并非所有上下文都需要实时保存在智能体的消息历史中。上下文卸载的核心理念是将信息转移到上下文窗口之外的存储空间，例如文件系统。这样，信息在需要时仍可被检索，却不会永久占据宝贵的上下文窗口。

例如，消耗大量Token的网页搜索结果，可转储到文件系统，仅将最简必要信息返回给智能体。当智能体需要时，再通过文件路径引用完整上下文。这种方式在Open Deep Research等多个项目中得到验证，是许多生产级智能体的常见做法。

2. 上下文缩减：压缩与摘要的艺术

上下文缩减是卸载的补充，旨在对信息进行摘要或压缩。Manus将其细分为压缩（Compaction）和摘要（Summarization）两种不同操作。

压缩
是可逆的。Manus为每个工具调用和结果提供完整和紧凑两种格式。紧凑版本会剥离可从外部状态（如文件系统）重建的信息。例如，文件写入工具执行后，超长的内容字段可被移除，只保留文件路径。智能体若需，可随时通过路径检索。这种可逆性至关重要，因为智能体基于历史行为链式预测，任何过去的行为都可能在未来变得关键。
摘要
是不可逆的。当压缩收益微乎其微，上下文仍接近阈值时，才会转向摘要。Manus在摘要前，会先将上下文关键部分卸载到文件，甚至将摘要前的完整上下文转储为日志文件，以备不时之需。更重要的是，摘要时总使用完整数据，并保留最近几次工具调用和结果的完整细节，以确保模型决策的连贯性。

在实践中，Manus通过大量评估，确定了“腐烂前”的阈值（通常在128k到200k Token之间），并将其作为触发上下文缩减的信号，优先启动压缩，而非直接摘要。

3. 上下文检索：按需唤醒关键信息

为智能体按需检索上下文是构建高效系统的关键。Cursor等产品采用索引和语义搜索，结合glob和grep等文件搜索工具。而Claude Code则更依赖文件系统和简单的搜索工具。Manus同样不使用动态向量索引，而是依赖于grep和glob在会话沙盒内的文件系统中进行检索，因为每个Manus会话都是一个全新的环境，动态构建索引成本过高。

对于长期记忆，Manus引入了“知识”的概念，这是一种显式记忆。例如，用户可以明确指示Manus记住特定偏好，这些偏好会通过用户确认机制存入长期记忆，而非自动插入。

4. 上下文隔离：多智能体协作的范式革新

上下文隔离通过多智能体来划分上下文，使每个子智能体拥有独立的上下文窗口，实现关注点分离。

Manus对此提出了独特的见解，借鉴了Go语言的“不要通过共享内存来通信，而要通过通信来共享内存”理念：

通信模式
适用于任务有简短、清晰指令，且只关心最终输出的场景。主智能体发送指令给子智能体，子智能体上下文只包含该指令。例如，在代码库中搜索特定片段。
共享内存模式
适用于任务复杂，最终报告依赖大量中间搜索和笔记的场景。子智能体可以看到完整的先前上下文和工具使用历史，但拥有自己的系统提示和行为空间。

Manus提醒，共享上下文成本较高，因为每个子智能体都需要预填充更大的输入，且无法重用KV缓存。因此，需谨慎选择。

5. 上下文缓存：优化重复计算的效率

缓存上下文是一种有效减少Token消耗的技巧。Manus对此有很多讨论，尤其是在处理重复性任务或长期会话中，缓存能够显著提升效率，减少不必要的重新计算。

分层式行为空间：Manus对上下文卸载的深层探索

随着系统复杂性增加，工具本身也会占用大量上下文，导致“上下文混淆”。动态RAG工具描述固然可行，但会破坏KV缓存，且已移除工具的调用记录仍可能误导模型。为此，Manus正在试验一种全新的分层式行为空间：

第一层：函数调用
只保留数量有限的原子函数（如读写文件、执行Shell命令、搜索），它们边界清晰且可组合。这是模式安全的，但工具过多会造成混淆。
第二层：沙盒工具
Manus的每个会话都在一个完整的虚拟机沙盒中运行。这意味着智能体可以使用Shell命令来运行预装工具，如格式转换器、语音识别工具、甚至MCP命令行工具。这些工具无需注入到函数调用空间，通过命令行界面完成，对大输出友好（可写入文件或分页），但与前端低延迟交互不理想。
第三层：软件包与API
Manus可以编写Python脚本来调用预授权API或自定义软件包。这适用于需要大量内存计算，但无需将所有数据推送到模型上下文的任务（如金融数据分析）。代码和API具有极高的可组合性，能一步链接多个操作，但并非模式安全，难以进行约束解码。

关键在于，从模型的角度看，所有这三层最终都通过标准的函数调用来执行。例如，沙盒工具通过shell工具函数访问，API调用通过文件函数读写文件再用shell函数执行。这保持了接口的简单性、对缓存的友好性，并确保了各个函数之间的正交性。

避免上下文过度工程：大道至简

最后，Manus的经验带来了一个反直觉的深刻启示：避免上下文过度工程。回溯Manus上线以来的数月，最大的飞跃并非来自增加更多花哨的上下文管理层或巧妙的检索技巧，而是来自简化，来自移除不必要的技巧，以及每一次都对模型多一点信任。

每当Manus简化架构，系统就会变得更快、更稳定、更智能。因为上下文工程的真正目标，是让模型的工作变得更简单，而不是更难。所以，请记住：少做加法，多做理解。

AI智能体的未来在于其灵活适应与进化。正如Manus每隔一两个月就会重构一次架构，并在不同模型间切换以测试其架构的“未来适应性”——今天的弱模型可能就是明天的强模型，这种前瞻性思维将确保你的智能体始终走在时代前沿。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业