微信扫码
添加专属顾问
我要投稿
中国90后天才Peak Ji突破AI Agent性能瓶颈,揭秘上下文工程五大核心策略。核心内容: 1. Peak Ji从iPhone破解者到AI创业者的技术成长之路 2. AI Agent面临的上下文爆炸挑战与性能下降问题 3. 解决上下文工程的五大策略:卸载、缩减、检索、隔离与优化
一个任务50次工具调用,上下文无限膨胀,性能急剧下降——这就是AI Agent面临的核心挑战。一位中国90后天才提出了革命性解决方案。
在ChatGPT引爆全球AI热潮后,一个全新的领域——上下文工程正在悄然崛起。当各大科技公司还在比拼模型参数规模时,一位来自中国的年轻技术天才已经找到了让AI真正智能化的关键所在。
他就是季逸超,更为人熟知的名字是Peak Ji,Manus的联合创始人兼首席科学家。近日在与LangChain的联合研讨会中,他揭示了构建高效AI智能体的核心技术——上下文工程,并分享了从数百万次真实交互中总结的宝贵经验。
Peak Ji的技术天赋在少年时期就已显现。不到18岁,他就因成功升级iPhone OS 4.0系统而被誉为"中国iPhone OS 4.0第一人"。
早在高中时期,他就独立开发了猛犸浏览器,并因此获得了真格基金和红杉资本的天使投资。
凭借出色的技术成就,季逸超在19岁时就登上了《福布斯》杂志的封面,并多次入选"30岁以下精英榜"。
他后来创立了Peak Labs实验室,并成为Manus的联合创始人兼首席科学家。作为《麻省理工科技评论》评选的2025年35岁以下创新者之一,他正带领团队在AI Agent领域开辟新的天地。
随着AI Agents执行日益复杂的长期任务,其上下文窗口会因大量的工具调用而急剧膨胀,导致性能显著下降。
LangChain的创始工程师Lance Martin在最近的联合研讨会中解释道:"典型的任务可能需要大约50次工具调用,生产环境中的代理可能会进行长达数百轮的对话。"
这就形成了一个核心矛盾:Agents的强大功能依赖于利用大量上下文信息,但模型的性能却会因为上下文过长而受损。
Anthropic在一份关于"上下文腐烂"(context rot)的报告中确认了这一现象——随着上下文长度的增加,模型性能会显著下降。
面对这一挑战,业界逐渐形成了一套系统的解决方案。Lance Martin总结了上下文工程的五大核心策略:
将信息从核心的对话历史中移出,存放到外部系统(如文件系统),只在上下文中保留一个轻量级的引用。
比如,将工具消息的输出转储到文件系统中,然后只向智能体返回必要的最简信息。
通过总结或压缩来减少信息量,例如修剪旧的工具调用记录。
Manus将缩减操作细分为两种:压缩和总结。压缩是一种可逆的缩减,而总结则是不可逆的精炼。
在需要时,按需从外部系统将信息取回。实现方式包括基于索引的语义搜索,或更简单的基于文件系统的搜索工具。
通过将任务分解给多个子代理(sub-agents),每个子代理拥有自己独立的、更小的上下文窗口,从而实现关注点分离和上下文管理。
对上下文信息进行缓存,以提高效率(这一点在Manus的实践中被特别提及)。
在Manus的官方技术博客中,Peak Ji分享了团队从四次重构和数百万次真实交互中总结的宝贵经验。
"如果我必须选择仅一个指标,我认为KV-cache命中率是生产阶段AI Agent最重要的单一指标。它直接影响延迟和成本。"
Peak Ji解释道,在Manus中,平均输入与输出token比率约为100:1,这使得KV缓存优化变得至关重要。以Claude Sonnet为例,缓存的输入token成本为0.30美元/MTok,而未缓存的成本为3美元/MTok——相差10倍。
随着Agent能力增强,其行动空间会自然变得更加复杂。Manus使用上下文感知的状态机来管理工具可用性,它不是移除工具,而是在解码过程中屏蔽token logits,防止基于当前上下文选择某些行动。
"现代前沿大语言模型现在提供128K个token或更多的上下文窗口。但在真实世界的Agent场景中,这通常不够,有时甚至是一种负担。"
Manus将文件系统视为终极上下文:容量无限、天然持久,并且代理可直接操作。模型学会按需读写文件——把文件系统不仅当作存储,更当作结构化、外化的记忆。
在Manus中,一个典型任务平均需要约50次工具调用。这是一个很长的循环——Agent很容易在冗长上下文或复杂任务中偏离主题或遗忘早期目标。
通过不断重写待办清单,Manus把目标"背诵"到上下文的末尾。这会将全局计划推入模型的近期注意力范围,避免了"迷失在半道"的问题,并减少了目标错位。
在创办Manus之前,Peak拥有超过十年的自然语言处理经验,他的上一个创业项目就是从零开始训练自己的语言模型。
这段经历让他痛苦地认识到,过早地构建专用模型会带来巨大风险:
"初创公司应该尽可能长时间地依赖通用模型和上下文工程。"
然而,随着产品成熟和开源基础模型的崛起,另一个陷阱也随之出现:用自有数据微调一个强大的基础模型,使其在特定用例上表现出色。
Peak指出这同样是危险的,因为AI和Agents的早期阶段是极其脆弱的,底层技术可能一夜之间发生颠覆。
MCP的发布就是一个典型例子——它彻底改变了Manus的设计,使其从一个紧凑、静态的行动空间,转变为一个几乎无限可扩展的系统。
上下文精简是上下文工程的核心技术之一,但Manus在实践中将其细分为两种截然不同但相辅相成的方法:压缩(Compaction)和总结(Summarization),并建立了一套严谨的工作流程来协同使用它们。
压缩的核心思想是一种可逆的信息缩减。它并非真正地"减少"信息,而是将信息的一部分外化到上下文窗口之外的某个地方(如文件系统或外部状态),同时在上下文中保留足以重建完整信息的线索。
具体例子:假设一个工具的功能是向文件中写入内容,它可能包含两个字段:path(路径)和content(内容)。一旦这个工具执行成功,我们就可以确定该文件已经存在于环境中。因此,在紧凑格式中,可以安全地丢弃可能非常长的content字段,只保留path。如果Agent后续需要再次读取该文件,它可以通过path轻松地检索到全部内容。
可逆性至关重要:Agents的决策是链式的,基于之前的行动和观察。我们永远无法预知过去的哪个动作会在十步之后突然变得至关重要。可逆的压缩确保了没有任何信息被真正丢失,只是被暂时移出了即时上下文。
当仅靠压缩已无法将上下文大小控制在阈值以下时,就需要动用更传统的总结方法。总结是不可逆的,意味着信息会有损失,因此必须非常谨慎地使用。
在执行总结之前,一个最佳实践是先将上下文中的关键部分卸载到文件中。在更激进的情况下,甚至可以将整个待总结的上下文作为一个文本或日志文件转储到file system中。
为了让压缩和总结能够和谐共存,Manus设计了一套基于多层上下文长度阈值的自动化流程:
Peak Ji在研讨会尾声分享了一个深刻洞见:优秀的上下文工程不仅是技术组合,更是一种 "less is more" 的哲学。
"回顾Manus发布过去的六、七个月,我们最大的性能提升并非来自添加更花哨的上下文管理层或更精巧的检索技巧,恰恰相反,它们都源于简化架构、移除不必要的技巧和更多地信任模型。"
他总结道:"上下文工程的目标是让模型的工作更简单而不是更复杂。如果要从今天分享中带走一句话,那就是——建造更少,理解更多。"
关注我并回复“上下文工程”,获取LangChain与Manus关于上下文工程的完整原始PPT资料
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-26
如何让你的内容出现在AI生成的答案中?
2025-10-26
「基于智能体的企业级平台工程」建设完美指南
2025-10-26
DeepSeek-OCR:让 AI"一眼看懂" 文字的黑科技来了!
2025-10-26
基于LangGraph 构建临床问诊助手实践
2025-10-26
马斯克 Grok imagine 完整使用指南:工具、案例、提示词,看这一篇就够了!
2025-10-25
LLM稳定JSON输出,终于摸清了
2025-10-25
涌现节点|AI安全的“皇帝新衣”:你的千亿级模型投资,正建立在一场集体幻觉之上
2025-10-25
当AI学会遗忘:浙大团队用"睡眠机制"破解大模型记忆难题
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-10-02
2025-09-17
2025-08-19
2025-09-29
2025-10-26
2025-10-25
2025-10-23
2025-10-23
2025-10-22
2025-10-22
2025-10-20
2025-10-20