微信扫码
添加专属顾问
我要投稿
硅谷大神Andrej Karpathy揭示:上下文工程是让AI Agent真正落地的关键。掌握这门艺术,让你的AI应用更靠谱、更高效。 核心内容: 1. 上下文工程的核心价值:将LLM的"概率性"优化为"确定性" 2. 长上下文面临的四大挑战:中毒、干扰、混淆和冲突 3. 构建高效AI Agent的系统方法论与实践建议
导读:
硅谷大神Andrej Karpathy,在今年6月一场主题为“Software in the Era of AI”的演讲中指出:与其构建很多自主Agent的炫目Demo,不如更多构建半自主产品。 是的,AI应用的最大价值之一,其实恰恰是“确定性”。 上下文工程(Context Engineering),其使命正是为了不断将LLM的“概率性”,最大程度优化为“确定性”。 说人话,就是让以AI Agent为代表的Apps,可落地,更靠谱。
在构建可落地AI Agent的实践中,我们的视角必须超越单一的“提示工程”。
正如 Andrej Karpathy 所言,如果大型语言模型(LLM)是新时代的“操作系统”,如下图:
那么它的上下文窗口(Context Window)就是“内存(RAM)”,作为模型的工作记忆,上下文工程(Context Engineering)正是这样一门“精妙的艺术与科学,旨在为LLM的上下文窗口精确填充下一步所需的恰当信息”。
一个精心设计的上下文,可以显著提升Agent的任务解决能力、降低运营成本,并规避性能退化问题。你的AI有多强大,最终取决于你为它构建的上下文有多精良。
通常,Agent会交替执行LLM 调用和工具调用,通常用于执行长时间运行的任务。Agent会交替执行LLM 调用和工具调用,并使用工具反馈来决定下一步操作。
当Agent执行长耗时任务时,其上下文会不断累积,这不仅会超出窗口限制、增加成本与延迟,更会引发一系列性能衰退问题。
这些问题可以归结为长上下文的“四宗罪”:
研究发现,即使是像“猫一生中大部分时间都在睡觉”这样的简单短语,也会大大破坏先进的推理模型,使其错误率增加三倍。【参考论文:《Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models》(https://arxiv.org/pdf/2503.01781)】
管理上下文,本质上就是管理AI的注意力与记忆力,是构建可靠Agent的基石。
为应对上述挑战,业界已发展出四种核心的上下文工程策略,堪称四大支柱:写入(Write)、选择(Select)、压缩(Compress)和隔离(Isolate) 。
如下图所示,这些策略构成了上下文工程的通用类别:
定义: 将信息从即时上下文窗口中移出,保存至外部存储,为Agent构建一个超越单次交互的持久化信息基础。
1.1 便笺
1.2 记忆
定义: 从外部存储中,智能地检索与当前任务最相关的信息,并将其动态载入LLM的上下文窗口。
2.1 从记忆/便笺中选择
在AI Engineer World's Fair 上,Simon Willison 分享了一个记忆选择出错的案例:ChatGPT 从记忆中获取了他的位置,并意外地将其注入到请求的图像中。这种意外或不希望的记忆检索可能会让一些用户感觉上下文窗口“不再属于他们 ”!
2.2 从工具 (Tools) 中选择
2.3 从知识 (Knowledge) 中选择
定义: 在保留核心信息的前提下,对上下文进行精简,以减少token消耗、降低延迟。
3.1 上下文总结 (Context Summarization)
3.2 上下文裁剪 (Context Trimming)
定义: 通过逻辑或物理方式划分上下文,帮助Agent更专注地处理子任务,或在安全环境中执行操作。
4.1 Multi-Agent架构
4.2 通过环境进行隔离
4.3 通过状态对象进行隔离
上下文工程正在成为构建高阶AI Agent的核心技艺。它要求我们从一个单纯的“提问者”或“提示工程师”,转变为一个深思熟虑的 “上下文架构师”。
系统性地运用写入、选择、压缩、隔离这四大策略,去主动设计和管理AI的认知空间。这不仅是技术的挑战,更是思维模式的转变。
未来,最强大的AI Agent,必定与最优秀的上下文架构师密不可分。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-28
Anthropic内部团队的Claude Code实践启示
2025-07-28
迈向Agentic AI时代,百花齐放背后的三条主线 | 高榕 X 火山引擎
2025-07-28
谈几点 Qwen3-Coder 的使用体验
2025-07-28
一个Claude Code的远程遥控器
2025-07-28
AI应用 之 MCP调用及SOC智能问数
2025-07-28
Cursor Meetup 杭州站分享实录:小团队如何用 AI 撑起万级日活产品?
2025-07-28
企业级智能体,从“效率孤岛”到“价值共振”的实践路径
2025-07-28
3个月,200家客户,和大家聊聊企业AI应用(AI Agent)的落地实践
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-05-20
2025-06-12
2025-07-28
2025-07-27
2025-07-27
2025-07-25
2025-07-24
2025-07-24
2025-07-24
2025-07-23