支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


上下文工程 (Context Engineering) 实战: 从Prompt咒语到Context剧本

发布日期:2025-07-14 12:13:41 浏览次数: 1546
作者:LLMOps

微信搜一搜,关注“LLMOps”

推荐语

从Prompt咒语到Context剧本,揭秘如何让AI成为你的高效工作伙伴,处理复杂任务游刃有余。

核心内容:
1. 从Prompt到Context的必然演进:多轮对话、工具调用与信息整合的挑战
2. Context Engineering三大核心问题:记忆限制、信息噪音与成本优化
3. 实战解决方案:如何为AI编写高效"情景剧本"提升协作效率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

在ChatGPT出现之后的过去几年里,我们见证了“提示词工程”(Prompt Engineering)的兴起。我们像学习一门新的语言一样,钻研如何通过精巧的“咒语”或“指令”,从大语言模型(LLM)那里获得最靠谱和惊艳的回答。这感觉就像是发现了魔法,只要念对咒语,AI 就能文思泉涌、代码飞流。

但当我们将 AI 从一个聪明的“问答盒子”变成一个真正的“工作伙伴”——一个能处理复杂任务、使用工具、与我们进行多轮深度协作的智能体(Agentic AI)时,我们发现,单靠一句句的“魔法指令”已经不够了。

我们需要的不再是孤立的问答,而是一场连贯的、有记忆的、智能的互动。我们需要的不再是仅仅给 AI 一句指令,而是为它编写一整部“情景剧本”,于是“上下文工程”(Context Engineering)就闪亮登场了。

一、为什么需要从 Prompt 走向 Context?

想象一下,你正在让一个 AI 助手帮你完成一份市场分析报告。这个任务涉及:

  • • 多轮对话:你需要不断与它讨论、修正方向、补充细节。
  • • 工具调用:AI 需要上网搜索最新的行业动态、查询公司内部的销售数据。
  • • 信息整合:它要能理解并整合来自外部网络、内部数据库和你们对话中的所有信息。

在这个过程中,产生的信息量是巨大的。而 AI 面临三大挑战,正是 Context Engineering 诞生的土壤。

1. 大模型的“记忆”是有限的

每个大模型都有一个“上下文窗口”(Context Window),所有输入给它的信息,包括历史对话、文档、工具返回结果,都必须塞进这个窗口里,模型才能“看到”。

问题在于,这个窗口的大小是有限的。对于一个需要分析整个代码库的编程助手,或者一个与用户聊了数十轮的客服AI,对话历史很容易就“撑爆”了这个窗口。即使没撑爆,把海量信息全部塞进去,也意味着高昂的 API 调用成本。这就像和一个记忆力不好但收费高昂的顾问开会,你不得不一遍遍重复所有背景信息。

2. 原始信息的“噪音”太大

Agentic AI 在工作时会产生大量的“中间过程”,比如调用工具后返回的复杂原始数据(如 JSON 文件)、冗长的搜索结果等。如果把这些充满“噪音”的原始信息不加处理地直接扔给模型,不仅会迅速消耗宝贵的上下文空间,还会干扰模型的“注意力”,影响它对核心任务的判断。

3. 成本之殇

即使不考虑大模型的上下文长度限制,模型调用成本也是不容回避的现实问题。对于Agentic的任务来说,底座大模型的推理能力对于任务执行的成败至关重要,至少要Premium级别的模型才可以胜任,例如Anthropic的Claude Sonnet/Opus 4系列,OpenAI的GPT-4o/4.1或o3/o4-mini,Gemini 2.5 Pro或者DeepSeek的R1/V3等模型,而这些模型的调用成本,通常是flash/mini等轻量级模型的几倍甚至十几倍。对于一次十几轮交互的Agentic任务,动辄消耗几十万甚至上百万Tokens,如果在每轮对话中都一股脑地将对话历史塞进Context Window中,且不论效果如何,其成本之高也让人望而却步。

二、从人类到AI:构建高效的信息“大脑”

回顾我们人类自身,我们的大脑并不像一个无尽的硬盘,能够不分轻重地存储和读取一切经历与信息。相反,我们的大脑运行着一个极为高效的“信息管理系统”,能够动态地编码、筛选和存取信息。这一系统不仅帮助我们记忆,还决定了我们如何感知世界并专注于任务。

工作记忆: 由大脑中的海马体驱动,工作记忆处理我们当前正在思考和操作的信息。它是一种短期的、清晰且细节丰富的信息缓存,类似于一张“临时工作台”,专注于当前任务的具体细节。

长期记忆: 长期记忆存储着我们过去的重要知识、经历和技能。这些记忆并不是零散的,而通常是以“要点”和“摘要”的形式保留下来的。只有对我们重要或经常被重复的信息,才会从工作记忆迁移到长期记忆中。

注意力机制: 这是令人类大脑高效运转的关键所在。我们的注意力机制像是一盏“聚光灯”,选择性地聚焦于当前最重要的事物,同时过滤掉无关的背景信息。在一个充满无序信息的世界中,它帮助我们避免信息超载,并维持对关键任务的专注。

外部信息的调用: 当我们需要的信息不在脑海中时,我们会利用工具去查书、上网搜索,或者通过与他人交流来填补知识空白。

大猩猩实验:注意力机制的启示

为了说明注意力机制的重要性,心理学家西蒙斯(Daniel Simons)和查布里斯(Christopher Chabris)曾设计了一项著名的实验——“隐形大猩猩实验”。在实验中,参与者被要求观看一段视频,视频中有两组篮球队员分别穿着白色和黑色的衣服,彼此传球。参与者的任务是数清白衣队员一共传了多少次球。

令人惊讶的是,尽管实验过程中一只穿着黑色大猩猩衣服的人从画面中间经过,多达一半的参与者完全没有注意到“大猩猩”的存在。这一现象被称为“无意识盲视”(inattentional blindness),深刻揭示了人类注意力机制的局限性:当我们全神贯注于某件任务时,与目标无关的信息,即使明显到荒谬程度,也可能被忽略。

大猩猩实验从认知科学的角度帮助我们理解注意力机制的核心意义——它不仅是管理信息的重要工具,更是一种保护机制,帮助我们从海量信息中过滤噪音,集中精力完成目标任务。如果没有这种选择性,我们会被无关的细节淹没,变得无所适从。然而,这种机制也表明,我们的大脑对其他信息的感知能力是有限的,专注的代价是对背景信息的遗漏。

一个优秀的人工智能系统,也需要具备类似人类大脑的信息管理能力,而不是被动地存储或处理信息。AI 的“记忆”和“注意力机制”应包括:

动态记忆管理: AI 应能够根据当前任务选择性地存储和检索信息,而非机械地扫描所有数据。
注意力模型: 类似于人类注意力机制,AI 应能够快速聚焦关键信息,过滤掉噪音,提升推理效率和准确性。
外部信息调用: AI 应当依赖丰富的外部资源,动态获取缺失或精确的信息,而不是试图将所有信息封装在内部。

这就是现代人工智能中Context Engineering的核心目标——帮助AI设计并构建一个高效的“思维架构”,像人类一样管理信息流,利用注意力机制处理复杂问题,并在广阔的信息海洋中保持清晰、专注和高效的执行力。

二、ConsoleX AI 的实践:为 AI 构建一个高效“大脑”

ConsoleX AI是一个为创造者量身定制的Agentic AI Studio,用户可以在统一的聊天界面中,利用大模型调用工具完成研究、创作、绘图、发布和分析等各种代理任务,因此不可避免的需要涉及到多轮对话以及连续的工具调用。我们面临的挑战很具体:如何在控制成本和保证性能(如首个token的响应速度)的前提下,让 AI 在长对话和复杂任务中保持高水准的表现?在 ConsoleX AI 的实践中,我们构建了一套工作记忆机制,这正是 Context Engineering 的一次企业级落地实践。

我们的答案是构建一个分层的、动态的、智能的上下文管理系统。

1. 记忆分层:信息的重要性各不相同

我们参考人脑的记忆模式,将 AI 的记忆分为不同层级,确保最有价值的信息始终处于“C位”。

  • • 🔥 热记忆(Hot Memory):这是 AI 的“工作台”,存放着最近几轮的完整对话。它保证了对话的即时连贯性,让 AI 能记住“我们刚才在聊什么”。
  • • 🌡️ 温记忆(Warm Memory)】:对于稍早一些的对话,我们不会全部丢弃,而是由 AI 自动进行“智能压缩”,提炼出关键信息和摘要。这就像我们对昨天会议的“会议纪要”,细节少了,但核心决策和要点都在。
  • • ❄️ 冷记忆(Cold Memory):对于非常久远的历史对话,系统会生成一个高度浓缩的“背景摘要”。这确保了 AI 即使在跨越数天的对话中,也能记起最核心的长期背景,保持“人设”不崩。
  • • ⚙️ 系统记忆(System Memory):这是 AI 的“性格”和“本能”,包含了它的角色设定、核心指令和能力边界。这部分是永久不变的。

通过这个分层系统,AI 在构建每一次回复的上下文时,都能像拼图一样,智能地从不同层级中拾取最相关的信息碎片,组成一个高效且信息量密集的“情景剧本”。

2. 智能唤回机制:弥补压缩损失的关键

不过仅有分层压缩是不够的。温记忆和冷记忆在压缩过程中不可避免地会丢失大量细节信息,这可能导致 AI 在处理特定问题时缺乏必要的背景知识。为了解决这个问题,我们设计了一套基于记忆仓库 (Memory Vault) 的智能唤回机制:

  • • 语义检索引擎:我们使用向量数据库存储本组对话历史的每个片段,并通过语义向量的方式为它们建立索引。当用户提出新问题时,系统会自动分析问题的语义,并从对话历史碎片库中检索出最相关的历史片段。由于ConsoleX AI的架构托管在微软Azure云上,我们使用CosmosDB来存储对话历史的每个片段,开发者也可以使用如 Pinecone、Milvus 等向量数据库或PostgreSQL等支持向量存储的数据库用来存储对话历史片段。
  • • 智能检索引擎和相关性打分:当用户提出新问题时,系统会自动分析问题的语义,通过智能检索引擎从记忆仓库中检索出最相关的对话片段,并对检索结果进行相关性评分,只有得分超过一定阈值的内容才会被重新注入到当前上下文中,确保唤回的信息是高度相关的。
  • • 动态上下文构建:在每次 AI 生成回答前,系统会动态组装最终的上下文,这个过程包括:
    • • 从热记忆中获取最近几轮完整对话
    • • 添加温记忆和冷记忆的摘要
    • • 根据当前问题从对话历史库中唤回相关的对话片段
    • • 结合系统记忆,形成一个完整的"情景剧本"

这种方法确保了 AI 既能保持对话的连贯性,又能在关键时刻"回忆起"过去的重要细节,大大提高了回答的准确性和深度。

3. 智能压缩与异步处理:高效的“后台管家”

为了让记忆系统高效运转,我们还引入了两个关键机制:

  • • 智能内容压缩:当 AI 的回复或工具返回的结果太长时(比如一大段代码或一个复杂的数据库查询结果),我们不会粗暴地截断它。而是会启动一个“压缩模型”(通常是一个更小、更快的 LLM),用自然语言总结出其中的核心含义。这既保留了关键信息,又大大节省了空间。
  • • 异步框架:所有的记忆整理、压缩、存储工作,都在“后台”悄无声息地进行。用户在前台与 AI 对话时,完全感受不到这些复杂的处理过程,保证了交互的流畅性。这就像一个勤劳的管家,在你休息时就已经把房间整理得井井有条。

4. 缓存的力量:更快更节省

我们还大量使用了缓存技术。对于那些被频繁访问的记忆或信息,会通过Redis缓存起来,把它们放在“手边”。当 AI 再次需要时,便可高速获取,极大地缩短了响应时间,提升了用户体验。

对于重复的内容,如AI的回复摘要、工具调用结果的压缩等,在ConsoleX的实践中,我们也会尽量利用缓存,避免重复压缩,这不仅可以节省压缩所需的大模型使用成本,而且由于现在国内外主流的大模型厂商都已经支持Prompt Cache机制,重复利用Redis缓存中压缩好的内容,可以提高在大模型调用过程中Cached token的命中比率,节省大模型调用的成本50%~85%。

5. 评估与迭代:科学地让“大脑”更聪明

构建这样一个复杂的记忆系统,不能凭感觉。我们很早就意识到了评估 (Evaluation) 对于构建LLM系统的重要性,并基于我们自己的评估产品EvalsOne建立了一套系统的评估方法论,具体包括:

  • • 建立评估基准:我们会先有一个“朴素”的版本(比如每次都传递完整的历史),作为比较的基准。
  • • 设计评估指标:我们关注的核心指标包括:成本节省了多少、任务成功率是否提升、用户满意度如何、检索唤回的精度如何、响应时间是否达标等。
  • • 反复迭代:通过对比实验和数据分析,我们不断调整记忆分层的比例、压缩算法的策略,持续优化整个系统的表现。

通过反复的迭代和调整优化,我们实现了开启“动态工作记忆”模式的情况中,在几乎不损耗响应性能和回复准确率的前提下,在十轮以上的连续对话中,平均节省Tokens成本50%以上。

三、终章:从工程师到“剧本导演”

上下文工程(Context Engineering)是一个新兴的概念,标志着我们与 AI 协作模式从生成式 AI(Generative AI)迈向代理式 AI(Agentic AI)的深刻转变。尽管对这一概念的落地和实践观点各异,但也无需将其过度复杂化,关键在于立足具体应用场景进行设计,并付诸实践。抛砖引玉,希望希望能为大家提供一些启发和思路。

  1. 1. Context Engineering不是要替代 Prompt Engineering,而是后者的自然演进。 Prompt Engineering 教会我们如何与 AI“清晰地对话”,而 Context Engineering 则在此基础上,教会我们如何与 AI“构建一个有深度、有记忆的世界”。那些关于清晰、简洁、角色扮演的提示原则,在构建高质量的上下文中依然至关重要。
  2. 2. 这是一个循序渐进的工程实践,而非一蹴而就的魔法。 并非所有应用都需要一开始就构建如此复杂的系统。应该从实际需求出发,当简单的上下文管理无法满足业务场景时,再逐步引入分层、压缩等机制。ConsoleX AI在具体的Context engineering实践过程中,也是先从最基本的记忆分层开始,再到记忆碎片的唤回,未来还将引入跨对话Session的长期记忆。
  3. 3. 评估,评估再评估! Context Engineering 的效果好坏,必须通过数据来度量。建立科学的评估体系,并反复迭代,是确保方向正确、持续进步的唯一途径。

从 Prompt Engineer 到 Context Engineer,我们扮演的角色正在从一个“指令下达者”,转变为一个“情景剧本的导演”。我们不再是仅仅告诉 AI “做什么”,而是为它精心设计一个信息充足、条理清晰的“世界”,让它在这个世界中更自由、更智能地思考和创造。这,无疑是通往更强大、更通用的 Agentic AI 的必由之路。

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询