我要投稿

Why “Context is King(上下文为王)”？

发布日期：2025-06-12 20:31:42 浏览次数： 2266

作者：Fighter的世界

微信搜一搜，关注“Fighter的世界”

Source: Glean

公众号后台有不少朋友对强调Context有一些疑义，核心争论点是：

现在LLM的context window越来越大，把所有信息直接作为上下文让LLM自己去理解就可以了，为啥还要这么强调”Context is King”呢？

这个问题的简单答案是：

简单一股脑地把所有信息给大模型，只会把大模型搞蒙，效果肯定是不符合预期的。

尽管当前主流的LLM上下文窗口都是100万起步了，LLama 4(Scout）甚至号称到1000万了，但大模型的Context如何管理，放什么不放什么，以什么形式放，以及何时放等问题对最终的模型效果依然是至关重要的。这也是大模型实际应用中，简单把所有文档全部或者通过检索增强RAG方式放到大模型Prompt里，却发现最终输出仍然不符合预期的主要原因。

最近花了点时间深入学习了一下LLM Context，借这个机会正好来做个全面总结：

What: LLM Context到底是什么？从Context的定义、Context的类型及其对 LLM 信息相关性、个性化、对话连贯性与复杂推理能力的关键作用说起。
Why: LLM Context为什么重要？从Context对LLM Context的效果确定性、对领域理解能力的提升、对推理和决策能力的提升等方面来做些解读。
How: LLM Context如何管理？深入探讨当前主流的上下文管理与优化技术，并分析其对提升 LLM 效果确定性、领域知识理解、推理决策能力的具体影响，包括 Glean 的上下文注入（Context Injection）、mem0 的记忆即服务（Memory-as-a-Service）、ChatGPT Memory、Gemini Personal Context，还有最关键的Agent Memory管理。
Next: LLM的未来趋势和挑战有哪些？简单展望LLM Context的发展趋势，并尝试探讨其面临的关键挑战与未来机遇。

1. What：LLM Context到底是什么？

如果说LLM本身是一个大脑，那么Context（上下文）就是这个大脑感知世界、理解指令、并做出恰当反应的“记忆体”，通俗类比人类记忆的脑容量。

大模型上下文(LLM Context)不仅是模型理解用户意图、生成相关回应的基础，更是实现高级认知功能，如复杂推理、个性化交互和长期记忆的关键，可以说正是“上下文”赋予了大模型强大智能的“灵魂”。

1.1 Context是什么？

上下文窗口(Context Window)，有时也称上下文长度（context length），指的是LLM在单次处理中能够“记住”或“考虑”的文本量，通常以token(词元)为单位计量。

它类似于人类的短期记忆，决定了模型在一次交互中能够同时处理多少信息。一个更长的上下文窗口使得LLM能够处理更长的输入序列，并在每次输出中整合更广泛的信息。这对需要理解文本中远距离依赖关系的任务至关重要，例如解决跨段落的代词指代问题，或在故事中追踪多个句子的主题。

Token是构成上下文窗口的基本单位，它可以代表词语的一部分、单个词语，甚至在多模态场景下代表图像、视频、音频或代码片段。每个 LLM 都有其特定的分词（tokenization）过程，但通常情况下，可以简单地理解为一个Token约等于 0.75 个英文单词，或者约等于0.5个汉字。注意，这里的0.75 个words/token，或者0.5个汉字/token仅为一个大概估算，实际的映射关系因不同的分词技术会有差异。

Source: Demystifying Tokenization: The Building Blocks of Language AI

分词过程本身作为一项LLM必需的技术，但也引入了一层抽象且会导致一定程度的信息损失，或者简单理解目前的tokenizaion技术都是有损的“信息压缩”。Tokenization将连续的语言离散化，难免会模糊语义的细微差别，尤其对于词汇表之外的词语或复杂的子词结构。

上下文窗口的演进是 LLM过去两三年快速发展的一个重要标志。最初，LLM 的上下文窗口相对较小，比如早期大部分都是4K或者8K，这很大地限制了复杂长指令的使用，以及LLM处理长文档或在扩展对话中保持连贯性的能力。

Source: Understanding the Impact of Increasing LLM Context Windows

通过在模型架构(Transformer)和注意力(Attention)机制方面的增强型注意力机制（如稀疏注意力）和内存高效架构等技术创新，上下文窗口的长度得到了显著扩展，最新的一些模型已能高达 100 万到 200 万的上下文长度。

这种扩展不仅仅是量的增加，也催生了一些全新的AI应用。例如，更长的上下文窗口使 LLM 能够对大型代码库进行分析，分析整本书或者很多本书的全部内容，或处理长音频/视频等。长上下文的演进，也反映了 LLM 向着能够捕捉更广泛、更细致入微的“situational awareness(情境感知)”能力快速发展的趋势。

Source: Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems

然而，我们不能忽视“上下文窗口长度竞赛”背后的收益递减现象。虽然更大的上下文窗口好处是显而易见的。但当窗口大到100万甚至更大的时候，如果缺乏有效的Context管理机制，就可能导致“Neddle in Haystack(大海捞针)”类的问题，比如模型在海量信息中迷失方向，难以分辨和聚焦关键内容，无法区分有效信息和噪声信息，同时也在不断地处理大量不相关的噪声数据，导致计算成本和性能的损伤。

因此，LLM并不能仅仅追求Context的无限扩大，更要关注如何有效管理和利用窗口内的上下文。对于构建大模型应用而言，需要清醒地认识到，更大的上下文窗口并非万能的灵丹妙药。处理超大上下文的计算成本必须与特定应用场景下的实际性能收益相权衡。

上下文处理的效率(ROI)，势必会成为未来LLM应用的一个差异化竞争点。

1.2 Context的类型：短期与长期、结构化与非结构化、内部与外部

上下文可以从多个维度进行划分，从时间跨度来看：

短期上下文 (Short-term Context / Working Memory): 指模型在当前交互周期内直接访问和处理的信息，主要存在于当前的上下文窗口或近期的对话会话中。这类似于人类的短期记忆或工作记忆，容量有限但访问速度快，对于即时响应和任务处理至关重要。它通常包括用户当前的输入提示以及最近几轮的对话历史。

长期上下文 (Long-term Context / Persistent Memory): 涵盖了超越即时交互范围、可跨会话甚至永久存储的信息。这可以包括用户画像、历史交互记录、领域知识库等。

从数据组织形式来看：

结构化上下文 (Structured Context): 指具有预定义Schema、以有序格式，如表格、JSON、XML、知识图谱等形式组织的数据。结构化数据通常是定量的，LLM 可以利用结构化上下文来提升精确性，并能够更好地理解数据间的关系。

非结构化上下文 (Unstructured Context): 指没有预定义格式的数据，如自由格式的文本、图像、音频、视频等。非结构化数据本质上更多是定性的，具有高度灵活性，但需要更复杂的工具进行管理和分析。LLM 本身非常擅长处理非结构化文本，但如何将其与结构化数据有效整合是提升LLM理解能力的关键。

从信息来源来看：

内部上下文 (Internal Context / Parametric Memory): 指在预训练和微调过程中通过隐式编码在 LLM 参数中的知识，通常以模型参数权重形式存储。这是模型对语言、事实和模式的基础理解来源。

外部上下文 (External Context / Non-parametric Memory): 指在推理时显式提供给 LLM 的信息，通常从外部来源，如向量数据库、知识图谱、文档库等检索得到。检索增强生成RAG是利用外部上下文最常见的手段。

这些上下文类型之间的界限正随着混合系统的出现而变得日益模糊。高效的 LLM 应用往往需要短期回忆、长期知识持久化以及处理来自内部和外部的结构化与非结构化数据的能力之间的共同协作。尽管 LLM 擅长处理非结构化文本，但在特定任务中，以结构化格式，比如JSON 或知识图谱格式来提供上下文来减少模糊性，并实现更精确的交互，尤其是在领域特定任务中。

LLM 中“长期记忆”的概念正在从保存简单的聊天历史记录，演变为受复杂的、多方面的记忆系统，包含了情景记忆（如特定事件序列）、语义记忆（如事实概念）和程序记忆(如业务流程)等内容。

表1 - LLM 上下文类型分类与特性

在这些类型中，“外部上下文”的价值日益凸显，尤其是在特定行业场景。大模型的内部参数化记忆虽然庞大，但本质上是静态的，知识可能过时，也容易产生幻觉。而外部上下文，特别是通过RAG等技术在推理时动态检索的上下文，具有实时性、可验证性和领域特异性。

未来的趋势必然是发展出更复杂的上下文管理(Context Management)层，能够根据任务需求，智能地融合短期与长期、结构化与非结构化、内部与外部等多种上下文。这不仅仅是简单的全文塞给LLM或者全文信息检索，更是关于如何有效地筛选、组合这些信息给LLM。

对于构建大模型应用而言，这意味着需要着力构建和维护高质量的外部上下文资源，例如企业内部的知识库、数据库和文档。那些能够高效连接并编排这些外部上下文与LLM的平台和技术，将具有极高的商业价值。

1.3 Context的表示与处理：从简单文本到多模态

Source: https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

LLM 最初主要处理文本信息，通过分词将其转换为数字表示。然而，上下文的范围正迅速扩展至多模态，包括图像、视频、音频等多种信息形式。

Source: https://jalammar.github.io/illustrated-transformer/

上下文的处理过程核心依赖于注意力机制（attention mechanisms）。Attention机制通过为输入序列中的不同token分配权重，来判断其重要性，从而帮助模型聚焦于输入中最相关的部分，无论是文本、代码，还是其他模态信息的表示。这是为什么将各种数据放在Context里输入给LLM能够被理解和使用的核心原理。

早期LLM的交互模式是文本输入、文本输出。而图像、音频和视频处理能力的加入，意味着 LLM 现在能够将其理解建立在多种感官输入的基础上。比如Google I/O 2025大会上展示的Project Astra是一个能够理解用户周围环境的通用 AI 助手。这种多模态能力不仅仅是处理更多数据类型，更关键的是通过关联不同模态的信息，实现更深层次、更具情境化的理解。

多模态是实现“环境智能AI（Ambient AI）”的催化剂。文本提供了抽象知识，而视觉、听觉等模态则提供了对即时物理环境的直接感知。这种结合对于AI走出数字世界，真正理解并与物理世界实时互动至关重要。挑战不仅在于独立处理每种模态，更在于将它们融合成一个连贯、统一的理解。

在一个统一框架内有效表示和处理多样化的上下文类型（文本、结构化数据、多模态输入）是一项重大的架构挑战，多模态数据在特征提取和融合方面又增加了新的复杂性。向多模态上下文的转变，标志着 LLM 可处理信息“丰富度”的显著提升，使其从单纯的语言理解迈向更全面的、类似人类的整体情境理解。

从商业化层面，下一波LLM的杀手级应用很可能出现在多模态领域，特别是在机器人、AR/VR以及需要在复杂动态环境中运行的智能助手等场景。那些能够构建强大、可靠的多模态上下文融合能力的公司，无疑将引领这股浪潮，比如这次Google I/O 2025上VR眼镜就非常酷。

1.4 Context对LLM应用的核心价值

基于前面的信息可以看出，Context对于LLM 的核心价值体现在多个层面：

信息相关性与准确性的基础

Context为 LLM 提供了生成相关且准确回应所必需的背景信息。缺乏足够的上下文，LLM 可能产生语法正确但语义肤浅、与情境不符或事实错误的内容。注意力等机制让LLM 聚焦于所提供上下文中最相关的部分，从而提高生成文本的准确性。

Context对于相关性和准确性的价值，并不仅仅在于提供“更多”信息，而在于在“正确的时间”以“正确的格式”提供“正确”的信息。一味扩大上下文窗口，简单地堆砌信息，可能会导致“Neddle in Haystack”或“Lost in the middle”等问题。

检索增强生成（RAG）通过将相关的外部信息显式地整合到上下文中，使 LLM 的回应基于事实性的、最新的知识，从而提升准确性并减少幻觉。RAG基本上大模型应用的标配了，但要实现好RAG却不是件容易的事情，比如下面这张图里列出来RAG实现过程中常见的12个难点。

Source: 12 RAG Pain Points and Proposed Solutions

LLM 的事实准确性越来越被视为其生成过程是否基于可验证的上下文信息的功能，而不仅仅是依赖其参数化知识。LLM 可能会产生幻觉，因为它们的内部知识可能不完整、过时或存在偏见。上下文，特别是来自可验证的外部来源（如 RAG），则充当了“事实核查器”或“锚点”。

“可验证性溢价”正在成为LLM价值评估的一个重要维度。上下文，特别是可追溯、可验证的外部上下文，是LLM摆脱不可靠标签、走向可信赖的关键。在关键应用领域，用户对LLM输出的信任度，直接与其能否提供基于可靠上下文的解释和依据相关。如果一个LLM能够清晰地“引用”其信息来源（这些来源本身就是其上下文的一部分），其可信度将大幅提升。这不仅仅是减少幻觉，更是构建用户信任的基石。

对于企业应用，尤其是在法律、医疗、金融等高风险领域，那些能够证明其输出是基于可验证上下文的LLM系统，将拥有显著的竞争优势。“可解释性”和“可审计性”将成为核心卖点，而这两者都与强大的上下文管理能力密不可分。

实现个性化与用户理解的关键

Source: Google

LLM 的个性化旨在调整模型以生成满足特定用户或用户群体独特需求和偏好的响应，包括语言风格和沟通方式的细微差别。

用户特定的上下文，如交互历史、用户画像和偏好设置，对于这种自适应至关重要。例如，ChatGPT最新发布的记忆功能通过学习用户过去对话中的兴趣和偏好，使未来的聊天更具个性化。Google 的“个人上下文”功能则致力于整合用户的搜索历史以及来自 Gmail 等应用的授权数据，以提供个性化的搜索结果和模型响应。

个性化有望通过提供更相关和更有意义的互动来提高用户满意度。真正的个性化超越了简单的事实回忆；它要求 LLM 推断隐含的偏好并调整其推理风格，这代表了更深层次的用户理解。存储用户的喜好颜色是基础的。如 ChatGPT 的用户画像构建和 Google 的个人上下文功能所暗示的，高级个性化涉及到理解用户的沟通风格、典型的信息需求，甚至他们的“推理过程”。这要求 LLM 不仅能访问上下文数据，还能将其合成为一个动态的用户模型。

然而，个性化是一把双刃剑。深度个性化依赖于丰富的个人上下文，这能让LLM变得有用和直观。但如果管理不当，缺乏透明度和有效的用户控制，也极易导致“信息茧房”、强化偏见，并引发严重的隐私担忧。

为个性化而收集和利用个人上下文，在用户体验优势和个人隐私之间需要谨慎的平衡，因此需要强大的用户控制机制和透明的数据处理政策，目前ChatGPT的记忆功能和Google的个人上下文都明确声明需要用户许可和控制。

追求个性化的企业必须将用户信任和透明度置于首位。清晰的数据使用政策、用户可控的数据管理以及选择加入的产品设计，是确保个性化AI服务长期可行性的必要条件。

保障对话连贯性与交互自然度

Source: Pinecone

上下文，特别是对话历史，对于维持对话的连贯性和相关性至关重要。它使 LLM 能够理解对话的脉络，回顾之前的要点，并避免突然的、与上下文不符的回答。长上下文 LLM 在维持跨越长时间、甚至多个会话的对话连贯性方面尤其有价值。

对话的连贯性不仅仅是记住说了什么，还包括理解对话的隐含状态，如用户目标、情感、已建立的对话共识等。简单的历史回忆是上下文的一种基本形式，高级系统则追求“对长期互动的更深层次推理” 和理解“隐含的上下文依赖”。

对话连贯性是“拟人化”的前提，人对于交谈中的逻辑断裂非常敏感。一个频繁“忘记”之前谈话内容或偏离主题的LLM，无论其知识多么渊博，都会显得不自然、不智能。只有具备强大连贯性的LLM，才能提升人的交互意愿。从“记住说了什么”到“理解对话的隐含信息”，是迈向更类人交互的一大步。

维持连贯性的挑战随着对话长度和复杂性的增加而非线性地增长，因此需要更复杂的Context管理技术，如分层记忆结构，以有效地存储、检索和利用长对话历史中的相关部分。

对于客服机器人、AI Tutor或陪伴类聊天机器人等应用，对话连贯性直接影响用户采纳度和交互意愿。在更高级的Context管理技术上的投入，将直接转化为更好的用户参与度和更高的智能水平。

支持复杂推理与决策的基础

理解广泛的上下文对于完成诸如小说创作、长期规划和复杂推理等任务是必需的。长上下文 LLM 能够在解码过程中进行持续的检索和推理，使其能够理解大型数据集内部的细微联系，这对于需要深度、整体性分析的任务非常理想。

Source: Reasoning with Language Model Prompting: A Survey

上下文学习（In-Context Learning，ICL）允许 LLM 通过利用提示中提供的上下文来适应新任务并执行推理。思维链（Chain of Though, CoT）则将复杂任务分解为逻辑步骤，在整个推理过程中主要依赖于上下文的有效利用，从上图可以看出各种COT技术层出不穷。

对于有效的复杂推理而言，上下文的质量和结构至关重要；如果长上下文窗口内的信息组织不合理或与推理步骤不相关，那么仅仅拥有一个长的上下文窗口是不够的。CoT 提示则用于明确地引导模型完成中间推理步骤，因此CoT 的有效性取决于高质量的提示以及在这些步骤中维持上下文的能力。

上下文是高级推理和新兴智能体行为的“脚手架”。复杂推理并非一步到位，而是一系列中间思考和推断的链条。上下文为这个推理过程提供了“工作记忆”和“知识基础”。CoT等技术明确地构建了这种上下文脚手架。随着上下文管理，如多步复杂Agent Memory，变得越来越复杂，更多自主的、目标导向的行为开始涌现，因为LLM能够维持一个关于其任务和环境的持久上下文。

2. Why - LLM Context为什么重要

上下文不仅定义了 LLM 理解和生成的基础，更从根本上决定了LLM应用的可靠性、智能水平和最终价值。缺乏有效上下文管理的 LLM，很难真正满足真实场景的复杂需求。

2.1 上下文对 LLM 效果确定性与可靠性的影响

LLM 输出的确定性和可靠性是衡量其在关键应用中是否可信赖的重要指标。上下文的质量、长度和管理方式直接影响着这些特性。

上下文长度、质量与输出一致性
LLM 的性能评估与传统机器学习模型存在显著差异，因为 LLM 对于同一输入可能生成多个同样有效的输出。
传统的确定性衡量指标，如准确率和精确率，预含的假设是存在唯一的正确答案，而这并不完全适用于生成式任务。即使将控制随机性的LLM参数“temperature”设置为零（值越小多样性越少，确定性和一致性越高），LLM 仍可能对相同的输入产生不同的输出，这一特点是LLM固有的“有限一致性”特征。

这种可变性表明，除了温度之外，还有其他因素在影响模型的行为，例如提示中信息的顺序、看似相同的输入的特定分词方式，甚至神经网络内部计算路径的微小差异都可能导致不同的输出。构成输入上下文一部分的提示词质量和描述是否明确具体至关重要，显然详细、清晰的提示词能够显著改善输出质量。

LLM的“黑箱”特性和不确定性，构成了所谓的“可靠性鸿沟”，这阻碍了用户信任的建立，尤其是在专业性要求较高的企业级应用中。
另外，上下文数量与引入噪声或不相关信息的风险之间存在直接的关系，后者可能降低准确性和一致性。这突显了上下文“质量”和“相关性过滤”的重要性。

有一个不常听到的概念叫“充分上下文”（sufficient context)。在有充分上下文的情况下，LLM表现更佳，但如果上下文不充分时模型未能选择不作答，则仍可能产生幻觉或错误。即使是GPT-4.1和Gemini 2.5 Pro这样的最新模型，在上下文不足时也往往无法选择不作答，从而导致错误的答案。

对于关键任务应用，企业需要的是可预测且可靠的AI。在LLM工作流中投入资源构建“上下文验证和充分性评估”机制，可以显著提高输出质量并减少幻觉的概率。一个能自信地说出“我没有足够的信息来回答这个问题”的LLM，往往比一个自信地捏造答案胡说八道的LLM实际更有用。

改进大模型基于上下文判断“知之为知之，不知为不知”的自我评估能力，是增强可靠性的关键措施之一。

上下文管理与幻觉抑制
幻觉（Hallucinations）是指 LLM 生成与输入数据不相关、虚构或不一致的内容。其产生原因包括上下文理解有限、训练数据中的噪声或错误，或上下文注意力不足等。

检索增强生成（RAG）通过将回应建立在检索到的、通常是事实性的外部上下文基础上，来减轻幻觉。这为模型提供了最新的或领域特定的信息。将 RAG 与思维链（CoT）推理相结合，可以进一步提高可靠性，因为 RAG 提供了事实基础，而 CoT 则指导了逐步推理的过程。

自我验证（self-verification）是另一种减少幻觉和提高事实准确性的技术，它让模型利用检索到的上下文来批判其自身的回答。有效的提示工程，通过提供清晰和具体的上下文，可以减少模糊性并降低产生幻觉的可能性。

从根本上看，幻觉抑制是一个上下文问题。无论是上下文不足、训练数据中存在不正确的上下文，还是对所提供上下文的误解，其根本原因往往在于 LLM 操作所依赖的信息环境，因此幻觉的产生源于模型生成的内与现实或输入不符。

训练数据的问题意味着模型的内部上下文，即参数化记忆，可能存在缺陷。提示工程旨在提供更好的即时上下文。RAG则明确地注入外部上下文。自我验证利用上下文来检查输出。所有这些都证明了有效管理和验证上下文对于确保输出的事实性和忠实性起着核心作用。

当前结合多种上下文管理技术的趋势表明，如 RAG + CoT + 自我验证，没有单一方法能够完美解决幻觉问题。最佳实践包括上下文分层、按需提供各种类型的上下文内容和验证策略，简单说就是“十八般武艺全上阵”，RAG 提供事实依据，CoT 基于这些事实构建推理结构，Self-verification则对照事实检查推理得出的输出。

领域知识注入与事实准确性
领域知识注入是大模型在行业场景落地普遍遇到的难题。LLM在处理其通用训练数据未广泛覆盖的领域特定知识时，可能会产生幻觉或不准确的信息。提供领域特定的上下文，例如相关的业务知识片段或专业数据集，对于在这些领域中保证准确性至关重要。RAG 是在推理时注入领域特定外部知识的关键方法，能够提高事实准确性和一致性。

对于企业和专业应用而言，有效注入和利用领域特定上下文的能力是决定 LLM 价值和可信度的首要因素。通用知识是不足够的，LLM 通常只能在庞大但通用的语料库上进行训练。而专业领域，如法律、医疗、特定企业业务等，拥有专业程度极高的知识，而这些知识在通用训练数据中并不存在。

通过上下文进行领域适配是打造垂直行业场景LLM应用的关键，通用LLM往往很难直接满足专业的垂直AI解决方案要求，例如法律AI、医疗AI、金融AI等。有效地注入领域特定的上下文，包括非结构化文档和结构化知识，是在无需进行昂贵的完全重新训练的情况下，使通用LLM适应这些垂直领域的主要机制，最终的结果是让LLM“说行话”并“理解行规”。

企业若想构建垂直领域的AI解决方案，应优先考虑策划、构建和注入领域特定上下文的策略。这种“上下文护城河”可以构成显著的竞争优势，却往往因为涉及太多的脏活苦活被忽视。

2.2 上下文对 LLM 领域理解能力的影响

上下文不仅影响输出的可靠性，更深刻地塑造了 LLM 对特定领域的理解深度和广度。

动态上下文学习 (In-Context Learning) 与少样本适应 (Dynamic In-Context Learning and Few-Shot Adaptation)

上下文学习（ICL）是 LLM 任务适应特定领域的核心范式，它使模型能够根据提示上下文中提供的示例来调整其行为，而无需进行微调。ICL 的范围从零样本学习，即仅提供指令无示例，到少样本学习，即仅提供少量示例。

一种混合的动态零样本-少样本 ICL 方法可以通过动态地将先前准确执行的任务整合到模型上下文中，使得 LLM 能够自适应地优化。提供领域特定的示例，即少样本，有助于 LLM 即使在该特定任务的训练数据极少的情况下也能进行泛化并有效执行。

ICL表明LLM不仅仅是静态的知识库，更是动态的学习者，能够根据即时的上下文线索推断任务需求并调整其处理策略。这是一种强大的适应性学习机制，传统模型通常需要大量的任务特定训练，而LLM通过ICL，仅通过在提示中看到少量示例就能学会执行新任务。

ICL的有效性高度依赖于上下文中提供示例的质量、相关性和表述方式。选择不当或格式错误的示例可能会混淆模型或导致性能不佳。这意味着针对ICL的“提示词工程Prompt Engineering”是一项关键技能，以自然语言形式构建的提示词大大降低了为新任务定制LLM行为的门槛。

结构化与非结构化上下文的融合理解

Source: https://lawtomated.com/structured-data-vs-unstructured-data-what-are-they-and-why-care/

LLM 越来越被期望能够处理和理解结构化，如 JSON、表格、知识图谱等，和非结构化的上下文，例如自由文本、文档。结构化数据可以提供清晰度和精确性，使数据关系明确化，并有助于LLM的理解。主要在非结构化文本上训练的LLM，在没有适当指导的情况下，难以掌握知识图谱或复杂模式中固有的结构和关系。

领域理解的真正力量将来自于那些能够无缝融合来自结构化和非结构化上下文洞察的 LLM，这反映了人类专家如何利用多样化的信息来源。非结构化文本提供了丰富、细致的信息，而结构化数据则提供了精确性和明确的关系。

许多现实世界的问题需要同时理解两者。例如，分析一家公司的业绩既要阅读文本报告（非结构化），也要分析财务报表（结构化），能够有效综合这些不同上下文类型的 LLM肯定会有更好的领域理解能力。

企业拥有大量的结构化和非结构化数据，而能够有效获取、对齐并基于这些异构上下文来进行推理的LLM应用，将释放巨大的商业价值，这也是企业级AI平台的一个关键价值。

2.3 上下文对 LLM 推理与决策能力的影响

上下文是 LLM 进行复杂推理和有效决策的基石，它不仅提供了必要的原始信息，还间接构建了推理过程本身。

长程依赖与多步推理
更大的上下文窗口对于捕捉长程依赖关系至关重要，这有助于提高诸如故事生成或分析冗长文档等任务中的逻辑连贯性。

多步推理，即将问题分解为中间步骤，本质上依赖于 LLM 在这些步骤中维持和传播上下文的能力。如果上下文管理不当，多步逻辑推理任务的性能可能会随着推理深度的增加而下降。

长程依赖的挑战不仅仅在于“触达”远距离信息，更在于在长跨度内“选择性地关注”正确的信息片段，并在多个推理步骤中保持其相关性。因此一个大的上下文窗口仅仅使信息可访问，但注意力机制通过分配重要性，才使其能够用于长程依赖。

处理长程依赖和执行稳健的多步推理的能力是高级 LLM 的一个关键区别特征，也是复杂问题解决和真正 Agentic 行为的先决条件。简单的任务可能只需要有限的上下文即可解决。然而多步复杂任务的规划、科学发现或需要创造性的战略决策需要综合多种信息并在许多步骤中保持逻辑一致性。

从简单的问答发展到可以解决多步规划和持续逻辑思考的任务，这对依赖深度分析和战略远见的行业具有深远影响，比如有观点认为未来首先被AI替代的是一些平均水平以下的“知识工作者”们。

上下文引导的思维链 (CoT) 与复杂决策
思维链（CoT）提示通过鼓励模型将问题分解为中间步骤，使思考过程明确化和可验证，从而改进 LLM 的推理能力。CoT 通过将多步演绎与更深层次的上下文理解相结合，帮助 LLM 从基本的文本生成器转变为问题解决系统。

CoT及其衍生技术，可以看作是通过上下文脚手架来“调试LLM的心智”。CoT不仅仅是一种提示词技巧，它更是一种通过在每一步构建其即时上下文，来外化和引导LLM内部推理过程的方法。这使得推理过程更加透明，而且至关重要的是，更加“可调试”。

如果一个由CoT驱动的LLM出错了，人们通常可以追溯到链条中某个有缺陷的步骤。像思维树（Tree-of-Thoughts, ToT）这样的高级版本，则明确地为多个推理路径管理上下文，类似于探索一个决策树。这关乎对LLM看似“混乱”的思考过程施加一种“方法论”。

将 RAG 与 CoT 相结合（CoT+RAG），可以将推理步骤建立在检索到的事实性上下文的基础上，从而提高可靠性并减少幻觉。更高级的 CoT 范式，如思维树（Tree-of-Thoughts, ToT）和思维草图（Sketch-of-Thought, SoT），以更结构化的方式使用上下文来处理更深层次的多步逻辑，如同时探索多个推理路径，创建简洁的DAG推理图等。

CoT 是线性的，而复杂问题通常需要探索替代方案、回溯和比较不同的推理路线。有效的复杂决策不仅需要“一条”思维链，还可能需要多条、受管理的和经过评估的上下文路径。

对于复杂的决策制定，尤其是在注重问责制企业环境中，类似CoT的方法为实现更可靠、更易理解的AI提供了途径。能够审查“推理路径”可以建立信任并促进错误分析，使LLM更适合高风险任务。

Agent Memory 与自主决策
基于 LLM 的 Agent 需要记忆来进行规划、推理、使用工具，并在与动态环境交互时维持上下文。Agent Memory 可以概念化为不同类型，包括情景记忆（过去的经验）、语义记忆（事实和知识）和工作记忆（当前任务上下文）等。

Agent Memory是LLM实现自主性和持续学习的引擎，一个无状态的LLM纯粹是被动的。Agent Memory，包含情景记忆、语义记忆等，则赋予了它历史记录、一个持久的世界模型以及从经验中学习的能力。

我认为这是将LLM从一个复杂的工具转变为能够规划、适应并追求长期目标的自主智能体的关键组成部分。“自我编辑记忆”的概念非常值得深入探索，即智能体自行决定存储、更新或遗忘什么，因为它意味着智能体可以为了优化未来性能而自主管理其知识库。

有效的记忆检索机制对于 Agent 从当前上下文中提取相关记忆以模拟类人行为和做出明智决策至关重要。复杂的 Agent Memory 的发展，是连接作为强大语言处理器的 LLM 与作为能够与环境进行复杂、持续交互的自主、目标导向的 Agent 之间的桥梁。没有强大记忆的 LLM 在很大程度上是被动的，仅对即时提示做出反应。

强大的Agent Memory，是创建能够自动化复杂、长期运行的业务流程、充当持久的个人助理，甚至独立发现新事物的AI智能体的前提，只有这样这些AI智能体才具备真正的自主性和适应性。

表2: 上下文对 LLM 关键能力影响

3. How: LLM Context如何管理

随着 LLM 应用的深化，对上下文进行高效管理和智能优化已成为提升模型性能、拓展应用边界的核心技术。

3.1 Glean - 企业级上下文注入与知识管理方案

在企业环境中，LLM 的价值实现高度依赖于其整合和利用企业内部庞杂知识的能力。Context Injection(上下文注入)技术旨在将企业特有的数据、流程和知识有效地融入 LLM 的“视野”，使其能够提供符合企业实际需求的、精准且安全的输出。

Glean 的上下文注入技术

Glean 作为一个专注于提升企业员工生产力和简化工作流程的 AI 平台，其核心竞争力之一便是其强大的上下文注入和知识管理能力。Glean的核心是构建了一个“上下文系统”（system of context）——一个横向的、由AI驱动的企业知识索引，整合来自企业内部的各类结构化和非结构化数据源。

Source: Glean

Glean可以被视为一个“企业大脑连接器”，它致力于解决通用LLM在企业应用中的核心痛点：缺乏特定企业知识。Glean通过其知识图谱（Knowledge Graph）来理解信息是如何在企业内部使用和共享的，从而能够根据用户的角色和权限提供个性化的搜索结果和洞察。它提供的超过100个开箱即用的连接器以及定制化API集成能力，确保了企业内部各种数据孤岛能够被连接起来，形成一个统一、可信、权限感知的“上下文结构”（context fabric）。

基于这个上下文结构，Glean允许用户构建和部署的AI Agent，其行为和回答都植根于企业自身的知识，确保了输出的相关性和权威性。此外，Glean的模型中心（Model Hub）提供了对主流LLM的灵活选择，允许用户在Agent工作流的不同阶段选择最合适的模型。这种架构体现了对“没有万能LLM”的清醒认识，并提供了应对方案。

对于企业而言，最大的LLM应用障碍往往是如何将其与现有复杂、孤立的内部知识体系相整合。Glean通过使企业知识能够即时被AI访问和运用，有望释放巨大的生产力潜能。这实际上是在企业IT堆栈中创建了一个新的层面：AI驱动的知识层。

Glean 带来的核心价值在于：通过统一、可访问和可操作的企业“上下文层”，有效解决了通用 LLM 在企业环境中面临的“冷启动”和领域知识缺乏的问题。它将企业内部的知识孤岛连接起来，形成单一可信的知识来源。通过将 AI Agent 的行为植根于这个经过精心管理的上下文，Glean 确保了 LLM 输出在企业环境中的相关性、准确性和安全性，这对于企业采纳 AI 技术至关重要。

解决“在每个应用孤岛中重复索引数据”的问题是提升效率的关键。Glean将自身定位为企业AI Agent的“操作系统”，其中上下文是一种基础性的、可共享的资源，这可能是未来企业AI应用的一种重要架构模式。

Glean 的集中式上下文系统及其支持多种 LLM 和 API 的 Agent 构建器，旨在提供一个基础层，各种 AI 驱动的工作流和 Agent 系统都可以在此基础上构建。模型中心通过允许在这个生态系统内为不同任务灵活选择 LLM，进一步支持了这一愿景。

3.2 Memory-as-a-Service 与持久化记忆

为了克服 LLM 天然的“失忆”特性（即仅限于当前上下文窗口的记忆），业界正在积极探索各种持久化记忆的解决方案。Memory-as-a-Service的理念应运而生，旨在为 LLM 应用提供可插拔、可扩展的记忆能力。

Source: mem0.ai

mem0 是一个专注于为 AI 助手和 Agent 提供智能记忆层的平台，其目标是实现个性化的、具有丰富上下文的 AI 交互，通过让 AI“记住”用户偏好并随时间推移不断适应，从而提升用户体验并优化成本。

mem0 的核心架构采用动态的两阶段（提取与更新）机制来处理对话信息：首先从对话中提取、整合关键事实，然后结合最近的消息和全局摘要形成上下文提示，供 LLM 使用。为了高效存储和检索这些记忆，mem0 采用了一种混合数据库系统，集成了向量数据库（用于存储嵌入向量以支持语义搜索）、键值数据库（用于存储结构化数据）和图数据库（如 Neo4j，用于表示和查询实体间的关系）。

特别值得关注的是其图增强版本Mem0g，它将记忆构建为一个有向的实体-关系图谱。对话内容中的实体（人、地点、偏好等）成为图节点，它们之间的关系成为边，每个实体都被打上标签、嵌入化并记录时间戳。这种结构超越了简单文本块的语义相似性（如传统RAG），为跨会话的复杂信息链和时序查询提供了更强的推理能力。这表明，对于高级智能体能力而言，单纯非结构化的记忆视图是不够的；需要对上下文进行结构化理解才能进行更复杂的推理。

mem0 支持多层级记忆，能够无缝地保持用户记忆（User Memory，记录个体偏好）、会话记忆（Session Memory，记录当前交互）和 Agent 状态记忆（Agent State，记录 Agent 自身的操作上下文），从而实现自适应的个性化。

mem0 的应用场景非常广泛，尤其适用于需要长期交互和记忆连续性的领域。例如，在 AI 助手和客户支持领域，mem0 可以帮助聊天机器人记住用户过去的咨询记录和偏好，提供更连贯和个性化的服务。在医疗健康领域，它可以辅助 AI 系统记录患者的病史和偏好，提升个性化护理水平。在教育领域，AI 辅导系统可以利用 mem0 持续追踪学生的学习进度和学习风格。其他成功案例还包括 Sunflower Sober 的个性化康复支持、BrowserUse 的浏览器自动化以及 OpenNote 的个性化视觉学习等。

mem0 的主要优势在于它有效解决了 LLM 的无状态性和上下文窗口受限的问题，实现了跨会话的持久化、结构化记忆调用。在 LOCOMO 等基准测试中，mem0 相较于 OpenAI Memory 等方案，在准确率（提升 26%）、延迟（降低 91%）和Token使用量（节省 90%）方面均表现出显著优势。

mem0 提供的Memory-as-a-Service服务，将长期记忆管理的复杂性抽象出来，提供了一个可插拔的组件，使各种 LLM 应用都能具备持久性和个性化能力。这实际上是将先前复杂且特定于应用的记忆能力商品化了，一直以来构建强大的 LLM 长期记忆本身是一项艰巨的任务，而mem0 将此作为一项服务或一个层来提供。通过提供 API/SDK，它允许开发人员轻松集成高级记忆功能，而无需自己成为向量数据库、图数据库或复杂检索算法方面的专家。这大大降低了创建复杂的、有状态 AI Agent 的门槛。

3.3 个人化上下文与用户画像

为用户提供高度个性化的体验是提升 LLM 应用吸引力和实用性的关键。这需要模型能够理解并记住用户的个体特征、偏好和历史行为，即构建和利用个人化上下文。

ChatGPT 的个人历史上下文机制
Source: OpenAI

OpenAI 的 ChatGPT最近上个月刚发布了记忆功能，通过学习用户的兴趣和偏好来个性化未来的对话，使其更具相关性和针对性。

ChatGPT 的记忆机制主要包含两个方面：“保存的记忆”（Saved Memories）和“参考聊天历史”（Reference Chat History）。

“保存的记忆”由用户明确指示 ChatGPT 记住特定信息（如姓名、偏好语气、饮食需求等），这些信息会连同时间戳一起存储在系统提示的 Model Set Context 部分，用户可以通过设置界面进行管理。

“参考聊天历史”则更为自动化，ChatGPT 会自动从用户之前的对话历史中提取信息，维护一个近期的聊天记录，并逐步构建用户画像。这个画像包含了多个维度的信息，例如：“显著的过去对话主题摘要（Notable Past Conversation Topic Highlights）“，记录了过去对话中的高级别主题；“有用的用户洞察（Helpful User Insights）”，包含用户的具体信息如姓名、职业、研究领域、专业技能等；“近期对话内容（Recent Conversation Content）“，存储了大约最近 40 条用户发起的聊天记录，仅用户消息，不含 ChatGPT 回复，可能为了减少数据量和潜在的注入风险）；还有“用户交互元数据（User Interaction Metadata）”，包含账户信息、客户端信息、模型使用比例、对话深度、活跃天数等行为数据。这些信息共同构成了 ChatGPT 对用户的理解，并被用于调整后续的交互。

这些记忆功能的目的是提供更像人类、更直观、更高效的交互体验，使 ChatGPT 能够适应用户的语气、行为和需求，并提高跨会话任务的连续性。然而，用户对隐式学习到的用户画像缺乏透明度和直接控制权，有时可能导致预期外的行为。由于不同用户拥有不同的历史画像，对话结果的可复现性也可能成为一个问题，即同一提示在不同用户或不同时间点可能产生不同输出。

Google Gemini 的 Personal Context
在 Google I/O 大会上，Google 展示了其在Personal Context方面的最新进展，通过深度整合用户数据，提供更智能、更个性化的 AI 服务。
Source: Google

Google 的“个人上下文”（Personal Context）功能允许其 Gemini 模型在获得用户明确许可的前提下，利用来自 Google 各个应用相关个人信息，，如 Gmail、Google Drive、日历等的，以实现私密、透明且用户可控的个性化体验。

这项功能深度集成到 Gemini 模型中，以支持多种应用场景，现场演示的一个例子是 Gmail 中的个性化智能回复（Personalized Smart Replies）。当朋友邮件咨询用户过去曾有过的公路旅行经验时，Gemini 可以搜索用户过往的邮件和 Google Drive 中的文件（如在 Google Docs 中创建的行程单），从而建议一个包含具体细节、切中要点的回复。该回复还会匹配用户通常的问候方式、语气、风格乃至常用词汇，以生成听起来更真实、更像用户本人的内容。此功能也将应用于 Google 搜索的 AI Mode。

Google 凭借其庞大的用户数据生态系统，通过“个人上下文”功能构建了一个深度集成且潜力巨大的个性化层，这有望成为其在 AI 竞争中的重要差异化优势。Google 在搜索、Gmail、Drive、日历等服务中积累了海量的用户数据。

在用户许可前提下，通过让 Gemini 利用这些数据，Google 可以提供其他独立 LLM 提供商可能难以企及的个性化水平。“个性化智能回复”的例子充分展示了如何利用这一独特数据资产。

3.4 AI Agent 的记忆系统与架构

随着 LLM 从单纯的语言处理工具向更自主的 AI Agent 演进，如何为Agent设置有效的Context，使其能够学习、适应并执行复杂任务，成为Agent应用的一个核心能力。

AI Agent 的记忆系统旨在赋予 LLM 持久化存储和高效检索信息的能力，从而支持其在动态环境中进行规划、推理、工具使用和上下文维持。受到人类认知模型的启发，AI Agent 的记忆架构通常被概念化为多种类型的记忆组件的融合：

工作记忆 (Working Memory / Short-Term Memory): 持有当前任务相关的上下文、最近接收的数据或正在被主动处理的信息。这可以类比于 LLM 的当前上下文窗口或一个滚动缓冲区。

语义记忆 (Semantic Memory): 存储关于世界的事实、概念和一般性知识，这些知识不依赖于特定的时空背景。它通常来源于预训练数据或外部知识库，为 Agent 提供背景知识和事实依据。

情景记忆 (Episodic Memory): 存储与特定时间和地点相关的个体经验和事件序列。它支持从独特的、一次性的事件中进行单样本学习（single-shot learning），并能够推理过去行动及其后果。

这些不同类型的记忆并非孤立存在，而是相互作用，共同支持 Agent 的认知功能。例如，Agent 在执行一项复杂任务时，可能需要利用工作记忆处理即时输入，从情景记忆中检索相关的过往经验，并依据语义记忆中的通用知识进行推理和决策。

Agent Memory 的实现通常涉及外部存储系统（如数据库、知识图谱、向量嵌入库）和高效的检索机制。根据“Rethinking Memory in AI”等研究，核心的记忆操作包括巩固（consolidation）、索引（indexing）、更新（updating）、遗忘（forgetting）、检索（retrieval）和压缩（compression）。

一个做出复杂决策的 Agent 可能需要访问所有这三种记忆：使用工作记忆处理当前输入，检索相关的过去情景（情景记忆），并将其推理建立在一般事实（语义记忆）的基础上。挑战在于设计能够让这些记忆系统有效沟通和协同工作的架构。

3.5 MemGPT (Letta) 的 LLM OS 理念与实践

MemGPT（现为Letta核心技术之一）是 LLMOS 概念的早期探索者和重要实践者。其核心思想是将 LLM 视为一种新的计算单元，并借鉴传统操

Source: latent.space

MemGPT 的架构引入了分层记忆系统，区分了主上下文（main context，类似于操作系统的物理内存/RAM，即 LLM 的实际输入提示词）和外部上下文（external context，类似于磁盘存储）。

主上下文：

FIFO 队列 (FIFO Queue): 存储滚动的消息历史，包括用户与 Agent 的交互、系统消息（如内存压力警告）以及函数调用的输入输出。队列的起始位置包含一个对已移出队列消息的递归摘要。

工作上下文 (Working Context): 固定大小、可读写的非结构化文本块，只能通过 MemGPT 函数调用进行修改。在对话场景中，用于存储关于用户和 Agent 角色的关键事实、偏好等。

系统指令 (System Instructions): 只读的静态指令，定义了 MemGPT 的控制流程、不同记忆层级的使用方式以及如何调用 MemGPT 功能（如检索外部数据）。

外部上下文：

档案存储 (Archival Storage): 可读写的数据库，用于存储任意长度的文本对象。

回忆存储 (Recall Storage): 作为 MemGPT 的消息数据库，存储所有传入消息和 LLM 生成的输出。

MemGPT 的关键创新在于其虚拟上下文管理机制。它通过LLMOS让 LLM 能够自主管理其上下文窗口内的信息，实现类似于传统操作系统中物理内存和磁盘之间的“页面调度”（paging）。

当主上下文接近 LLM 的Token限制时（内存压力警告），LLM 可以通过调用预定义的工具（函数），将信息从主上下文“换出”到外部上下文（Archive），或从外部上下文“换入”相关信息到主上下文。这种自我编辑记忆（self-editing memory）的能力，使得 LLM 能够处理远超其物理上下文窗口限制的信息量。

队列管理器（Queue Manager）在虚拟上下文管理中扮演核心角色，负责管理消息的流入流出、触发 LLM 推理、控制上下文溢出（通过队列驱逐策略），并在必要时生成递归摘要（recursive summarization）以保存被移出上下文的信息精华。

此外，MemGPT 支持函数链（function chaining）和心跳机制（heartbeats），允许 LLM 执行多步推理和操作序列，例如在返回给用户之前，可以连续调用多个工具或进行多次记忆检索和更新。

Letta 框架继承并扩展了 MemGPT 的理念，旨在提供一个构建复杂 Agent（包括 MemGPT 类型的 Agent）并将其作为服务运行的平台。它强调状态持久化、Agent 即服务（agents-as-a-service）以及通过 REST API 进行交互的模式。

MemGPT/Letta 的实践表明，通过赋予 LLM 更强的上下文和记忆管理能力，可以显著提升其在长对话、文档分析等需要处理大量信息的任务上的表现，并为构建更自主、更强大的 AI Agent 奠定了基础。这种将 LLM 视为“操作系统内核”的思路，为未来 LLM 应用的架构设计提供了新的范式。

4. Next: LLM Context的未来趋势与挑战

上下文作为 LLM 的核心要素，其理论研究和技术实践仍在飞速发展。未来，上下文将在 LLM 应用中扮演越来越重要的角色，同时也面临着一系列待解决的挑战。

4.1 “上下文”技术的新兴发展趋势

更智能的上下文架构与动态管理
未来的上下文管理将更加智能化和动态化。这包括发展更先进的上下文感知架构，能够根据任务需求和实时交互动态调整上下文窗口的大小、内容和结构。例如，系统可能会自动识别并优先加载与当前任务最相关的上下文片段，同时压缩或归档次要信息，以在有限的计算资源下最大化上下文的有效性。
Source: “FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management”
FlowKV 这类针对 KV Cache 的多轮隔离机制，以及其他框架(SAGE)基于遗忘曲线的记忆优化，都体现了向更精细化、动态化上下文管理演进的趋势。
此外，对上下文进行分层（如 MemGPT 的主上下文与外部上下文）和区分不同类型的记忆（如情景记忆、语义记忆）也将是重要的发展方向，使得 LLM 能够更高效地组织和利用不同性质的上下文信息。

多模态上下文的深度融合与理解
随着 LLM 处理能力的提升，对文本、图像、音频、视频乃至传感器数据等多模态上下文的深度融合与理解将成为主流趋势。
这不仅仅是将不同模态的信息简单拼接，更涉及到在语义层面理解不同模态信息之间的关联和互补性，形成统一的、更丰富的上下文表示。
Google 的 Project Astra 展示了这种多模态交互和记忆的潜力，AI 助手能够“看到”和“听到”用户所处的环境，并结合这些信息提供帮助。未来的 LLM 应用将更加依赖于这种跨模态的上下文理解能力，以应对更复杂的现实世界场景。

主动式上下文感知与预判
当前的 LLM 主要在接收到用户输入后利用上下文进行响应。未来的趋势是 LLM 能够更主动地感知环境变化和用户潜在需求，预判可能需要的上下文，并提前进行加载或准备。
例如，Google 的 Agent Mode (Project Mariner) 能够访问用户日历并主动为即将到来的会议做准备，这体现了主动式上下文利用的雏形。这种主动性将使 LLM 应用从被动工具转变为更智能的合作伙伴，能够在用户明确提出需求之前就提供相关的支持和建议。

上下文共享与互操作性的标准化
随着各种 LLM 应用和 Agent 的涌现，上下文信息的共享和互操作性变得越来越重要。模型上下文协议（Model Context Protocol, MCP）等标准化尝试，旨在为不同 LLM、工具和服务之间安全、高效地交换上下文信息提供统一的规范。
mem0 的 OpenMemory MCP Server 计划也反映了对可移植、可互操作记忆层的追求。标准化的上下文协议将有助于打破应用孤岛，促进更广泛的生态系统协作，并使用户能够在不同 AI 服务间无缝迁移和利用其个人上下文。

LLMOS的成熟与普及
LLMOS 的概念，如 MemGPT/Letta 和 SAGE 框架所探索的，将上下文管理、记忆系统、工具调用、任务调度等功能整合到一个统一的框架中，为 LLM 提供了一个更强大的运行和交互环境。
随着这些框架的不断成熟和相关技术（如安全代码执行沙箱 E2B、RAG、CoT 等）的集成，LLMOS 有望成为下一代 AI 应用开发和部署的标准范式，极大地简化复杂 Agentic 应用的构建。

4.2 “上下文”技术面临的关键挑战

尽管上下文技术前景广阔，但在其发展和应用过程中仍面临诸多挑战。

上下文的真实理解与细粒度控制
尽管 LLM 在处理上下文方面取得了显著进展，但其对上下文的理解往往停留在模式匹配和统计相关性层面，而非真正的语义理解和逻辑推理。
如何让 LLM 更深入地理解上下文的细微差别、隐含意义和复杂关系，并对其进行更细粒度的控制（例如，精确地知道哪些上下文对当前任务最重要，如何动态调整注意力焦点），仍然是一个巨大的挑战。

上下文安全与隐私保护的平衡
上下文信息，尤其是个人历史上下文、企业内部数据等敏感信息，其安全和隐私保护至关重要。
如何在充分利用上下文提升 LLM 性能和用户体验的同时，确保数据不被泄露、滥用或用于未经授权的目的，是一个复杂的技术和伦理问题。Glean Protect 等方案致力于在数据、AI 和 Agent 各个层面提供保护，但随着上下文维度的增加和 Agent 自主性的增强，安全和隐私的挑战将持续存在。

上下文过载与有效筛选的难题
随着上下文窗口的不断扩大和外部知识源的接入，LLM 可能面临上下文过载的问题。过多的信息，尤其是包含噪声或不相关内容时，反而可能降低模型的性能和响应速度，导致“大海捞针”的困境。
因此，如何设计高效的上下文筛选、压缩和优先级排序机制，确保 LLM 能够快速定位并利用最有价值的上下文信息，是提升其实用性的关键。

4.3 “上下文”技术带来的未来机遇

克服挑战的同时，上下文技术的进步也预示着 LLM 应用的巨大机遇。

实现真正千人千面的超个性化体验
通过对用户个人上下文（包括长期偏好、即时需求、情绪状态、所处环境等多维度信息）的深度理解和精细利用，LLM 有望提供前所未有的超个性化服务和体验。
无论是教育、娱乐、购物还是日常助手，LLM 都能更精准地满足个体用户的独特需求，提升用户满意度和粘性。

赋能更强大的自主智能体
丰富的上下文理解和持久的记忆系统是构建高级自主智能体的核心。未来的 AI Agent 将能够凭借其强大的上下文处理能力，在复杂动态的环境中进行长期规划、自主学习、与环境和其他 Agent 高效协作，完成更具挑战性的任务。

促进更自然高效的人机协作
当 LLM 能够更好地理解和共享人类在特定任务或对话中的上下文时，人机协作的效率和流畅度将得到极大提升。用户可以用更自然的方式与 LLM 交流，减少沟通成本和误解。LLM 也可以作为强大的认知助手，帮助人类处理信息、辅助决策、激发创新。

5. 结论

上下文无疑是大语言模型（LLM）发挥其强大能力、实现广泛应用的核心与灵魂。从最初作为模型输入的基本组成部分，到如今演化为涵盖短期记忆、长期知识、结构化数据、非结构化信息乃至多模态感知的复杂系统，上下文的内涵和外延都在不断扩展。

未来，上下文技术将朝着更智能的动态管理、更深度的多模态融合、更主动的上下文感知以及更标准化的共享与互操作方向发展。LLMOS 理念的成熟有望为构建下一代 AI 应用提供统一的、高效的底层支撑。然而，上下文的真实理解、安全隐私保护、信息过载与有效筛选等问题仍是未来需要重点解决的技术挑战。

尽管有很多挑战，上下文技术的持续突破必将为 LLM 应用带来很多新的机遇。从实现真正千人千面的超个性化体验，到赋能更强大的自主智能体，再到促进更自然高效的人机协作和驱动复杂问题解决能力的飞跃，上下文作为连接 LLM 与现实世界的桥梁，其用户价值将日益凸显。

对于LLM应用的构建者或者startups，精细化、系统化的高效上下文管理势必会成为LLM应用产品的核心竞争力之一。

Enjoy!

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业