免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

context是什么?怎么用?

发布日期:2026-02-13 21:38:07 浏览次数: 1521
作者:大数据架构师

微信搜一搜,关注“大数据架构师”

推荐语

Context不仅是AI的核心概念,更是理解大模型工作原理的关键钥匙。

核心内容:
1. Context的本质与在大模型中的核心作用
2. 大模型处理文本的数学原理与上下文依赖
3. 不同AI模型的上下文记忆容量对比与发展趋势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

图片

编 辑:老彭

来 源:大数据架构师

彭友们好,我是老彭啊。今天很多同事都肥老家过年了。据说今天还没放假的单位天花板都长这样:

你单位的天花板啥样啊?给我瞅瞅~~~

今天下午,剩下的同事们都在唠嗑,有个同事想让我讲讲context。这个我还真有蛮多感触的,也有一些经验可以跟大家分享一下。

Context 到底是啥?

先给结论:context 就是小学就学过的上下文,没有那么神神秘秘的。

顾名思义,就是看到一句话、一个词,不能断章取义片面理解,得结合前面的铺垫、后面的延伸综合判断,这就是context上下文。

阅读理解必会技巧。

那么问题来了:为啥这个文科生的术语,现在成了AI圈的高频词,还被一帮理科生挂在嘴边?

答案很简单:现在的 AI 主流是大模型,而大模型的核心能力就是NLP(自然语言处理),说白了就是处理文本、理解人类语言,既然要跟文字打交道,自然就绕不开上下文这个基础概念。

你做阅读理解需要看上下文,大模型也一样!就这么简单!

这里老彭再跟大家扒一扒大模型的底层逻辑,你就更明白了。

大模型根本不是像人一样理解文字,它处理文本的本质,是把所有文字拆成一个个词元,再把这些词元向量化,就是变成一串串数字,然后通过数学计算,算出向量之间的距离、下一个词出现的概率,最后把这些词按概率串起来,形成一段看似通顺的内容

对原理感兴趣的彭友可以参考老彭翻译的书《百页大模型原理》,内容介绍在这里:老彭的新书首秀:AI学习者的自学圣书!

而这个计算过程,必须依赖前面的文字和后续要生成的文字做参考,没有这些上下文,大模型根本不知道下一个词该选啥。

这就是为啥现在 AI 圈天天提 context 的核心原因,它不是啥新发明,只是大模型数学计算的必要条件而已。

也正因为如此,梅宏院士才会有那句经典判断:大模型始终没有跳出概率计算的框架。

大模型看似能说会道,本质还是个靠算概率生成文字的数学机器,而上下文,就是这台机器的计算参考系。

上下文机制:memory记忆

搞懂了context是啥,再说说大模型的上下文机制,其实核心就一个词:memory(记忆)。

咱们跟大模型聊天,都是一问一答的交互方式,大模型为了精准理解你的需求,每次回应你的提问(就是输入的 prompt 提示词)时,都会回头看一眼前面的沟通记录、你上传的附件、相关链接这些信息。

这就是它在调用上下文,也是我们感觉AI 能记住我们说过的话的原因。

但这里有个关键:服务器的资源永远是有限的,大模型不可能记住所有信息。

所以大模型的上下文也只有一部分会暂存在当前对话中,这部分暂存的信息,就是它的记忆。

不同模型的记忆容量不一样,早期的 GPT-3,只能处理2048个词元(就是字、单词)的上下文,大概也就 4 页纸;

现在的 Llama 3.1,已经能处理 128000 个词元的上下文,这容量基本能装下一整本书了。

当然现在模型的记忆容量肯定更强了。不过模型能力再强,也扛不住使用的人多啊。

如果每个用户的每次对话,大模型都要处理一本书那么大的上下文,就算马斯克和黄仁勋联手,把所有服务器拉过来,也得直接崩掉,这是纯纯的资源消耗问题。

所以实际使用中,大模型的上下文机制是这样工作的:

优先抓取最近几轮的对话上下文,这部分是核心,能保证当前沟通的连贯性。

对于更早的对话记录,不会原封不动全部保留,而是会自动汇总、提取关键信息存起来,非关键信息直接舍弃,既节省资源,又能保留核心记忆

25 年 10 月份,6岁的小十三跟不小心摔坏的聊天机器人小智的一段对话爆火,当时还骗了我不少眼泪。

为了写这篇公众号文章,老彭又去翻了一下视频,又掉了两滴眼泪,太tnnd感动了...

小智能记住和小主人的名字和日常,是因为这些内容被持续存为上下文关键信息。

上下文学习和上下文工程

知道了 AI 离不开上下文,那我们怎么利用上下文让大模型更听话、输出更符合预期?这就引出了两个相关概念:上下文学习和上下文工程,一个偏日常使用,一个偏技术落地。

说白了,上下文学习就是给大模型喂参考、给样例,让它照着你的要求来。

大模型需要足够的上下文信息才能精准输出,那我们在使用时,就主动把相关信息给它,这就是最朴素的上下文学习。

举个例子:让大模型帮你写周报,你直接说帮我写本周周报,它大概率写得空泛又模板化。

但如果你把本周的工作日志、工作成果、待办事项、部门群的关键沟通记录都发给它,它输出的内容就会精准得多。

再进阶一点:如果想让大模型输出特定风格、特定结构的内容,直接给它一个输出样例就行。

比如把之前写的周报发过去当参考,告诉它按这个风格写,这就是典型的上下文学习。

用样例做上下文,让大模型模仿、适配你的需求,普通人零门槛就能用。

上下文工程就是把这些技巧系统化、工程化的技术手段。

从技术角度看,我们给大模型喂信息、给样例的行为,都是零散的,而上下文工程,就是把这些零散的操作变成可复制、可落地、可优化的工程方法。

比如怎么筛选有效上下文、怎么压缩上下文信息、怎么把长期记忆的关键信息精准融入当前上下文,这些都是上下文工程要解决的问题。

简单说,上下文学习是怎么用,针对的是普通用户;上下文工程是怎么做好、怎么做规范,针对的是 AI 工程师和开发者,两者一脉相承,但上下文学习是大模型的使用技巧,而上下文工程是开发人员的事儿。

上面提到的小智机器人,肯定对上下文做了特殊处理,否则不会记得小十三那么多东西,生日、喜好等。

怎么用好上下文?

重点来了,理论知道了,实践怎么搞?

简单!不用懂技术,照着下面的方法做,就能让大模型的输出质量提升一大截,纯纯的干货,建议收藏!

1. 给精准的上下文,别给无效信息

很多彭友用 AI 的误区是:一股脑把所有资料都发过去,觉得给得越多越好。

实则不然,大模型的上下文窗口是有限的,无效信息多了,反而会稀释关键信息,让大模型抓不住重点。

抓住一个核心原则:只给和当前任务强相关的上下文信息

让 AI 写工作总结,就给工作成果、KPI 完成情况、具体工作案例,无关的资料一概不发,精准投喂才是关键

所以,不要在一个对话中聊不同的话题。每个对话只说同一个领域的内容,问相关的事情,这是最好的方法。

这样这个对话会越来越懂你。因为里面全是相关的上下文。

2. 用清晰的指令框定上下文范围

有时候我们给了很多上下文,大模型还是输出跑偏,原因就是没有给它明确的上下文使用边界

比如刚上传的资料有1、2、3月的资料,让它写月度总结。如果你只是让大模型写月总结,它有时候会把1、2月份的内容也写进去。

所以一定要补一句仅基于3月份的工作数据写总结,忽略 1、2 月份的信息。

用清晰的指令框定范围,大模型就不会乱用上下文。

3. 给出参考样例进一步约束输出风格

这是老彭最常用的技巧,尤其适合写文案、公文这类有固定风格、结构要求的任务。

给大模型一个样例让它好好学习学习,比你说一百句写得专业点都管用。

这样大模型会直接把样例作为核心上下文,输出的内容基本不会跑偏,省去大量修改的时间。

我会写好第一段,然后把第二、三段的标题写好,发给大模型,让它按照第一段的样式,写第二、三段的内容。

这样出来的结果基本上稍微修正一下就ok了。

顺便说一句,这个仿写的功能是大多数公文写作大模型必备的能力。

4. 手动汇总长对话上下文,避免信息丢失

如果跟大模型的对话比较长,比如连续沟通一个项目的策划方案,聊了十几轮后,大模型可能会忽略前面的一些关键信息。

这时候别可以手动做一次上下文总结,或者让它自己总结一下前面的对话内容。

比如你可以说 “回顾一下我们之前的沟通,核心确定了这 3 点:1.xxx 2.xxx 3.xxx,接下来基于这几点继续完善策划方案”,手动把关键上下文提炼出来,既能让大模型精准抓住核心,又能避免后续沟通跑偏。

其实这也是让我们自己梳理梳理思路的好时候。

5. 大段容发附件好过发文字

如果需要给大模型的上下文信息比较多,比如一整篇研报、几十页的项目资料,别直接复制粘贴到对话框里。

一是占字数,二是大模型处理起来效率低。根据我的经验,超过5000字,就不好使了。在部分场景中大模型还会用摆烂的方式拒绝任务

可以把这些资料做成文档附件,直接上传给大模型,并让它基于这份附件的内容回答我们的问题。

大模型会直接读取附件作为上下文,处理更高效,也更精准。

总结

其实说到底,context根本不是啥新东西,就是咱们从小就学的上下文,只是被套上了一层技术的外衣,显得玄乎而已。

大模型离不开上下文,本质是因为它的底层是概率计算,需要上下文作为计算参考。

而我们用好上下文,本质就是顺着大模型的工作逻辑,给它足够的、精准的参考信息,让它的计算结果更符合我们的预期。

不用被各种相关的专业术语搞晕,普通人只要掌握一些核心技巧,就能把上下文用好用透,让 AI 真正成为自己的高效工作工具,这就够了。

好了,今天就跟大家唠到这。如果还有啥关于AI圈的问题,评论区留言,老彭后续再跟大家慢慢聊~

咱们下次再见!

更多精彩:
一口气讲透AI圈热词:Prompt、Command、Skills、MCP…到底都是啥?
一口气讲透最近爆火的“本体”到底是个什么鬼?
【解密】1本译作、2个专利、3篇论文,老彭如何用大模型实现高产?
透过现象看创本质的能力-从忒休斯之船到系统论
DeepSeek论文,老彭总结了8 招降低大模型训练参数量的方法!【下载】" data-itemshowtype="0" linktype="text" data-linktype="2">看Deepseek论文,老彭总结了8 招降低大模型训练参数量的方法!
老彭的新书首秀:AI学习者的自学圣书!
ChatGPT研究框架(80页PPT)

排版 | 老彭
审校 | 老彭  主编 | 老彭

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询