免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RAG 已死,上下文工程当立

发布日期:2025-08-23 17:06:14 浏览次数: 1513
作者:BubbleBrain

微信搜一搜,关注“BubbleBrain”

推荐语

上下文工程正成为AI应用的新核心,Chroma创始人Jeff Huber深度解析如何突破RAG局限,实现更精准的上下文管理。

核心内容:
1. 上下文工程的定义与内外循环机制解析
2. 当前AI模型在长上下文场景中的性能瓶颈
3. 两阶段检索范式的实践策略与未来趋势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
朋友们好,今天给大家带来最新的 Latent Space 的一期播客的内容,这期内容非常有价值,跟当下最火的概念,上下文工程,息息相关。同时内容里也提到了 RAG,Memory 等这些非常核心的要素。
他们采访的对象是 Chroma 的创始人,Jeff Huber, 来分享一些他的观点。  
原视频地址: 
https://www.youtube.com/watch?v=pIbIZ_Bxl_g 
另外,这里介绍一下 Chroma。做过 AI 应用开发,特别是 RAG的同学应该不是很陌生,Chroma 是一个开源的向量检索数据库,提供 AI 应用所需要的向量检索+关键词全文检索+正则+元数据过滤的一体化方案。可以本地嵌入式运行,也可连到托管的 Chroma 云端上。 
所以,作为 Chroma 的创始人,Jeff 分享的内容还是很值得一看的。我对此进行了一些整理,希望大家理解起来更加方便一些。
那,我们现在开始。
1.上下文工程:AI 时代的核心技能
对于最近很火的上下文工程,Jeff 将其定义为:在任何给定的LLM 生成步骤中,精确决定上下文窗口应包含何种信息的任务。 
这里包含了两个循环,Jeff 认为一个是内循环,决定当前这一步中,应该塞入哪些内容给到模型作为上下文,还有一个是外循环,随着对话次数的增加、时间的积累,逐渐要让模型选择最相关的信息。
他甚至批评 RAG 这一个术语,认为它将检索、增强、生成三个概念硬拼在一起,且常被误解为只做单次的向量检索。Jeff 自己说他是从来不用 RAG 这个词汇的。
「emmm..确实是这样,做过 RAG 项目的同学其实都有经验,RAG 中最重要的就是检索这一环节,如果检索内容都出现问题了,后面的增强、生成都是白扯,所以 RAG 其实就是只有检索这一part」
Chroma 通过研究,发现当前的 AI 应用中存在着严重的上下文腐烂的问题。当模型的上下文窗口中存在着更多 Token 时,模型的注意力会下降,推理能力也会随之减弱。对于当前前沿模型声称能够完美利用百万级 Token 上下文窗口的说法,Jeff 也保持着怀疑的态度。Chroma 的报告显示,许多模型在长上下文的场景中的性能并不理想。
「作为一个经常评测各大模型的博主,这点真的深有同感。很多模型虽然声称虽然有 256k 甚至 1M 的上下文窗口,但是长上下文表现非常不理想。 推荐阅读 MinMax 的长上下文评测:DeepSeek用户看过来:这个开源模型的上下文是它的15倍,还能思考80k字" data-itemshowtype="0" linktype="text" data-linktype="2">DeepSeek用户看过来:这个开源模型的上下文是它的15倍,还能思考80k字」 
为了解决这些问题,Jeff 同样分享了上下文工程中的实用策略: 
  • 两阶段检索范式:首先进行第一阶段检索(向量、全文、元数据检索),从海量候选数据中快速筛选出少量相关数据。随后将这些初步筛选结果交给 LLM 作为重排序器进行精细筛选。随着 LLM 变得更快,更便宜,Jeff 认为以往专用的重排序模型将逐渐被 LLM 替代。 

  • 代码上下文优化:代码是一种特殊的上下文。Chroma 原生支持 Regex (正则表达式搜索)并引入了独特的Forking 功能,用户可以再百毫秒内创建现有索引的副本,从而高效地对不同 git 提交、分支或发布标签的代码库进行重索引和搜索。当然,千万不要神化 embedding,regex 仍然解决 85%-90% 的查询,embedding 通常还能带来 5-15% 的额外增益,所以这套组合拳才是实际项目工程中的最优解。  

    「Claude Code 包括 Cline 这类代码 Agent其实专门说过一个点是,它们从来不对代码做 Embedding或索引,而是直接通过调用工具的方式来做代码搜索。推荐可以看下我写的这篇分享: Claude烧钱,Cline更烧钱,但聪明的开发者都在抢着用 | Cline 博客分享Jeff 其实是认为拿代码来做 Embedding 还非常的早期,可能现在的代码库我们使用 Regex 就能解决大部分的问题,但是Embedding 还能在这之上带来更好的效果。」 

  • 数据预处理与信号增强:Jeff 强调,在数据读取并处理的时候,要尽可能地提取并注入结构化信息和元数据。例如,通过 Chunk Rewriting 技术,让 LLM 为代码生成自然语言描述,然后将这些描述与代码本身一同embedding 或者单独做 embedding 处理。
     
  • 构建黄金数据集的重要性:Jeff 指出,构建小型、高质量的数据集对于量化评估和持续改进系统非常重要。许多团队都是有文档、有答案、就是没有用户的查询,导致无法量化检索的优劣。正确的做法是:使用 LLM 为你的语料自动生成 query-chunk 对,得到小而精的评测集,用它来权衡召回,精度,成本,可用性再稳步迭代。实践证明:几百条高质量的评估集,能带来巨大的回报。 

    「无数论文、实验证明,好的数据质量决定一切」 
2. 未来检索系统的进化
Jeff 对未来的检索系统的优化方向提出了两个进化的方向: 
  • 持续检索。现在的检索系统都是一次检索完了之后,就直接输出。Jeff 认为未来应该是边检索边输出,根据需要,随时可以去检索。 

  • 停留在潜空间。其实这个算是持续检索的前置吧,做完 Embedding 之后,不会回到自然语言,而是停留在潜层空间,这样一来,如果要接着检索的话,直接去潜空间里检索就行。 

3. 关于 AI 记忆:本质是更好的上下文调度
Jeff 非常推崇记忆这个概念,,因为记忆这个词非常的拟人化,而且无论是 AI 圈内的人还是外人都能一下子听得懂这是在说什么。
AI 记忆,本质上是上下文工程的体现。我们所要考虑的是如何将正确的信息放入到上下文窗口中。
Jeff 非常反对造新词,尤其是市面上有层出不穷的记忆概念,大多数情况下,它们的本质是相同的。他推崇类似数据库里的离线处理、数据压缩和重索引概念,让 AI系统通过持续的自我改进来实现记忆功能。
4. 创业哲学与方法论
在访谈的最后,Jeff 也分享了他自己的创业哲学和人文关怀。他的人生完全就是北极星原则:只做自己热爱的工作、只与自己喜欢的人共事,只服务自己认同的客户
他强调他自己创业其实是为了不仅仅是想把工作做好,更想让自己做的工作被更多的人看到。真正的影响力在于发明出伟大的事物,并尽可能让更多的人使用
同时,他还深入探讨了品牌和文化的重要性。他认为一个公司的创始人必须得是公司的品味策展人。创始人最在意的东西,往往会成为公司做到极致的部分。他要确保从办公室环境、网站设计、API 体验到内部面试流程,每一个环节都展现出一致的,高质量的品牌体验。他将此视为自己作为创始人为公司做的最重要的事情之一。
在团队建设上,çhroma 秉持着慢招、精选的原则。Jeff 寻求那些真正热爱工作、对工艺和质量有极高标准、能独立执行,并愿意与团队并肩作战的工程师和设计师。
「没错,现场打起了招聘广告了」
特地去看了下 Chroma 的官网,确实挺漂亮的。
5.写在最后
好啦,今天的分享就先到这儿了~ 
Jeff 的分享还是非常有价值的,真的推荐大家对这一期的视频反复观看,尤其是他不仅仅分享了他对当前技术的思考,还讲述了他自己创业的一些经历以及工作的一些原则。这些东西无论是对我们自己的工作还是生活都会非常有益。 

以上,

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询