我要投稿

RAG是个糟糕的概念，AI 应用的真正王牌是上下文工程

发布日期：2025-08-25 15:26:02 浏览次数： 1908

作者：多森AI笔记

微信搜一搜，关注“多森AI笔记”

AI大模型浪潮汹涌，RAG（检索增强生成）无疑是过去一年最火热的概念之一。

几乎所有人都认为，RAG是构建可靠AI应用，解决大模型“幻觉”问题的“银弹”。

然而，AI原生向量数据库Chroma的创始人Jeff Huber，却在一次顶级播客访谈中语出惊人：RAG是一个糟糕的概念，它让开发者忽略了真正重要的事情。

Jeff认为，当下所有顶尖的AI初创公司，真正擅长且赖以成功的核心能力，其实是另一个被低估的概念——Context Engineering（上下文工程）。

这篇信息量巨大的访谈，将带你深入了解AI应用开发的底层逻辑，揭开“RAG”的迷雾，并找到打造下一个爆款AI产品的关键。

Chroma的创业哲学：从“炼金术”到“工程学”

在很多人眼中，Chroma是开源向量数据库的代表。但创始人Jeff Huber却说，做数据库并非他们的终极目标，而是实现一个更宏大的愿景——将AI应用开发从“炼金术”变成“工程学”。

在过去，开发者构建AI应用就像在玩炼金术：把数据随便搅一搅，看看效果，一切都充满不确定性。

而Chroma的使命，就是为开发者提供可靠、可控的工具，让Demo到生产环境的鸿沟不再难以逾越。为此，他们专注于打造一套现代化的AI检索引擎，让信息检索变得像工程一样严谨。

Jeff认为，创业有两种流派：一种是完全跟随用户需求，做用户想要的东西；另一种则是坚持一个逆势而行的坚定观点，并为此疯狂专注。

Chroma选择了后者。即使面对托管服务的高速增长诱惑，他们也宁愿花费更长时间，也要打造出零配置、按需付费、能提供卓越开发者体验的云产品，因为他们深信，卓越的体验才是真正的护城河。

什么说RAG是个糟糕的概念？

Jeff毫不避讳地表示，自己非常讨厌“RAG”这个词。他认为，RAG将检索、生成、结合这三个不同的概念硬生生地拼凑在一起，造成了巨大的困惑。

更糟糕的是，它被简化成了一个肤浅的代名词——“做一次向量搜索”。

真正应该被关注的，是Context Engineering（上下文工程）。

什么是上下文工程？用Jeff的话说，上下文工程的任务，就是在每一次生成时，决定应该在上下文窗口里放什么。这就像在浩瀚的知识库中，精准地为大模型“喂”入最关键、最相关的信息。

为什么它如此重要？因为存在Context Rot（上下文腐烂）。当上下文窗口的Token数量急剧膨胀时，大模型的性能会随之下降。它会变得“健忘”，无法集中注意力，甚至忽略掉重要的指令。

Jeff和团队通过研究发现，虽然许多前沿模型都宣传自己能在百万Token的上下文中完美运行，但实际情况并非如此。

这种误导性的营销让许多开发者以为可以简单地“把所有东西塞进上下文”，从而忽视了上下文工程的巨大价值。他强调，所有做得好的AI公司，其核心都在于此。

实践：上下文工程的两种核心模式

既然不能一股脑地塞入所有信息，那应该如何选择最相关的？Jeff分享了两种他看到的有效模式：

多阶段检索（Multi-stage Retrieval）：

这是目前最常见也最有效的方法。

首先，使用向量搜索、全文搜索或元数据过滤等“第一阶段检索”手段，快速将候选范围从数万个缩小到数百个。

然后，再用大模型对这数百个片段进行重新打分和排序（Re-rank），最终挑出最相关的十几个或几十个。这种模式兼顾了效率和质量，并且成本极低。

混合搜索（Hybrid Search）：

Jeff认为，所有检索工具都应该被看作工具箱中的一部分。

例如，在代码搜索中，大部分查询用正则表达式就足够了，但为了追求极致的性能和用户体验，一些顶尖团队会引入Embedding，因为它能再带来5%到15%的提升。

他强调，在AI领域，做到80%的效果很容易，但从80%到100%的提升，才是真正有价值和竞争力的部分。

记忆、生成与基准测试的未来

Jeff认为，我们今天看待AI的方式，未来回过头看会显得非常粗糙。未来的检索系统将有几个趋势：

• 持续检索：模型可能不再是“一次检索对应一次生成”，而是能边生成边检索，根据需要随时去查找信息。

• 潜在空间里的工作：未来我们或许不再需要将信息从向量空间重新转为自然语言，模型可以直接在潜在空间里完成大部分工作。

此外，记忆（Memory）的本质也是上下文工程。Jeff认为，“记忆”是一个很好的拟人化概念，它让大众更容易理解。但它的实现，依然是如何把合适的信息放进上下文窗口。

最后，他特别提到了一个被低估的概念：生成式基准测试（Generative Benchmarking）。

他发现，开发者们往往有数据、有片段，但缺少高质量的查询。而通过让大模型根据片段来生成问答对，可以帮助我们构建一个“黄金数据集”，用来衡量不同检索策略的优劣。

他强调，高质量的小数据集比粗糙的大数据集更有价值。这对于所有AI开发者来说，是一个非常实用的启示。

创业的深层驱动力

在访谈的最后，Jeff分享了自己做多次创业的感悟。他认为，人生短暂，他只想和自己真心喜欢的人一起工作，去做真正热爱的事，去服务真心想服务的客户。

他坚信，影响力并非来自发明了不起的东西但无人使用，而是来自你发明的东西被尽可能多的人使用。而这种影响力，源于对产品细节的极致追求。一个团队如何做事，最终会体现在他们做的每一件事里。

这种对细节的执着，不仅是工程上的精益求精，更是创始人价值观的体现。它让公司的品牌、文化、产品体验保持一致，从而建立起真正的信任。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-11-26

深度解析 RAG 索引：决定检索质量的核心机制与六大策略

2025-11-26

RAG 知识库的四个段位

2025-11-25

基于 RAG 的 AI 搜索技术实践

2025-11-25

深入探索RAPTOR：构建知识森林，突破RAG语义检索瓶颈的技术解析

2025-11-25

AAAI-26 | Cog-RAG：用双超图，重构RAG的认知流程

2025-11-24

涌现观点｜从 RAG 到文件系统：Agent 记忆的“逆向进化”

2025-11-23

RAG的进化之路：从DrQA流水线到LLM的即时上下文服务

2025-11-23

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

2025-09-02

万字长文详解腾讯优图RAG技术的架构设计与创新实践

2025-09-08

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

企业级 RAG 系统实战（2万+文档）：10 个项目踩过的坑（附代码工程示例）

2025-10-11

总结了 13 个顶级 RAG 技术

2025-10-12

大家都在问

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

2025-11-23

再谈RAG的文档解析——文档解析的难点在哪里？

2025-11-20

为什么RDF是AI系统的“天然知识层”？

2025-11-19

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB