我要投稿

长文本放提示词中还是采用 RAG？

发布日期：2025-07-28 08:33:32 浏览次数： 1530

作者：明明如月学长

微信搜一搜，关注“明明如月学长”

上周我的 AI 实战营知识星球有一个同学提问：老师，请教下，现在大模型已经支持10多万输入token了，我有个项目提示词有7000来个字，是不是不用RAG也行，效果会比用RAG差？

这个问题非常典型，可能也会有很多朋友遇到类似的困惑，我把我的答案分享出来：

一、一些常识

1 通常来说，输入越长模型输出越慢，消耗 Tokens 越多，成本就越高

2 虽然很多国外先进模型已经支持 10W tokens，如 Gemini 2.5 Pro 已经支持 1,048,576 context，并不意味着 10W tokens 内的所有信息大模型都能够很好的理解和遵循，通常来说上下文越长，效果越差

3 现在大模型在实际处理长文本时存在“注意力稀释”和位置偏好问题，使得中间信息难以被准确关联到输出中。

详情参见：《Lost in the Middle: How Language Models Use Long Contexts》链接：https://arxiv.org/abs/2307.03172

二、放提示词还是采用RAG 的主要依据是什么？

我们可以把提示词分为指令部分和内容部分，提示词 7000 字通常应该包含了内容。

问题的关键在于：内容部分是否是模型回答必要的信息

情况1：如果整个内容都是必要的，那么放提示词更好

RAG 可能会导致部分切片没有被正确提取出来，导致模型获取不到足够的信息，导致回答错误。

哪怕采用 RAG 能保证全部提取出来，“如无必要勿增实体”，没必要新增一个环节，增加耗时和出错的风险。

情况2：如果并不是所有内容都是必须的

坏处

如果并不是所有内容都是必须的，如果都放在提示词中，会导致：

提示词太长，模型性能下降
模型响应时间变长
消耗更多输入 tokens ，成本增加

解决办法有两个：手工选择、代码自动截取或者 RAG

方法1：手工选择、代码自动截取

如果可以采用工程化的方式，提前手动选择或者程序自动提取关键信息，优先使用这种方式，通常比 RAG 准确率更高

方法2：采用 RAG 的方式动态提取最相关的信息

如果无法采用手动选择或代码自动截取，则可以采用 RAG 的方式提取。

需要注意的是，RAG 的召回率是否满足要求，如果你无法保证 RAG 提取的信息的完整性，还不如直接放提示词。

由于动态提取最关键的信息，上下文更短，效果更好，响应时间更短，消耗 tokens 更少，同时还降低了不相关的信息对 LLM 造成的干扰

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-28

企业RAG之构建 FastMCP 服务：基于模型上下文协议的智能服务体系搭建实践

2025-07-28

RAG数据准备完整实战指南：从原始文档到高质量知识库

2025-07-28

企业RAG之数据源构建：爬取巨潮资讯网上市企业年报

2025-07-28

HiRAG：一种基于层级知识索引和检索的高精度RAG

2025-07-28

检索链路全优化：查询重写、重排与压缩如何提升 RAG 效果

2025-07-26

2W8000字揭秘RAG：从基础到高级的逆袭，彻底重塑大模型！

2025-07-24

基于 RAG 和 Claude 的智能文档聊天系统实战指南

2025-07-23

万字长文的叹息：搭建一个生产级RAG系统，80%的工作量都在AI之外

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG技巧与底层代码剖析

2025-06-06

2025年GitHub上十大RAG框架深度解析：从技术原理到实战应用

2025-05-30

RAGFlow中的Embeddings模型选择及向量数据库选型与实现分析

2025-06-05

深度解读：LlamaIndex 实现 RAG 重排序的关键要点

2025-05-08

淘天⾃营质量技术AI智能体的实践和思考

2025-05-19

如何构建基于n8n的RAG日报工作流（手把手教程）

2025-05-10

RAG技术全解析：从基础原理到优化实战

2025-06-05

ragflow架构解析及性能优化方式

2025-05-20

知识图谱+RAG：大幅提升智能问答系统准确率