微信扫码
添加专属顾问
我要投稿
了解RAG技术如何增强大模型的记忆能力,突破传统对话限制。核心内容:1. RAG技术简介及其在大模型中的应用2. RAG技术的核心流程:数据检索、信息增强和生成回答3. 长期记忆的必要性及其与RAG技术的结合
RAG技术在长期记忆中的实践与挑战
©作者|Orlando
来源|神州问学
OpenAI近期发布的更新增强了原本ChatGPT的记忆功能,新版本的GPT模型在回复用户问题的时候,除了记住用户过往的聊天记录,还能够跨聊天调取记忆,从而生成更加准确性的回答。
在此之前,我们使用ChatGPT等类似的AI聊天软件时,对话与对话之间的信息是不共享的,这就导致了一个问题:我们每次在新开启一个对话的时候,都要重复地告诉大模型一些“背景信息”。相信大家在遇到这种情况的时候会很自然的思考一个问题:能否让大模型“记住”我之前说的话?
这就是长期记忆所希望解决的问题。今天我们就来聊一聊,如何能让大模型“长记性”。
在介绍长期记忆之前,我们先来介绍一个与其相似的内容——RAG。
什么是RAG?
RAG,全称 Retrieval-Augmented Generation(检索增强生成),是 OpenAI、Meta 等公司提出的一种框架,用来增强语言模型的知识能力。它的提出是为了解决大模型”幻觉“问题。
简单来说,大模型在训练时学到很多东西,但它的知识是静态的,也就是说,训练之后模型就无法自动了解新的知识、动态变化的信息。这样带来的问题就是:在面对一般性场景的时候,大模型具有不错的表现;但是一旦被问到有关私有或专业数据源的信息,大模型就会生成一些不准确的回复,看起像是在”一本正经“地胡说八道,这就是大模型幻觉。
所以针对不同专业领域的知识,大模型需要针对性的调整和优化,也就是监督微调(Supervised Fine-Tuning), 但是监督微调是一个很耗成本的事情,有没有什么办法可以降低这种定制化工程的成本呢?这就轮到RAG登场了。
RAG的原理在于结合信息检索与自然语言生成,以提高文本生成的质量和准确性。利用检索技术来增强生成模型的新功能,特别是在处理知识密集型任务时,通过结合外部知识库和语料库中的信息,RAG能够生成更加准确、详细和有用的信息。
所以,RAG的出现就像是给模型外挂了一个”搜索引擎“,模型不光是靠自己”硬想“,而是先查资料再回答问题。
RAG 的核心流程:
1.数据检索
RAG利用检索模型在大量的语料库或数据库中搜索与输入查询相关的文本片段或信息。
2.信息增强
与整合检索到的相关信息片段会经过进一步处理,以便为后续的文本生成阶段提供有用的上下文或知识。(在某些情况下,RAG还可能对检索到的信息进行过滤、排序或重新组织,以确保其质量和输入查询的相关性。)
3.生成回答
模型结合检索到的信息和输入查询,RAG使用自然语言生成模型来生成新的文本内容。
这样,模型就能用上“外脑”信息,不再闭门造车了。
为什么需要“长期记忆”?
介绍完了RAG,我们再来看看长期记忆。
尽管RAG已经让大模型能实时查资料,但它并不会“记住”你以前说过的话。每次对话几乎都从零开始,这就带来了一个问题:“我们的对话不能建立起持续的上下文。”
而长期记忆系统的目标,就是像人类一样,建立起可随时访问和调用的“记忆库”。
举个例子
你曾和一个智能助手聊过你喜欢旅游、爱吃辣、来自北方。下次再见面时,它还能主动问你:
“你上次提到喜欢大连的海边,这次计划去哪儿玩?”
这就是长期记忆的作用 —— 让AI真正了解你,并不断积累对话上下文和偏好信息。
如何实现“长期记忆”?
讲完了概念,我们来看看如何实现这一过程。
1.向量数据库 + 检索(最常见)
也就是采用RAG的方式,将你的历史对话和个性化信息保存下来。具体流程就是将对话信息转换为向量,存入像FAISS、Milvus等向量数据库中,当模型需要”回忆“时,就向数据库中检索相关信息,并将结果加到模型输入的prompt中。
这种做法的好处是,因其基于现有的RAG系统,所以部署起来会相对简单;且由于向量数据库的加持,扩展性也会很强,最大可支持百万级的记忆内容。不过因为其没有对记忆进行分类的结构化存储,所以其在检索阶段会出现准确度低的问题,且在存储过程中可能无法理解”时间顺序“或”语境依赖“,导致记忆中忽略这部分的信息。
2. Slot-based 记忆管理(插槽式记忆)
向量数据库因为未采用结构化存储而导致其准确度低,那么为了解决这一问题,就需要对记忆进行结构化设计,也就是将记忆拆分为多个”插槽“。模型根据上下文选择要激活的插槽,动态组合prompt,从而生成更准确的回答。比如,大模型得到了一个user_input,内容为:“小明是重庆人,特别喜欢吃辣椒”。那么其结构化存储就可以按照如下的方式进行存储:
●用户姓名:小明
●喜好:爱吃辣
●背景信息:重庆人
这样做的好处在于:记忆的储存更加结构化,方便了记忆存储与记忆召回。对于一些业务流程比较明确固定的场景,管理记忆的工作会更加方便。但是在实现过程中需要开发人员手动设定插槽,灵活性与兼容性很差。并且在插槽数量过多的时候管理起来十分复杂。
3.多轮对话链 + 自动总结(总结记忆)
既然插槽式记忆需要人工设计记忆结构,那么能不能让大模型自己去完成这个工作呢?总结记忆为这一问题提出了解决方案:让模型定期“写日记”,通过总结来压缩对话历史。即在每次对话结束时,就自动总结一段记忆,或者让模型定期地对过去的对话进行“反思”,存储对话中”高度抽象“的信息,而非其原始内容。
比如,用户询问了一些关于旅游攻略的信息,大模型将对话总结为:”用户计划去XX旅游,关注美食以及交通信息“。
这样的存储方式节省了token成本,让记忆更加紧凑,且更加接近”人类回忆“。但是因为其总结的过程时交给模型及进行处理,总结不准确会导致模型”误记“,并且总结的记忆中缺乏细节,会影响记忆召回的精确度。
混合式:当前最主流的解决方案
实际上,很多先进的长期记忆系统会融合以上几种方式:
比如:
●用 向量数据库存原始记忆片段
●用 slot 存储结构化长期信息(如角色设定、兴趣偏好)
●用 总结机制压缩上下文,提高效率
OpenAI、Meta、Anthropic、Mistral 等公司在构建 Agent 系统时,几乎都采用了这种“混合记忆架构”。
一些代表性的实践项目
除了长期记忆实现方式的简介之外,这里我们再介绍两种应用广泛的长期记忆系统:mem0与memGPT。
mem0:轻量、实用、以用为先的记忆系统
mem0是由社区开发者构建的轻量级长期记忆框架,非常适合实际部署在 AI 助手、智能体或应用中。
它的几个核心设计理念:
✅ 记忆是可搜索和可管理的:通过自然语言索引+向量化混合检索。
✅ 支持多记忆分层结构:如“人物档案”、“事件记录”、“标签主题”等。
✅ 支持自动摘要与反思机制:模型定期总结近期对话,形成更稳固的记忆基础。
✅ 支持“记忆触发器”机制:当对话触发某关键词或语义线索时,自动检索相关记忆。
mem0可以更方便地接入 LangChain、AutoGPT 等框架,是很多构建“有记忆智能体”的团队首选方案。
MemGPT:类人脑记忆的模拟器
MemGPT 是斯坦福等高校研究者提出的一种类人记忆架构,它引入了两个概念:
1.Working Memory(工作记忆):用于当前对话和任务的即时信息,类似人类短期记忆。
2.Long-Term Memory(长期记忆):存储历史重要信息,随时可检索,类似人类的回忆系统。
它最大的特点是:记忆不是固定插入的,而是由模型自主决定“写入”或“读取”。
●比如,当用户说出一句重要信息,MemGPT 会识别“这值得记住”,并自动存入长期记忆。
●未来对话中,如果触发相关线索,模型会主动“回忆”相关内容并应用到回答中。
这种机制让 AI 更像一个“会反思、有偏好、有选择性记忆”的智能体。
总结一下:
RAG + 长期记忆,强强联手!
RAG(检索增强生成)和长期记忆虽然都是为了提升大模型的响应质量,但两者的关注点不同:RAG 侧重于从外部知识库中检索事实性内容,比如文档、网页、数据库等;
而长期记忆更关注于用户本身的历史信息和对话上下文,比如你过去说过的话、提到的偏好或行为习惯。
也就是说,RAG 和记忆并不是非此即彼的互斥关系,而是互补的工具。RAG 解决的是广泛的知识检索问题,而记忆的目标是让 AI 具备贴心的个性化互动能力。
比如:
●RAG 负责回答“现在的天气、公司政策、产品文档”这些 通用问题。
●长期记忆则负责记住“你是谁、你之前说过什么、你喜欢什么”这些 个性化信息。
真正聪明的智能体,应该 既能查资料,也能记住你是谁。
应用场景:让AI变得更“聪明”且“有人味”
RAG+长期记忆不只是技术层面的升级,更是在重塑AI的角色定位——它不再是冷冰冰的工具,而是一个可以陪伴、理解、成长的“数智个体”。
1.企业“超级员工”
高效、稳定、永不离职的数字员工,正在悄悄重塑组织运作方式。
RAG+长期记忆可以赋能AI成为企业内部的“超级员工”:
●记得每一位客户的历史沟通和偏好,避免重复沟通。
●了解公司流程、项目背景、内部知识,做决策时更有上下文。
●支持多角色协作:从HR到客服、从销售到产品,统一接入统一记忆库,实现多部门知识共享。
有了记忆的AI,不再是“问什么答什么”,而是能持续陪伴项目、学习成长的“虚拟同事”。
2.智能客服:会思考的贴心助手
不是简单答FAQ,而是真正记得你上次的诉求。
传统客服的弊端之一就是“记忆断裂”——每次咨询都像第一次见面。引入长期记忆后,AI客服可以:
●记住用户历史问题和处理进度,自动续接上次未完的对话。
●理解用户的习惯和情绪变化,自动调整语气风格。
●结合RAG系统查阅最新政策,实现高效、准确、个性化的回复。
它不止是个客服,更像一个了解你需求、始终在线的私人助理。
3.学习助手:懂你的AI私教
不再千篇一律推荐,而是因材施教、持续跟进。
长期记忆让AI具备了“教学思维”:
●记住你的知识结构、薄弱环节和学习节奏。
●结合网络上的教材资料以及错题记录、学习目标,定制个性化学习路径。
●跟踪学习进度,适时“复盘”知识点,而不是反复机械刷题。
它比任何App都懂你,也比任何老师更“及时”。
小结:未来AI会不会像人一样“有记忆”?
答案是:正在接近!
RAG赋予了大模型查找知识的能力,让大模型有能力成为各个领域的”专业人才”,而长期记忆的目标,是让模型真正像人类一样,有能力理解过去、现在和你自己。
未来的大模型智能体,应该具备这些记忆能力:
●记得“你是谁”
●记得“你说过什么”
●记得“你做过什么”
●更重要的是:知道什么时候应该回忆起它们
而这,才是通往“通用智能”的关键一步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-09
让用户与数据库对话:使用Streamlit构建基于RAG的SQL助手
2025-05-09
RAG检索系统的两大核心利器——Embedding模型和Rerank模型
2025-05-09
知乎直答:AI 搜索产品从 0 到 1 实践探索
2025-05-09
RAG与推理的协同融合:突破大语言模型的认知边界
2025-05-09
五种RAG分块策略详解 + LlamaIndex代码演示
2025-05-09
预生成上下文:重构 RAG 的关键工程,构建 AI 编程底座
2025-05-09
90%的AI对话都很傻,核心原因是记忆问题
2025-05-09
从零开始:用“扣子”智能体快速解决业务难题
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-08
2025-05-05
2025-04-30
2025-04-29
2025-04-29
2025-04-26
2025-04-25
2025-04-22