我要投稿

通俗讲解大模型短期记忆 vs 长期记忆

发布日期：2026-02-04 07:55:36 浏览次数： 1519

作者：悟鸣AI

微信搜一搜，关注“悟鸣AI”

我们在《终于有人把“智能体”的概念给我讲明白了！》一文中深入浅出地讲解了智能体的概念。

有些同学问：智能体的 Memory 中短期记忆（Short-term memory）与长期记忆（Long-term memory）是什么意思？有什么区别？

本文用相对通俗易懂的语言帮助大家来理解这两个概念，以及如何实现的？

在《LLM Powered Autonomous Agents》这篇文章中提到，大语言模型驱动的自主智能体中，大语言模型充当大脑，然后还有几个关键组件，如规划、工具、记忆。

其中记忆包括短期记忆和长期记忆。

短期记忆是智能体在单一会话中维护即时上下文的能力。

工作机制： 它完全依赖于大模型（LLM）的上下文窗口。智能体会将之前的对话历史、中间推理步骤（如 Chain of Thought）放在 Prompt 中传给模型。
局限性： 随着对话变长，旧的信息会因为超出窗口限制而被丢弃或“遗忘”。
常见处理：

滑动窗口： 只保留最近的条对话。
摘要法： 将之前的长对话总结成一段简短的摘要，释放窗口空间。

大模型的短期记忆其实是通过参数来维持的。我们是通过把对话的历史放在请求参数里，每次把前面的内容带上去，它才知道之前聊过什么。

拿 Cherry Studio 为例，不管是默认助手还是我们自定义的助手，在模型设置这里都可以看到「上下文数」。

我们第一个问题是：“你好”

注：点击 Cherry Studio 客户端窗口后按下快捷键 Ctrl + Shift + I（Mac端：Command + Option + I）可以打开控制台，查看请求过程。

我们第三个问题是“很好”

当我们问第四个问题：“不需要”时，我们可以看到我们第一个问题就被丢了！！！

这里的上下文轮数其实就是短期记忆的轮数。超过这个轮数的话，那么它就不会再发给大模型了。

有些朋友可能会问，那我们把上下文数设置长一点不就行了吗？

事情远没有想象的那么简单。

对于很多大模型来说，是按照输入和输出的 tokens 来计费的，上文越长越贵。截图来自；https://api-docs.DeepSeek.com/quick_start/pricing

对大多数模型来说，上下文越长，能力相对来说是会普遍下降的。

详情参见：https://research.trychroma.com/context-rot

由于短期是把聊天记录当做参数传过去，所以在不同的对话中无法自动共享一些关键信息。

长期记忆允许智能体存储、检索和利用过去跨越数天、数月甚至数年的信息。

技术实现： 通常采用 检索增强生成（RAG） 技术。智能体将重要信息转化为向量（Embeddings）存入数据库。当需要时，通过语义匹配检索相关片段。
深度分类：

情境记忆 (Episodic Memory)： 记录具体的“经历”。例如：“用户上周二在上海出差，提到过喜欢那里的咖啡”。
语义记忆 (Semantic Memory)： 存储抽象的“事实”。例如：“用户对花生过敏”。
程序记忆 (Procedural Memory)： 记录执行任务的“技能”或“SOP”。例如：智能体学会了如何使用某个特定的 API 接口。

拿 Cherry Studio 为例，长期记忆是通过“全局记忆”实现的。

你可以手动添加记忆，也可以在智能体里开启记忆。它就会把自己需要记忆的信息做判断，然后自动存储。

我们可以在整体设置这里打开全局记忆。

我们在和他们聊天的时候，它会先检索相关的记忆，然后再回答我们的问题。

如果它认为有些信息需要记住，也会自动保存到记忆中。

听着很完美，实际上还是会存在很多问题。

有时候记忆是 AI 自动决策的，没有和用户确认，那么这些记忆可能是错误的。
有了记忆之后，有些模型不够聪明，它有时会强行和相关记忆上靠，导致回答并不是我们想要的信息。

当我们开启全局记忆时，用户发起对话就会调用 Memory_Search 工具检索可能相关的记忆，并把它们放进上下文，帮助大语言模型更好地回答问题。

回答完成后，系统还会异步提取本次聊天的信息，如有需要增加、修改或删除的记忆，也会通过相应工具处理。

更多细节可 Cherry Studio 源码：https://github.com/CherryHQ/cherry-studio

简要来说，短期记忆是通过请求时传入对话历史来实现的，通常在对话内有效。长期记忆则是通过持久化存储，如向量数据库实现的，可以跨对话。

如果文章对你有帮助，可以给我三连击：点赞、喜欢，并转发给身边需要的朋友。

希望本文分享的技巧对你有帮助，我们下次再见。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

2026-02-04

混元研究博客上线姚顺雨团队最新成果：从 Context 探索语言模型的范式转变

2026-02-04

谁动了我的电脑？谁应该抱怨？

2026-02-03

从 CLI 到桌面：Codex 把 coding agent 变成“任务指挥台”

2026-02-03

谷歌重大更新：国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略

2026-02-03

OpenAI 发布新的 Codex 桌面版，我现在不骂 Codex 难用了

2026-02-03

OpenClaw 技术解析：Agent Skills 机制与应用

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

GPT-5.1 有哪些提升？来自 OpenAI 官方 AMA 的能力、推理模式、安全策略全解读

2025-11-15

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部