我要投稿

原来ChatGPT的记忆是这么做的

发布日期：2025-12-16 12:46:59 浏览次数： 2034

作者：北漂程序员日记

微信搜一搜，关注“北漂程序员日记”

大家好，许久未见，心中充满了思念。在这个不断变化的牛马世界中，每一天都有新的故事上演，繁忙而又充满激情。感谢大家的理解和支持。

最近看到一篇关于ChatGPT记忆系统逆向工程的技术分析，笔者觉得其中的架构设计思路对做对话系统和知识库问答的同学很有参考价值，今天就来深入聊聊这个话题。

码字不易，觉得有价值的话记得点赞、关注。

问题背景与技术动机

我们在讨论什么问题？

当你问ChatGPT"你记得关于我的什么"时，它可能会列出几十条关于你的信息——从名字、职业目标到健身习惯。这引发了一个技术问题：它是如何存储和检索这些信息的？

很多人的第一反应是：肯定用了向量数据库，肯定做了RAG。

但实际逆向分析的结论却出乎意料：没有向量数据库，没有对历史对话的RAG检索。 整个记忆系统的架构比想象中简单得多。

这篇文章的核心发现来自对ChatGPT行为的大量实验和对话分析，OpenAI并未公开这些实现细节。

ChatGPT的上下文架构

六层结构模型

通过逆向分析，ChatGPT每次接收消息时的上下文结构大致如下：

[0] System Instructions      // 系统指令
[1] Developer Instructions   // 开发者指令
[2] Session Metadata         // 会话元数据（临时）
[3] User Memory              // 用户记忆（长期事实）
[4] Recent Conversations     // 近期对话摘要
[5] Current Session Messages // 当前会话消息
[6] Your Latest Message      // 用户最新输入

前两层定义高层行为和安全规则，技术上没有太多可讨论的。真正有意思的是从第三层开始。

第一层：Session Metadata（会话元数据）

技术定义

会话元数据在每个session开始时注入一次，不会被永久存储，session结束后即丢弃。

包含的信息类型：

• 设备类型（desktop/mobile）
• 浏览器和User Agent
• 大致地理位置/时区
• 订阅级别
• 使用模式和活跃频率
• 近期模型使用分布
• 屏幕尺寸、深色模式状态等

实际数据示例

Session Metadata:
- User subscription: ChatGPT Plus
- Device: Desktop browser
- Browser user-agent: Chrome on macOS
- Approximate location: China (may be VPN)
- Local time: ~16:00
- Account age: ~157 weeks
- Recent activity:
    - Active 1 day in the last 1
    - Active 5 days in the last 7
    - Active 18 days in the last 30
- Conversation patterns:
    - Average conversation depth: ~14.8 messages
    - Average user message length: ~4057 characters
- Device environment:
    - Dark mode enabled
    - Screen size: 900×1440

技术意义

这层信息的作用是让模型能够适配用户的使用环境，但不形成长期记忆。比如检测到移动端可能会生成更简洁的回复，检测到深色模式可能在代码展示时考虑配色。

第二层：User Memory（用户长期记忆）

存储机制

ChatGPT有一个专门的工具用于存储和删除关于用户的稳定、长期事实。这些信息会在数周、数月内累积，形成持久化的用户画像。

触发存储的条件：

1. 用户显式要求："记住这个"或"把这个存到记忆里"
2. 模型检测到符合OpenAI标准的事实（如名字、职位、偏好），且用户在对话中隐式同意

存储内容示例

- 用户名字是张三
- 之前在某科技公司和某创业公司工作过
- 偏好通过视频、论文和动手实践相结合的方式学习
- 正在研究现代信息检索系统（LDA、BM25、混合检索、稠密向量、FAISS等）
- 健身习惯：每周跑步3次

关键技术特点

这些记忆被注入到每一次后续的prompt中，作为独立的上下文块存在。这意味着：

• 存储成本是线性增长的（事实数量 × 平均token数）
• 检索成本几乎为零（直接注入，无需检索）
• 更新机制是显式的（用户主动触发）

第三层：Recent Conversations Summary（近期对话摘要）

这是最出乎意料的发现

笔者原本预期ChatGPT会使用某种RAG机制来检索历史对话。但实际上，它用的是轻量级摘要。

ChatGPT维护一个近期对话摘要列表，格式如下：

1. <时间戳>: <对话标题>
|||| 用户消息片段 ||||
|||| 用户消息片段 ||||

关键观察

1. 只摘要用户消息，不摘要助手回复
2. 大约保留15条左右的对话摘要
3. 作为用户近期兴趣的粗粒度地图，而非详细上下文

与传统RAG的对比分析

维度	传统RAG方案	ChatGPT摘要方案
存储	向量化每条历史消息	预计算轻量摘要
检索	每次query执行相似度搜索	直接注入，无检索
延迟	较高（取决于向量库规模）	几乎为零
Token消耗	可能拉入完整消息上下文	固定的摘要长度
上下文精度	高（原始内容）	低（仅保留片段）