支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


记忆张量联合上海交大、上海算创院等提出 MemOS:首个面向大模型记忆管理的操作系统框架

发布日期:2025-06-08 17:09:35 浏览次数: 1541 作者:LLM星球
推荐语

开启大模型记忆管理的新篇章,MemOS为通用人工智能铺路。

核心内容:
1. 大模型面临的记忆能力挑战
2. 现有记忆机制的局限性和实际应用问题
3. MemOS框架的创新点与实际应用潜力

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


MemOS

(Memory Operating System)

首个面向大模型记忆
管理的操作系统框架



   大语言模型(LLMs)已成为通往通用人工智能(AGI)之路的重要基础设施,然而在支持稳健记忆能力方面,仍面难以解释、更新或迁移等根本性挑战。当前主流的LLMs架构严重依赖两类“短效记忆”:一是参数记忆,将知识固化在庞大的模型权重中,不仅更新困难,也缺乏可追溯性;二是激活记忆,如KV缓存,仅在单次推理会话中有效,无法跨轮保持上下文。这种记忆机制导致模型“看得懂、答得出,却记不住、改不了、学不快”。在这种背景下,赋予LLMs以真正的记忆能力,逐渐成为研究与落地的热点方向。

让LLM具备“记忆”,
我们还需走多远?


   目前,关于LLMs记忆机制的研究已从早期的定义与探索阶段,发展到了类人记忆的涌现阶段,试图借鉴人类对记忆的组织和检索方式,并将其引入LLMs体系中。然而,现有技术构建的各类记忆多以临时性文本的形式注入LLMs,缺乏统一、结构化的管理机制。一些工作尝试通过提供API接口来支持记忆操作,但大多仍停留在对明文记忆的简单增删改查,尚未覆盖记忆的完整生命周期,包括生成、组织、使用和演化等关键环节。更为重要的是,当前的LLMs在推理过程中难以协同管理多种类型的记忆,如参数记忆、激活记忆与明文记忆。


   这一结构性缺陷在多个实际应用场景中表现得尤为明显:

  • 上下文丢失:对话中早期设定的规则或偏好(如语气、代码风格)在多轮交互后常被遗忘,行为难以保持一致;

  • 知识版本冲突:RAG 检索的新旧内容共存,缺乏优先级与演化机制,模型易陷入语义冲突;

  • 个性记忆缺失:模型无法沉淀用户偏好与互动轨迹,导致每次生成都“从零开始”;

  • 平台间无法迁移:用户在一个应用中积累的记忆无法在另一个系统复用,形成“记忆孤岛”。

MemOS:
(Memory Operating System)
首个面向LLM记忆管理的
操作系统框架


   近期,由记忆张量(上海)科技有限公司牵头,上海交通大学、上海算法创新研究院、中国人民大学、中国电信研究院的研究团队联合发布了一项研究 —— MemOS:一套面向 LLM 构建的类操作系统级别的记忆管理与调度框架。该系统首次以“操作系统”的视角将记忆设定为 LLM 的核心资源,覆盖从表示结构、生命周期治理到多类型融合的全链路记忆管理,填补了当前语言模型在“结构化、持久性、自适应记忆能力”上的关键空白。



论文标题:MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models

论文地址(Short Version):https://arxiv.org/pdf/2505.22101

代码开源地址https://github.com/MemTensor/MemOS (相关技术报告已于2025年05月28日在Arxiv发布,由于第一版工程量较大,为了保障开源社区的使用体验,我们将在7月进行全面开源,并力求打造成工业级记忆操作系统框架


当前MemOS开源框架联合研发单位包括:

MemTensor(记忆张量)、上海交通大学、上海算法创新研究院、中国人民大学、中国电信研究院、浙江大学、同济大学、中国科学技术大学等,我们热烈欢迎对于“大模型记忆”以及MemOS开源框架感兴趣的相关高校、研究单位、企业参与共建,一起为大模型的记忆操作系统的国产化迭代贡献自己力量,我们将提供对应的研发资源、激励、项目等共同促进社区的高速发展。

欢迎联系:lizy@memtensor.cn


MemOS:让大模型
记得住、调得动、用得稳的
“记忆基础设施”


   随着大语言模型向多轮对话、规划决策、个性化代理等更高阶任务场景扩展,模型的“记忆能力”正成为决定其长期智能行为与持续适应能力的关键指标。而当前主流架构在记忆层面普遍存在“弱结构、弱管理、弱融合”的系统短板,导致模型知识更新成本高、行为状态不可持续、用户偏好难以积累。

   为打破这些系统性瓶颈,MemOS 提出一种新的范式转变:将“记忆”从模型运行的隐性副产物,上升为具备生命周期、调度策略与结构统一性的“核心资源”,并围绕该资源构建统一抽象与操作系统式的治理机制。



记忆分类:
参数、激活与明文记忆













   在 MemOS 中,记忆不仅是信息的存储,更被视为模型感知、理解与行动的持续性底座。为支撑大语言模型在多任务、多场景下的长期演化,MemOS 将记忆系统性划分为三类核心类型:参数记忆(Parametric Memory)激活记忆(Activation Memory) 和 明文记忆(Plaintext Memory)。三者在表示结构、生命周期与调用方式上各具特点,构成了智能体多层次认知系统的结构性基础。

01

参数记忆:参数记忆是 LLM 在预训练或微调过程中,通过大规模语料学习并固化于模型权重中的长期知识形态。其表现形式为前馈层、注意力层中的参数矩阵,可在推理时无需外部检索即可直接参与生成,具有即时调用、高频访问、延迟低等优点。


在 MemOS 中,参数记忆不仅承载了通用语言能力和常识性知识,还支持模块化注入机制,如通过 LoRA 等轻量方法加载领域特定模块(例如法律、医疗插件),实现按需组合与参数复用。它构成了 LLM 零样本能力、通用推理与多任务迁移的“能力基座”,可被视作模型的“长期神经结构”。


02

激活记忆:激活记忆是指模型在推理过程中产生的瞬时性认知状态,包括 KV cache、隐藏层激活、注意力权重等中间张量结构。它通常用于维持上下文连续性、对话一致性与行为风格控制,在多轮交互与任务执行中扮演“工作记忆”的角色。


MemOS 将激活记忆抽象为可调度资源,支持按需唤醒、延迟卸载与结构变换。例如,某些上下文状态可以被压缩为“半结构化记忆片段”用于未来复用,也可以在任务级别转化为参数化模块,支持短期记忆的长期化演进。这一机制为模型行为一致性、风格保持与状态持续性提供了基础。


03

明文记忆:明文记忆是系统外部提供的、可显式管理的结构化知识形态,通常以文档、提示模板、图结构或用户规则等形式存在。它具备编辑性、可共享性与治理友好性,适合存储需要频繁修改、可审计或多方协同使用的信息。


在 MemOS 中,明文记忆可用于动态生成推理上下文、个性化偏好注入、多代理协作共享等场景,成为连接人类输入与模型认知的关键桥梁。系统为其配备了版本管理、调用追踪与权限控制机制,使之成为支持知识外化与智能行为治理的基础设施

MemCube:抽象记忆的
统一“执行单元”


   为实现三类记忆的统一调度与融合操作,MemOS 提出标准化的记忆封装结构 —— MemCube。它不是简单的容器,而是具备自描述性、自管理能力的“记忆原子单元”,在模型生命周期中承担着状态追踪、行为调控和资源调度的核心角色。

每一个 MemCube 由三部分构成:

  • 元数据头:包括创建时间、来源标识、语义标签、权限等级、生命周期设定等,用于支持记忆的溯源与治理;

  • 语义负载:承载实际知识内容或中间状态(如结构化知识、激活状态片段、KV 模块等);

  • 行为指标:自动记录访问频率、上下文相关性、使用反馈等信息,为记忆替换、压缩、升级等演化提供依据。













   基于 MemCube 的设计,系统可以实现从“静态加载”到“按需调度”的记忆使用模式转变,也支持记忆形态间的路径性转换,例如:

01

明文 ➜ 激活:频繁使用的任务规则可转化为激活模板,避免重复解码;

02

激活 ➜ 参数:稳定的行为模式可蒸馏为权重模块,提升调用效率;

03

参数 ➜ 明文:低频使用的老旧知识外化存储,以备审计或人工更新。














   这使得 MemOS 的记忆系统具备“生长、替换与重构”的能力,从而支持 LLM 在动态任务中持续演化。


操作系统式架构:
接口、调度与存储三层协同













   为支持多类型记忆的统一表示、任务感知调度与生命周期管理,MemOS 构建了一套类操作系统的三层体系架构。该架构分别对应记忆系统的输入解析、行为执行与系统支撑三个层面,旨在实现高效、可控、可扩展的记忆运行机制。

01

接口层(Interface Layer):该层提供标准化的 Memory API,用于统一接收和解析来自用户、模型或调度模块的操作请求,将自然语言或半结构化输入映射为结构化的记忆操作指令(如查询、插入、更新、删除、回溯等)。

其中,MemReader 模块具备语义理解能力,可自动识别记忆调用意图、提取关联参数,并组织成可执行的操作流水线,为下层调度与管理模块提供结构化支撑。



02

操作层(Operation Layer):作为系统的控制核心,该层负责记忆的动态调度、生命周期管理与结构化组织。MemScheduler 基于任务上下文、用户状态或历史行为,采用语义匹配或标签绑定等策略选择适用的记忆单元进入推理路径。MemLifecycle 建模记忆状态迁移过程,支持激活、冻结、归档等多阶段演化,并提供版本管理与回滚能力。MemOperator 则构建多层索引与语义图结构,提升大规模记忆集合的检索与组合效率。


03

基础设施层(Infrastructure Layer):该层提供记忆系统的底层支撑,包括持久化存储、安全治理与跨平台迁移。MemVault 负责高效存储结构化与非结构化记忆;MemGovernance 实现权限控制、审计追踪与敏感信息标注,确保系统合规性。MemStore 作为开放式记忆资产平台,支持记忆单元的注册、发布、订阅与共享,实现跨模型、跨智能体的记忆迁移与协同推理。


   整个执行链路以 MemCube 为最小调度单元,确保从接收指令、唤醒记忆,到响应生成的全过程均在可控、可追踪、可进化的框架中运行。


“生成器”到“智能体”:
模型能力结构性跃迁

   在传统的语言模型范式中,模型本质上是一个被动响应的生成器——它接受输入,基于静态参数和上下文进行一次性推理,然后清空状态、重置记忆。这种设计虽能支持强大的通用生成能力,但在面对复杂任务协作、个性化交互或长期知识演化时,往往力不从心。

   MemOS 的提出正在推动这一范式向前演化。通过引入结构化记忆建模、多形态融合机制与类操作系统的资源调度框架,MemOS 使大语言模型具备了三种关键能力:

01

持续感知过去(记住什么):系统性沉淀历史交互、任务状态与知识上下文;


02

策略化忘却(忘掉什么):通过生命周期控制与使用频率调度淘汰冗余信息;

03

动态重组经验(如何迁移与复用):支持在新任务、新平台中快速激活、融合已有知识。


   这一架构的引入,不仅显著提升了模型的适应性(对任务变化的快速响应)、一致性(跨轮行为稳定性)与协同性(多模型协作能力),也标志着 LLM 正从“语言处理单元”向“认知智能体”转型,具备了长期状态建模、行为塑形与自主演化的结构性基础


展望未来:从智能体到
“记忆生态系统”

   当每一个 MemOS 实例成为一个具备结构化记忆能力的智能体时,我们不难想象下一步的图景:多个智能体之间如何交换记忆?不同模型如何复用行为经验?用户能否“携带记忆”在平台间无缝迁移?

   研究团队在此基础上提出一个更具前瞻性的目标:构建一个去中心化的记忆生态系统(Memory Ecosystem),其核心支点是一个通用的 Memory Interchange Protocol(MIP),即记忆互操作协议。

这个生态系统将支持以下关键能力:

  • 长期状态建模与持续学习:模型可不断吸收、更新和优化已有知识,不再依赖频繁微调;
  • 用户画像沉淀与行为一致性:实现跨轮次、跨任务的个性化记忆绑定,支持行为一致响应;
  • 跨模型、跨平台的记忆迁移与复用:支持用户在多个模型或平台间“携带记忆”,提升连续性与体验一致性;
  • 记忆资产的治理与协同演化:引入版本控制、权限管理与审计机制,支撑记忆资源在多主体、多角色下的安全共建与协作更新。

   在这一生态中,记忆将不再是“模型私有”,而是变成一种可管理、可共享、可交易的智能资产单元,推动 AI 系统从“自闭式大模型”向“互通式智能网络”进化。



总结:MemOS将定义下一代面向
大模型记忆增强的基础设施



图:从Pre-train Scaling 到Post-train Scaling,再到Test-time Scaling,下一个模型能力增强的突破点在于Memory-train Scaling的持续性学习,让模型在交互过程中基于记忆形成长期个性化的能力提升。


   随着大模型的发展逐渐进入“规模边际收益递减”的阶段,业界对参数规模和训练数据的依赖已触及成本和性能的平衡临界点。此时,从数据/参数中心转向“记忆中心”的范式转型,正成为模型能力跃迁的关键突破口。

   MemOS 作为首个将“记忆”纳入系统级调度与治理的大模型基础设施,提供了从记忆单元抽象(MemCube)、生命周期控制、跨类型融合,到跨平台迁移与合规治理的全链路支撑框架。它不仅解决了当前 LLM 记忆碎片化、状态不可持续与知识不可治理的问题,更在系统架构层面为下一代 AGI(通用人工智能)提供了“能记住、会理解、可持续进化”的运行底座。

   未来的语言模型不再是“沉默的大脑”,而将是有记忆、有个性、有行为一致性的长期智能体。而这一进化的起点,正是对“记忆”的重新定义。


MemOS
合作信息

关于MemOS开源社区建设:我们欢迎任何对大模型记忆抽取、组织、检索、管理、转移等等技术方向感兴趣的高校老师、研发机构、企业等联系我们,共同参与MemOS的开源框架建设,我们将提供力所能及的资金和项目支持,让MemOS走得更远,

联系方式:lizy@memtensor.cn


记忆张量简介

关于记忆张量(上海)科技有限公司:记忆张量(上海)科技有限公司由上海算法创新研究院孵化,中科院院士担任首席科学顾问。记忆张量科技专注于人工智能基本原理的系统性创新, 致力于走出一条符合中国国情特色的全新大模型应用路线(“PlanB”)。记忆张量科技以“低成本、低幻觉”为目标,提供高效实用的大模型服务,使人工智能带来的生产力进步红利惠及更广泛的行业和大众。记忆张量在记忆相关建模的有着持续的研发过程:2023年08月开展忆立方一期基于记忆分层基础理论研究,并于2024年2月完成第一版忆立方分层架构大模型的原型验证,通过将大模型参数分解为隐性记忆+显性记忆+外置记忆库的建模范式,提升了模型的推理效率降低了幻觉发生率,并在2024年WAIC(世界人工智能大会)上发布,引起广泛关注,并被Meta、Google等团队迅速跟进。此后,团队围绕记忆相关建模和应用,形成了系列工作,并发表了ACL、EMNLP、Patterns (Cell Press)等顶级期刊会议。同时,团队于2025年01月开展MemOS(“记忆操作系统”的立项工作),并先后完成MemOS商标注册、专利申请、Python包注册等事项,并在2025年5月28日,在线发布了MemOS(简要版)技术报告。



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询