微信扫码
添加专属顾问
我要投稿
阿里巴巴团队提出让LLM自主管理记忆的新方法,告别机械式规则,实现更智能的信息处理。 核心内容: 1. 当前LLM记忆管理的痛点:割裂的长期/短期记忆机制导致信息处理效率低下 2. AgeMem框架的创新:通过强化学习训练记忆管理策略,统一处理长短期记忆 3. 三阶段训练方法与Step-wise GRPO技术突破,实现记忆决策的精准奖励机制
大型语言模型在处理长对话或多步复杂任务时,最头疼的就是记忆管理问题。现有的方法往往采用人工设定的规则来决定哪些信息该存、哪些该删,效果有限且不够灵活。
阿里巴巴团队最近在论文《Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents》中提出了一种新思路:把记忆管理变成可学习的强化学习策略。
想象一下,如果人类的大脑有两个独立的记忆部门:一个管长期记忆,一个管短期记忆,但两个部门从不沟通,各自按照固定规则工作。这就是当前LLM记忆管理的现状。
长期记忆方面,传统方法主要分为两类:
- 触发式方案:像LangMem、Mem0这样的系统,在预设时间点执行固定的存储操作,就像定时闹钟一样机械
- 代理式方案:如A-Mem等,使用额外的专家模型来管理记忆,增加了系统复杂度和推理成本
短期记忆方面,主要依靠:
- RAG检索增强:定期从外部知识库检索信息补充到上下文中
- 周期性总结:按固定规则压缩对话历史,容易丢失关键细节
这种割裂导致信息丢失、重复存储、无法智能决定记忆优先级等问题。现有的方法就像是"用字母顺序归档所有文件的机器人",机械而低效。
AgeMem的解决方案
AgeMem框架将长期记忆(LTM)和短期记忆(STM)管理统一起来,让AI代理学会自主决定:
核心创新在于,这些决策不是硬编码的规则,而是通过三阶段强化学习训练出来的策略。
工具化记忆操作
AgeMem通过6个工具实现记忆管理:
长期记忆工具:
- Add:存储新知识
- Update:修改已存在的记忆
- Delete:删除过时信息
短期记忆工具:
- Retrieve:从长期记忆中检索相关信息
- Summary:压缩对话历史
- Filter:过滤无关内容
第一阶段(LTM构建),模型学习识别哪些信息值得长期存储,就像学生学会记笔记。
第二阶段(STM控制),模型在嘈杂环境中学习过滤无关信息,相当于在喧闹房间里训练专注力。
第三阶段(整合推理),模型需要综合运用长期和短期记忆来解决实际任务,如同学生用笔记和现场思考应对考试。
论文采用了Step-wise Group Relative Policy Optimization (GRPO)训练技术。简单来说,当AI成功完成一个任务时,系统会回溯奖励所有在此过程中做出正确记忆决策的步骤。这个方法解决了记忆管理中的一个关键难题:如何让AI知道早期的记忆决策是否正确。
传统强化学习只在任务结束时给出奖励,但记忆操作的价值往往要到很久之后才能体现。比如AI在第1步存储了某个信息,但要到第50步才用上这个信息解决问题。
Step-wise GRPO的创新在于"奖励回溯机制":
1. 组内比较:对于同一个任务,AI会生成多个不同的解决路径(比如8个)
2. 相对评分:系统不看绝对分数,而是比较这8个路径的相对好坏
3. 优势广播:表现最好的路径会被标记为"正样本",它的每一步决策都会获得正向奖励
4. 全程学习:从第1步的记忆存储到第50步的信息检索,整条链路上的所有记忆操作都会得到相应的奖励信号
这就像老师批改作文时,不仅看最终成绩,还会回头表扬学生在构思、收集素材、组织结构等每个环节做得好的地方。通过这种方式,AI学会了在正确的时机做正确的记忆操作,而不是盲目地存储或删除信息。
实验结果显示,AgeMem在多种LLM基础架构上都能显著提升任务性能、记忆质量和上下文使用效率。例如,在ToolBench基准测试中,采用该方法的DeepMiner-32B模型能够处理100多个工具调用,准确率达到33.5%。
实验结果显示,AgeMem在多种LLM基础架构上都能显著提升任务性能、记忆质量和上下文使用效率。
在五个基准测试中,AgeMem相比无记忆基线平均提升49.59%(Qwen2.5-7B)和23.52%(Qwen3-4B)。相比最佳基线方法,AgeMem平均提升4.82到8.57个百分点。
记忆质量显著提升
AgeMem不仅提升了任务表现,还大幅改善了存储记忆的质量。在HotpotQA数据集上,AgeMem的记忆质量得分达到0.533和0.605,远超其他方法。
智能的工具使用
训练后的模型学会了更智能的工具使用策略:
- Add操作从0.92次增加到1.64次
- Update操作从几乎为0增加到0.13次
- Filter操作从0.02次增加到0.31次
这表明模型学会了主动维护记忆质量和上下文清洁。
论文还提供了三个典型案例,展示AgeMem如何在实际场景中工作:
案例1:长期记忆构建与维护
用户修改学习偏好时,AgeMem能智能更新已存储的信息,避免冗余和冲突。
案例2:干扰环境下的短期记忆管理
面对无关信息干扰时,AgeMem主动过滤噪音,保持任务聚焦。
案例3:整合任务执行
AgeMem协调长短期记忆,检索相关知识并生成个性化回应。
小结
随着AI系统越来越多地参与复杂的多步骤任务,智能的记忆管理将成为关键能力。AI记忆已经被称为2026年最受期待的技术突破领域,怎么样管理好长短期记忆,怎么样它在长程任务中恰到好处发挥作用,阿里开年发布的这方面的新成果体现了在这方面的探索:
1. 从规则驱动到学习驱动:记忆操作不再依赖人工规则,而是通过RL学习最优策略
2. 从分离到统一:长短期记忆不再各自为政,而是协调工作
3. 从被动到主动:AI不再被动接受所有信息,而是主动筛选和管理
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-11
订阅 Google One,一个人交钱六个人用 Gemini Pro
2026-01-11
你的Excel已觉醒!AI-by-Hand-Excel如何将普通表格变成超级智能助手?
2026-01-10
别开发智能体,开发Skills!介绍 Skill0.IO
2026-01-10
独家实录|唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上,大家聊了啥?
2026-01-10
5亿美元融资之后,杨植麟首次深度分享Kimi的技术重点(含演讲全文)
2026-01-10
Claude Code 配置 Figma MCP 实战指南
2026-01-10
67%效率提升背后:Anthropic团队的CLAUDE.md配置秘籍
2026-01-10
Anthropic突然封禁第三方工具调用Claude,Cursor、OpenCode、xAI 集体“中枪”!项目做到一半突遭中断,官方解释是“误伤”?
2025-10-26
2025-11-19
2025-10-20
2025-11-13
2025-10-18
2025-10-21
2025-10-15
2025-11-03
2025-10-23
2025-10-22
2026-01-11
2026-01-10
2026-01-10
2026-01-08
2026-01-02
2025-12-31
2025-12-31
2025-12-31