免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Google 的理论框架 Titans + MIRAS:让 AI 获得「真正的长期记忆」

发布日期:2025-12-30 21:14:06 浏览次数: 1519
作者:Renee 创业随笔

微信搜一搜,关注“Renee 创业随笔”

推荐语

谷歌突破性研究:让AI拥有动态更新的长期记忆,解决Transformer处理长上下文的核心瓶颈。

核心内容:
1. Titans架构实现边读边学的长程记忆系统,通过"惊讶度指标"筛选重要信息
2. MIRAS理论框架统一所有序列模型,提出四大核心设计要素
3. 基于MIRAS构建的三个新型非注意力模型及其独特优势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

谷歌研究院提出了 Titans 架构 与 MIRAS 理论框架,为大模型带来一种全新的长期记忆能力:模型在运行过程中即可动态更新自己的核心记忆,而无需离线再训练。这一能力直指当前 Transformer 的核心瓶颈——超长上下文的计算成本。

Transformer 依赖注意力机制回看全部历史输入,但计算量会随序列长度平方级增长,因此难以处理动辄百万 Token 的上下文。研究界曾探索线性 RNN、Mamba-2 等 SSM 方向,以固定大小的状态来压缩上下文,但固定容量依然难以覆盖极长语料的丰富信息。

Titans + MIRAS 的突破在于:结合 RNN 的速度 + Transformer 的表达力,用“可实时学习的深度神经记忆”替代传统固定向量记忆。

Titans:边读边学的长程记忆系统

文献链接:https://arxiv.org/pdf/2501.00663

一个有效的认知系统需要「短期记忆 × 长期记忆」。注意力机制适合短期精确记忆,而 Titans 引入了一个新的长期记忆结构——一个可被梯度即时更新的深度 MLP 记忆网络

也就是说,模型不是简单“记录”历史,而是:

  • 实时学习、理解、提炼上下文主题与关系
  • 根据重要程度决定是否写入永久记忆

其中的关键机制是 “惊讶度指标(surprise metric)” ——当新输入与模型当前记忆偏差很大时,梯度就会变大,模型认为“这很重要”,并将其写入长期记忆。

例如:

  • 低惊讶:模型已在描述动物,“cat” 并不重要 → 不写入
  • 高惊讶:严肃财报里突然出现“banana peel” → 强烈写入

此外 Titans 引入两项增强机制:

  • Momentum(动量):不仅记录突发的信息,也记录紧随其后的相关信息
  • Forgetting(遗忘门/权重衰减):防止长期记忆无限膨胀,保持可控容量

MIRAS:统一所有序列模型的理论框架


文献链接:https://arxiv.org/pdf/2504.13173


MIRAS 提供了一套统一视角:所有序列模型(Transformer / RNN / SSM)本质上都是“关联记忆系统”。

它将模型的设计归纳为四个核心要素:

  1. Memory architecture:记忆结构(向量 / 矩阵 / 深度网络)
  2. Attentional bias:模型决定“关注什么”的内部目标函数
  3. Retention gate:遗忘机制(各种正则化的重新解释)
  4. Memory algorithm:更新记忆的优化方法

MIRAS 的独特之处在于,它跳出了以往模型依赖 MSE 或点积相似度的限制,提出一个更丰富的设计空间,包括非欧几里得目标、鲁棒损失等。

基于 MIRAS,论文还构建了三个不依赖注意力的新模型:

  • YAAD:使用 Huber loss,降低对异常值的敏感性
  • MONETA:探索更严格的数学范式,提升稳定性
  • MEMORA:强制记忆表现为概率映射,保证更新平衡有序

实验:在长上下文任务中远超现有模型

研究团队将 Titans 与上述 MIRAS 模型在 C4、WikiText、HellaSwag、PIQA 等任务上与 Transformer++、Mamba-2、Gated DeltaNet 对比,结果显示:Two line charts showing that LMM and MM models maintain lower perplexity than Mamba as sequence length increases across 360M and 760M parameter scales.

  • 语言模型精度(perplexity)更低
  • 推理速度保持线性扩展
  • 在极端长上下文(数百万 Token)仍能保持稳定性能
  • 在 BABILong 基准上,Titans 甚至超过 GPT-4,且参数量远小于 GPT-4

研究还发现:记忆网络越深,性能越强,扩展性越好。Line graph showing Titans (MAC)-FT maintains improved accuracy over increasing sequence lengths compared to GPT-4, Mamba-FT, and other models.

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询