我要投稿

比Gemini 3记得更多，谷歌新框架将上下文记忆干到了200万！

发布日期：2025-12-06 13:48:22 浏览次数： 2343

作者：PaperAgent

微信搜一搜，关注“PaperAgent”

继Gemini 3 pro, Gemini 3 Deep Think之后....

在NeurlPS2025大会上，Google推出了Titans——一种结合了RNN速度与Transformer性能的全新架构。它利用深度神经记忆进行实时学习，并能有效扩展到超过200万个token的上下文。

这背后涉及了两篇新论文：Titans和MIRAS（架构和理论蓝图）。

Titans是具体的架构（工具），而MIRAS是用于推广这些方法的理论框架（蓝图）。它们共同推进了测试时记忆的概念——这是AI模型通过在模型运行时、无需专门的离线再训练、就能融入更强大的"惊喜"指标（指意外的信息片段）来保持长期记忆的能力。

正如Titans所展示的，MIRAS框架引入了向实时适应性的重要转变。这种架构不是将信息压缩成静态状态，而是随着数据流入主动学习和更新自身的参数。这一关键机制使得模型能够即时将新的、具体的细节融入其核心知识。

Titans：实时学习新上下文

一个有效的学习系统需要不同但又相互连接的内存模块，这反映了人脑短期记忆和长期记忆的分离。

虽然注意力机制擅长精确的短期记忆，但Titans引入了一个新颖的神经长期记忆模块。与传统的RNN中使用固定大小的向量或矩阵内存不同，该模块是一个深度神经网络（具体来说，是一个2层多层感知器）。这种内存模块提供了显著更高的表达能力，使得模型能够在不丢失重要上下文的情况下总结大量信息。模型不仅仅是做笔记；它是在理解和综合整个故事。

至关重要的是，Titans并非被动存储数据。它主动学习如何识别和保留跨越整个输入的token之间重要的关系和概念主题。这种能力的一个关键方面是我们称之为"惊喜指标"的东西。在人类心理学中，我们知道我们会迅速而轻易地忘记常规的、预期的事件，但会记住打破模式的事情——意外的、令人惊讶的或高度情绪化的事件。

在Titans的语境中，"惊喜指标"是模型检测到其当前记忆内容与新输入信息之间存在较大差异。

低惊喜：如果新词是"cat"（猫），而模型的记忆状态已经预期是一个动物相关的词，那么梯度（惊喜）很低。模型可以安全地跳过在永久长期状态中记忆"cat"这个词。
高惊喜：如果模型的记忆状态正在总结一份严肃的财务报告，而新输入是一张香蕉皮的照片（意外事件），那么梯度（惊喜）将会非常高。这标志着新输入是重要的或异常的，必须优先存入长期记忆模块。

模型使用这种内部的误差信号（梯度）作为数学上的等价物，表示"这是意外的且重要的！"这使得Titans架构能够选择性地仅用最新颖、最能打破上下文的信息来更新其长期记忆，从而保持整个过程快速高效。

Titans通过融入两个关键元素改进了这一机制：

动量：模型同时考虑"瞬时惊喜"（当前输入）和"过去惊喜"（近期上下文流）。这确保了即使后续的token单独来看并不令人惊讶，相关的后续信息也能被捕捉到。
遗忘（权重衰减）：为了在处理极长序列时管理内存的有限容量，Titans采用了一种自适应权重衰减机制。这就像一个遗忘门，允许模型丢弃不再需要的信息。

MIRAS：序列建模的统一视角

从现代Transformer到新的、闪电般快速的线性RNN，序列建模领域的每一个重大突破——本质上都是同一件事：一个高度复杂的联想记忆模块。

因此，MIRAS独特且实用之处在于它看待AI建模的方式。它不把不同的架构看作孤立的事物，而是将它们视为解决同一问题的不同方法：如何高效地将新信息与旧记忆结合起来，同时不让基本概念被遗忘。

MIRAS通过四个关键设计选择来定义一个序列模型：

内存架构：存储信息的结构（例如，向量、矩阵，或像Titans中那样的深度多层感知器）。
注意力偏置：模型优化的内部学习目标，决定了它优先考虑什么。
保留门：内存正则化器。MIRAS将"遗忘机制"重新解释为特定形式的正则化，以平衡新学习与保留过去知识。
内存算法：用于更新内存的优化算法。

超越均方误差范式

几乎所有成功的现有序列模型都依赖于均方误差（MSE）或点积相似性来处理其偏置和保留。这种依赖可能使模型对异常值敏感，并限制其表达能力。

MIRAS通过提供一个生成性框架超越了这一限制，该框架探索了基于优化和统计学文献的更丰富的设计空间。这允许创建具有非欧几里得目标和正则化的新颖架构。

利用MIRAS，我们创建了三种特定的无注意力模型：

YAAD：我们设计这个MIRAS变体是为了对重大错误或"异常值"（如大型文档中的单个拼写错误）不那么敏感。它对错误使用更温和的数学惩罚（Huber损失），因此不会对一次性问题反应过度。这使得模型在输入数据混乱或不一致时更加稳健。
MONETA：该模型探索使用更复杂和严格的数学惩罚（称为广义范数）。它研究是否在对模型关注什么以及忘记什么方面使用这些更有约束力的规则，可以总体上带来更强大、更稳定的长期记忆系统。
MEMORA：该模型专注于通过强制其内存行为像一个严格的概率图来实现最佳可能的内存稳定性。通过使用这种约束，它确保每次更新内存状态时，更改都是受控和平衡的。这为整合新信息提供了一个清晰、稳定的过程。

实验与结果

我们严格比较了Titans以及MIRAS变体（YAAD、MONETA、MEMORA）与包括Transformer++、Mamba-2和Gated DeltaNet在内的领先架构。我们通过在基因组建模（DNA）和时间序列预测上测试Titans进一步验证了其通用性，证明该架构能有效推广到文本以外的领域。

在标准语言建模数据集（C4、WikiTest）和零样本推理任务（HellaSwag、PIQA）上，我们的模型始终表现出更高的准确性和更低的困惑度（困惑度衡量的是LLM在看到一段文本时的惊讶程度）。

深度记忆的力量

消融研究清楚地表明，内存架构的深度至关重要。在比较大小相同但深度不同的长期记忆模块时，具有更深层记忆的模块在语言建模中始终获得更低的困惑度。此外，它们展现出更好的扩展特性，在序列长度显著增加时保持性能。

（展示360M参数和760M参数规模下，内存深度对困惑度影响的图表示意图）

语言建模与效率

在语言建模和常识推理任务中，Titans架构的性能优于最先进的线性循环模型（如Mamba-2和Gated DeltaNet）以及规模相当的Transformer++基线模型。新颖的MIRAS变体（MONETA、YAAD、MEMORA）也比这些基线模型实现了更好的性能，验证了探索稳健、非MSE优化机制的好处。重要的是，这些模型保持了高效的、可并行化的训练和快速的线性推理速度。

极端长上下文记忆

这些新架构最显著的优势是它们处理极端长上下文的能力。这在BABILong基准测试中尤为突出，该任务需要在极长文档中分布的事实之间进行推理。在这个具有挑战性的场景中，Titans的表现超过了所有基线模型，包括像GPT-4这样的超大型模型，尽管Titans的参数要少得多。Titans进一步证明了其能有效扩展到超过200万个token的上下文窗口大小。

与Gemini-1.5、Claude-2、OpenAI o1、Mamba-FT、TFT等模型对比，随着序列长度增加（从1到10^6），Titans (MAC)-FT表现优异。

模型卡 https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
https://research.google/blog/titans-miras-helping-ai-have-long-term-memory
Titans https://arxiv.org/abs/2501.00663
Miras  https://arxiv.org/abs/2504.13173