微信扫码
添加专属顾问
我要投稿
谷歌突破性新框架Titans将AI上下文记忆扩展到200万token,实现实时学习与长期记忆的完美结合。核心内容: 1. Titans架构融合RNN速度与Transformer性能,支持超长上下文记忆 2. 创新"惊喜指标"机制,智能筛选重要信息存入长期记忆 3. MIRAS理论框架为实时自适应AI系统提供全新蓝图
继Gemini 3 pro, Gemini 3 Deep Think之后....
在NeurlPS2025大会上,Google推出了Titans——一种结合了RNN速度与Transformer性能的全新架构。它利用深度神经记忆进行实时学习,并能有效扩展到超过200万个token的上下文。
这背后涉及了两篇新论文:Titans和MIRAS(架构和理论蓝图)。
Titans是具体的架构(工具),而MIRAS是用于推广这些方法的理论框架(蓝图)。它们共同推进了测试时记忆的概念——这是AI模型通过在模型运行时、无需专门的离线再训练、就能融入更强大的"惊喜"指标(指意外的信息片段)来保持长期记忆的能力。
正如Titans所展示的,MIRAS框架引入了向实时适应性的重要转变。这种架构不是将信息压缩成静态状态,而是随着数据流入主动学习和更新自身的参数。这一关键机制使得模型能够即时将新的、具体的细节融入其核心知识。
一个有效的学习系统需要不同但又相互连接的内存模块,这反映了人脑短期记忆和长期记忆的分离。
虽然注意力机制擅长精确的短期记忆,但Titans引入了一个新颖的神经长期记忆模块。与传统的RNN中使用固定大小的向量或矩阵内存不同,该模块是一个深度神经网络(具体来说,是一个2层多层感知器)。这种内存模块提供了显著更高的表达能力,使得模型能够在不丢失重要上下文的情况下总结大量信息。模型不仅仅是做笔记;它是在理解和综合整个故事。
至关重要的是,Titans并非被动存储数据。它主动学习如何识别和保留跨越整个输入的token之间重要的关系和概念主题。这种能力的一个关键方面是我们称之为"惊喜指标"的东西。在人类心理学中,我们知道我们会迅速而轻易地忘记常规的、预期的事件,但会记住打破模式的事情——意外的、令人惊讶的或高度情绪化的事件。
在Titans的语境中,"惊喜指标"是模型检测到其当前记忆内容与新输入信息之间存在较大差异。
模型使用这种内部的误差信号(梯度)作为数学上的等价物,表示"这是意外的且重要的!"这使得Titans架构能够选择性地仅用最新颖、最能打破上下文的信息来更新其长期记忆,从而保持整个过程快速高效。
Titans通过融入两个关键元素改进了这一机制:
从现代Transformer到新的、闪电般快速的线性RNN,序列建模领域的每一个重大突破——本质上都是同一件事:一个高度复杂的联想记忆模块。
因此,MIRAS独特且实用之处在于它看待AI建模的方式。它不把不同的架构看作孤立的事物,而是将它们视为解决同一问题的不同方法:如何高效地将新信息与旧记忆结合起来,同时不让基本概念被遗忘。
MIRAS通过四个关键设计选择来定义一个序列模型:
几乎所有成功的现有序列模型都依赖于均方误差(MSE)或点积相似性来处理其偏置和保留。这种依赖可能使模型对异常值敏感,并限制其表达能力。
MIRAS通过提供一个生成性框架超越了这一限制,该框架探索了基于优化和统计学文献的更丰富的设计空间。这允许创建具有非欧几里得目标和正则化的新颖架构。
利用MIRAS,我们创建了三种特定的无注意力模型:
我们严格比较了Titans以及MIRAS变体(YAAD、MONETA、MEMORA)与包括Transformer++、Mamba-2和Gated DeltaNet在内的领先架构。我们通过在基因组建模(DNA)和时间序列预测上测试Titans进一步验证了其通用性,证明该架构能有效推广到文本以外的领域。
在标准语言建模数据集(C4、WikiTest)和零样本推理任务(HellaSwag、PIQA)上,我们的模型始终表现出更高的准确性和更低的困惑度(困惑度衡量的是LLM在看到一段文本时的惊讶程度)。
深度记忆的力量
消融研究清楚地表明,内存架构的深度至关重要。在比较大小相同但深度不同的长期记忆模块时,具有更深层记忆的模块在语言建模中始终获得更低的困惑度。此外,它们展现出更好的扩展特性,在序列长度显著增加时保持性能。
(展示360M参数和760M参数规模下,内存深度对困惑度影响的图表示意图)
语言建模与效率
在语言建模和常识推理任务中,Titans架构的性能优于最先进的线性循环模型(如Mamba-2和Gated DeltaNet)以及规模相当的Transformer++基线模型。新颖的MIRAS变体(MONETA、YAAD、MEMORA)也比这些基线模型实现了更好的性能,验证了探索稳健、非MSE优化机制的好处。重要的是,这些模型保持了高效的、可并行化的训练和快速的线性推理速度。
极端长上下文记忆
这些新架构最显著的优势是它们处理极端长上下文的能力。这在BABILong基准测试中尤为突出,该任务需要在极长文档中分布的事实之间进行推理。在这个具有挑战性的场景中,Titans的表现超过了所有基线模型,包括像GPT-4这样的超大型模型,尽管Titans的参数要少得多。Titans进一步证明了其能有效扩展到超过200万个token的上下文窗口大小。
与Gemini-1.5、Claude-2、OpenAI o1、Mamba-FT、TFT等模型对比,随着序列长度增加(从1到10^6),Titans (MAC)-FT表现优异。
模型卡 https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf
https://research.google/blog/titans-miras-helping-ai-have-long-term-memory
Titans https://arxiv.org/abs/2501.00663
Miras https://arxiv.org/abs/2504.13173推荐阅读
Agents:(编排、记忆、插件、workflow、协作)" data-itemshowtype="0" linktype="text" data-linktype="2">动手设计AI Agents:(编排、记忆、插件、workflow、协作)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-05
觉醒与跃迁:一文详解AI自主行动的技术演进与产业未来式
2025-12-05
Palantir发布新产品Chain Reaction:面向美国人工智能基础设施的操作系统
2025-12-05
OpenAI内部代码泄露!最强模型「皇帝」登基,0思考延时吓人
2025-12-04
一文看懂AI智能体系统背后的重要技术——上下文工程(Context Engineering)
2025-12-04
大模型“落地三件套”:Ollama本地部署、API 调用和LLM封装
2025-12-04
Enterprise AI的三层架构
2025-12-04
Claude Opus 4.5 的灵魂文档被人逆向提取!Anthropic 负责人承认属实
2025-12-03
一文详解容器面向大模型与AI Agent的技术变革
2025-09-19
2025-10-26
2025-10-02
2025-09-16
2025-09-08
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30