微信扫码
添加专属顾问
我要投稿
谷歌突破性研究:让AI拥有动态更新的长期记忆,解决Transformer处理长上下文的核心瓶颈。 核心内容: 1. Titans架构实现边读边学的长程记忆系统,通过"惊讶度指标"筛选重要信息 2. MIRAS理论框架统一所有序列模型,提出四大核心设计要素 3. 基于MIRAS构建的三个新型非注意力模型及其独特优势
谷歌研究院提出了 Titans 架构 与 MIRAS 理论框架,为大模型带来一种全新的长期记忆能力:模型在运行过程中即可动态更新自己的核心记忆,而无需离线再训练。这一能力直指当前 Transformer 的核心瓶颈——超长上下文的计算成本。
Transformer 依赖注意力机制回看全部历史输入,但计算量会随序列长度平方级增长,因此难以处理动辄百万 Token 的上下文。研究界曾探索线性 RNN、Mamba-2 等 SSM 方向,以固定大小的状态来压缩上下文,但固定容量依然难以覆盖极长语料的丰富信息。
Titans + MIRAS 的突破在于:结合 RNN 的速度 + Transformer 的表达力,用“可实时学习的深度神经记忆”替代传统固定向量记忆。
文献链接:https://arxiv.org/pdf/2501.00663
一个有效的认知系统需要「短期记忆 × 长期记忆」。注意力机制适合短期精确记忆,而 Titans 引入了一个新的长期记忆结构——一个可被梯度即时更新的深度 MLP 记忆网络。
也就是说,模型不是简单“记录”历史,而是:
其中的关键机制是 “惊讶度指标(surprise metric)” ——当新输入与模型当前记忆偏差很大时,梯度就会变大,模型认为“这很重要”,并将其写入长期记忆。
例如:
此外 Titans 引入两项增强机制:
文献链接:https://arxiv.org/pdf/2504.13173
MIRAS 提供了一套统一视角:所有序列模型(Transformer / RNN / SSM)本质上都是“关联记忆系统”。
它将模型的设计归纳为四个核心要素:
MIRAS 的独特之处在于,它跳出了以往模型依赖 MSE 或点积相似度的限制,提出一个更丰富的设计空间,包括非欧几里得目标、鲁棒损失等。
基于 MIRAS,论文还构建了三个不依赖注意力的新模型:
研究团队将 Titans 与上述 MIRAS 模型在 C4、WikiText、HellaSwag、PIQA 等任务上与 Transformer++、Mamba-2、Gated DeltaNet 对比,结果显示:
研究还发现:记忆网络越深,性能越强,扩展性越好。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-15
Peter Thiel花3500万美金投了一个销售领域的Claude Code,号称要终结Salesforce时代
2026-02-15
豆包大模型 2.0 实际场景评测,有强有弱,字节太坦诚了!附OpenClaw接入教程
2026-02-15
Cloudflare推出Markdown for Agents:AI抓取网页的方式彻底变了
2026-02-14
拆解 OpenClaw 记忆机制:当记忆不再是数据库,而是用户可读的文件
2026-02-14
国产模型再发力!刚刚,字节发布 Doubao 2.0 Pro,硬刚 GPT-5.2!
2026-02-14
试用 “全球最强模型” Gemini 3 Deep Think
2026-02-14
豆包 2.0 模型发布,全信息整理(全网最完整,另附 79 页 Model Card)
2026-02-14
一切皆可Agent Skills,无处不在的AI Agent会替代业务流程吗?
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2026-02-03
2026-01-09
2026-02-14
2026-02-13
2026-02-12
2026-02-12
2026-02-11
2026-02-11
2026-02-11
2026-02-11