我要投稿

微调已死？Google 和斯坦福论文指出AI 学习新范式

发布日期：2025-10-12 05:47:26 浏览次数： 2696

作者：AI工程化

微信搜一搜，关注“AI工程化”

最近，两篇新论文正在学术圈引发热议。

Google的ReasoningBank和斯坦福的ACE（Agentic Context Engineering），看似研究不同方向，实则都在解决同一个根本问题：如何让AI系统真正学会学习。

不是训练时的学习，而是使用时的学习。不是从数据集中学习，而是从自己的经历中学习。

重复犯错的AI

想象这样一个场景：你让AI助手帮你在购物网站上找到某个商品的首次购买日期。它先点击了"最近订单"，只看到了最近的购买记录，错误地报告了最近一次的日期。下次遇到类似任务，它还是先点"最近订单"，再次失败。

这就是目前大多数AI系统的现状。Google研究团队在论文中指出，即使是最先进的大语言模型agent，也会不断重复相同的错误，因为它们缺乏从过往经验中学习的能力。每次任务都是孤立的，宝贵的经验被丢弃，错误不断重演。

Google的解法：ReasoningBank

Google提出的ReasoningBank，本质上是一个AI的经验管理系统。它包含三个核心组件：

记忆提取：系统将每个执行轨迹转化为结构化的记忆项，每项包含标题（核心策略总结）、描述（一句话概述）和内容（具体的推理步骤和见解）。

双向学习：与以往只存储成功经验不同，ReasoningBank同时从失败中学习。成功的轨迹提供验证过的策略，失败的轨迹则提供反面教训和需要避免的陷阱。

智能检索：面对新任务时，系统通过嵌入向量搜索找到最相关的记忆项，将其注入到系统提示中，指导决策。

更进一步，论文提出了MaTTS（Memory-aware Test-Time Scaling）机制。通过并行生成多个轨迹或迭代优化单个轨迹，系统获得丰富的对比信号，从而合成更高质量的记忆。

实验结果令人瞩目：在WebArena网页导航任务上，配备ReasoningBank的Gemini-2.5模型成功率从40.5%提升到48.8%，平均步数从9.7减少到8.3。在SWE-Bench代码修复任务上，平均步数减少了2.8步。

斯坦福的创新：活的提示词

斯坦福的ACE走了完全不同的路线。他们认为，与其修改模型权重，不如让输入上下文本身进化。

ACE将模型分成三个专门角色：

生成器（Generator）：执行实际任务
反思器（Reflector）：分析执行轨迹，提取成功原因或失败教训
策展人（Curator）：将见解整合成结构化的上下文更新

关键创新在于"增量更新"机制。传统方法倾向于重写整个提示词，导致"上下文崩溃"，即提示词越来越短，细节逐渐丢失。ACE则采用增量的"delta更新"，每次只添加或修改相关部分，保持知识的连续性。

在AppWorld基准测试上，ACE实现了惊人的提升：任务完成率达到76.2%（基线仅63.7%），在更困难的challenge分割上提升更是达到24.5%。更重要的是，ACE将适应延迟降低了86.9%，成本降低了80%以上。

涌现的智能

两项研究都观察到了有趣的涌现行为。ReasoningBank中的记忆项会随时间演化，从简单的执行指令（"找到导航链接"）逐步发展为复杂的组合策略（"交叉验证需求并重新评估选项"）。这种演化过程类似于人类从新手到专家的成长轨迹。

ACE生成的上下文则变成了详尽的"操作手册"，包含领域特定的见解、工具使用指南，甚至可直接使用的代码片段。研究发现，与人类偏好简洁不同，大语言模型在面对长而详细的上下文时表现更好——它们能够自主提取相关信息。

新的范式

结合 Google 的 ReasoningBank 来看，AI 学习正在发生从"无状态的计算工具"向"有记忆的智能体"的范式转变。这两篇论文都在绕开微调，在模型外围找解决方案，探索如何让AI系统真正具备持续学习和自我改进的能力。

ReasoningBank 让 Agent 记住具体教训，ACE 让上下文持续优化。一个是外部记忆，一个是内部流程。如果把两者结合，我们得到的将是一个既能积累经验（ReasoningBank），又能优化方法（ACE）的系统。

AI不仅需要变得更聪明，更要学会如何学习。"活的提示词"和“会学习的记忆”时代可能真的要来了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-10

前Mata GenAI研究员田渊栋的年终总结：关于未来AI的思考

2026-01-07

智元发布SOP：让机器人在真实世界规模化部署与智能化运行

2026-01-04

英伟达4B小模型：合成数据+测试时微调+优化集成

2026-01-04

2026年 LLM 微调全指南

2026-01-03

本地跑小模型带来5倍性能且成本极低！斯坦福从信息论视角重构智能体设计

2026-01-02

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-01

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

2025-12-30

数据蒸馏技术探索

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

从零教你微调一个专属领域大模型，看完小白也能学会炼丹!（完整版）

2025-10-21

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-14

AI基础 | Qwen3 0.6B 微调实现轻量级意图识别

2025-11-21

基于昇腾NPU的Qwen3量化因子代码生成微调实战

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

OpenAI公开新的模型训练方法：或许能解决模型撒谎问题，已在GPT-5 thiking验证

2025-12-04

大模型微调全流程实战指南：基于IPO框架的深度解析与优化

2025-11-22

从零开始：手把手教你微调Embedding模型，让检索效果提升10倍！

2025-11-20

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

2026-01-01

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean