Memento-Skills解读：AI自学习“工作手册”，实现性能提升116.2%

发布日期：2026-04-06 21:15:13 浏览次数： 1977

作者：旺知识

微信搜一搜，关注“旺知识”

旺晓通：深入浅出，轻松通晓

说实话，我看这篇论文开头的对话时，差点笑出声——这不就是国内无数AI落地团队的日常吗？

周一早上的办公室，大屏上的智能体准确率稳定在73%，像个永远考C+的学生。博士小哥周末砸了400美元GPU算力搞微调，精度从73.2%涨到73.4%，资深工程师冷冷补了一句：“这在误差区间里，你花了400美元啥也没学到。”

太真实了。我们一直陷入一个根深蒂固的误区：AI要变强，就得堆参数、搞微调、砸算力，像给大脑做“开颅手术”一样改模型的神经元参数。但这篇来自Memento团队的论文，直接推翻了这个逻辑：他们做了一套叫Memento-Skills的系统，让智能体（Agent）自己设计智能体，全程不动大语言模型（LLM）的任何参数，只靠一本会自己写、自己改的“错题本+技能手册”，就在人类终极考试（HLE）基准上实现了116.2%的相对性能提升，通用AI助手基准（GAIA）上也涨了26.2%。

我们解读最新技术，文末有相关信息。

作者：张长旺，图源：旺知识

你有没有发现一个很矛盾的点？我们天天教AI要像人一样学习，但给AI设计的成长路径，却完全反人类。人从来不会为了学会修水管，就给自己做开颅手术改神经元，我们只会把步骤记下来，踩过的“没关总闸”的坑标出来，下次照着做就行。但过去的AI，要进步就得改参数，这不就是本末倒置吗？

本质痛点：我们一直在给AI做“开颅手术”式的学习

先讲清楚一个行业里人人都懂，但很少对外说的真相：99%的商用AI智能体，部署之后都是“冻结”的。

什么叫冻结？就是大模型的参数在预训练、微调完成后，就彻底固定了，像一个刚毕业的大学生，脑子很好使，但没有任何落地经验。它遇到问题，只能靠预训练里的知识和上下文窗口里的内容解决，踩过的坑、成功的经验，根本留不下来——它是“无状态”的，这次犯的错，下次还会一模一样再犯一遍。

你想让它进步？传统路径只有一条：重新微调。但这条路的坑多到离谱：你需要成千上万条标注数据，数据少了直接过拟合，就像学生只背200道错题，考试换个题型就不会了；还要花巨额的算力成本，往往几万块砸下去，精度涨了不到1个百分点，就像论文里的小哥，400美元换了0.2%的提升；更麻烦的是，每次微调都要重新部署，稳定性根本没法保障。

这就是当下AI落地最大的死穴：我们造出了记忆力超群的大脑，却没给它一套能沉淀经验、持续成长的学习机制。它能背下整个图书馆，却不会写一本属于自己的错题本。

核心解法：给AI一本会自己写的“错题本+技能手册”

Memento-Skills的核心创新，说穿了一点都不复杂：它把“可复用的技能”当成了AI的外部记忆，用一套“读写反射学习闭环”，让AI自己给自己写、自己改这本“技能手册”，全程不动大模型的任何参数。

我给你打个最通俗的比方：这就像给一个新入职的员工，配了一本空白的活页工作手册，还有一套严格的成长规则：

1. 读：接到新任务，先翻手册，找最能把这件事干成的操作指南，而不是找和任务字面意思最像的内容。比如接到“水管漏水维修”的需求，不是找一篇写水管的散文，而是精准找到“水管漏水维修标准步骤”的实操页。论文里专门做了一套“行为对齐的技能路由”，不看语义相似度，只看“这个技能能不能把事干成”，解决了传统检索“看着很像，实则没用”的通病。
2. 干：照着手册里的步骤，用大模型完成任务，拿到明确的结果反馈——成了还是败了，败在哪一步。
3. 写：这是最核心的一步。如果干成了，就给这个技能的实用度加分；如果干砸了，就先找清楚是哪个技能出了问题，然后直接修改手册里的内容，把踩过的坑、补全的方案写进去。比如这次修水管忘了关总闸，就把“第一步必须关闭总闸”写进手册；如果一个技能改了好几次还是不好用，就直接写一个全新的技能，补进手册里。

最绝的是，它不是把所有聊天记录、操作日志一股脑存下来，而是把经验提炼成了可复用、可执行的结构化技能，每个技能都有明确的适用场景、操作步骤、避坑指南，甚至还有配套的可执行代码。而且每次修改完，都会自动做“单元测试”，确保改完的技能不会越改越糟，从根源上避免了“学了新的，忘了旧的”的灾难性遗忘问题。

整个过程，AI的“大脑”（大模型参数）完全没动，所有的成长都在这本不断迭代的手册里。就像你不用给自己做开颅手术，只需要把经验写在本子上，就能越做越好。

这不是记忆，是AI的“程序性肌肉记忆”

看到这里，你可能会问：这不就是给AI加了个向量数据库吗？有什么稀奇的？

完全不是。这也是我看完论文最惊喜的地方：它做的根本不是“记忆存储”，而是给AI构建了一套和人类一模一样的“程序性学习系统”。

认知心理学里有个核心概念：人的记忆分为陈述性记忆和程序性记忆。陈述性记忆是“北京是中国的首都”这种事实性知识，而程序性记忆是“怎么骑自行车”“怎么写一篇合格的方案”这种技能型记忆——你学会之后，不用每次都从头思考步骤，靠肌肉记忆就能完成，而且越练越熟练。

过去的检索增强系统，存的都是陈述性记忆，都是死的知识；而Memento-Skills里的技能，是活的程序性记忆，是AI的“肌肉记忆”。 论文里有个类比特别到位：刚生成的新技能，就像人刚学骑自行车，很脆弱，只能应对特定场景，稍微有点变化就会摔；但经过一次次的反馈、修改、迭代，它会慢慢变成一个稳健、通用的技能，就像你学会骑车之后，不管是平路还是上坡，都能轻松应对。

这也完美契合了《刻意练习》里的核心逻辑：真正的成长，从来不是重复劳动，而是“及时反馈+针对性改进+持续沉淀”。这套读写闭环，就是AI的刻意练习系统，每一次任务都是一次练习，每一次反馈都是一次改进，最终沉淀成越来越强的能力。

实验结果：靠错题本，学渣直接逆袭成中等生

论文里的实验数据，用一句话就能讲清楚：一个靠死记硬背考30分的学渣，靠整理错题本、写技能手册，直接逆袭成了考65分的中等生，性能直接翻倍。

在人类终极考试（HLE）这个基准上，全是数学、物理、生物、人文等8个学科的专业学术题，AI初始正确率只有30.8%，经过3轮学习，训练集正确率直接涨到54.5%，最终测试集的相对提升达到了116.2%。

更有意思的是，它的技能库从最开始的5个基础技能，直接涨到了235个，还自动聚类成了搜索、物理、数学、代码等不同的模块，就像你工作久了，你的手册会自动分成不同的专业领域，越来越系统。

而在通用AI助手基准（GAIA）上，都是需要多步推理、工具调用、网页搜索的真实世界问题，它也实现了26.2%的相对提升。这里有个很关键的细节：GAIA的问题太杂，每个问题的场景都不一样，技能复用率很低，所以提升不如HLE明显。

这也恰恰验证了这套系统的核心逻辑：当任务有固定的领域和规律时，技能沉淀的价值才会最大化，就像你在一个行业深耕，你的工作手册才会越来越有用，跨行业瞎折腾，手册根本用不上。

冷静下来：它不是万能的，也有自己的边界

当然，我不想把这项技术吹成“颠覆性革命”，它也有自己明确的边界。

首先，它解决的是“可复用任务的持续优化”，但面对完全没有先例的、颠覆性的创新任务，它的作用会大打折扣。就像你的工作手册里没有相关的内容，你还是得从头开始思考，没法靠旧技能解决全新的问题。

其次，技能库的增长有收敛性。论文里也提到，随着技能越来越多，覆盖了大部分场景之后，再加新技能的收益会越来越小，就像你工作10年，该踩的坑都踩过了，再遇到新坑的概率就很低了，成长速度自然会变慢。

最后，也是最关键的安全问题：AI自己写的技能，会不会有隐藏的风险？论文里虽然加了单元测试的闸门，但在真实的生产环境里，一旦技能出现逻辑漏洞，可能会引发连锁的问题，就像你自己写的手册里有个错误的步骤，下次照着做还是会踩坑，甚至造成更大的损失。

结尾：AI的未来，不在参数里，而在“学会学习”里

看完这篇论文，我最大的启发，根本不是技术本身，而是它对“智能”的重新定义。

我们一直陷入一个参数崇拜的怪圈：总觉得AI要变强，就要把模型做的更大，参数更多，算力更强，就像我们总觉得，人要变厉害，就要把大脑塞更多的知识，记更多的内容。但人类文明的进步，从来不是靠每个人的大脑进化，而是靠我们把知识和经验写进书里，写进手册里，一代代传承、迭代，不用每个人都从头发明轮子。

Memento-Skills最珍贵的地方，就是它给AI装上了这样一套“文明传承”的系统。它不用改自己的大脑，只需要不断迭代自己的“技能手册”，就能持续成长；它不用重复踩别人踩过的坑，只需要复用已经沉淀好的经验；它的成长，不是靠神经元的改写，而是靠方法的沉淀、迭代和传承。

未来的AI，可能从来都不是一个无所不能的超级大脑，而是一个会学习、会沉淀、会自己写手册的“终身学习者”。就像我们身边那些越老越值钱的资深专家，不是因为他们的脑子比年轻人更好使，而是因为他们有一本沉淀了几十年的、不断迭代的“人生手册”。

说到底，真正的智能，从来不是记住所有东西，而是学会“如何学习”。 人是这样，AI也是。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业