2026年4月9日 周四晚上19:30分,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Memento-Skills解读:AI自学习“工作手册”,实现性能提升116.2%

发布日期:2026-04-06 21:15:13 浏览次数: 1522
作者:旺知识

微信搜一搜,关注“旺知识”

推荐语

这篇论文揭示了AI学习的新范式:不用修改模型参数,仅靠一本自更新的"错题本",就能让AI性能提升116.2%,彻底颠覆传统微调思路。

核心内容:
1. 传统AI微调方法的三大痛点与成本陷阱
2. Memento-Skills系统如何实现参数零修改的性能突破
3. 自更新"技能手册"机制在GAIA基准上的实战表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

旺晓通:深入浅出,轻松通晓

说实话,我看这篇论文开头的对话时,差点笑出声——这不就是国内无数AI落地团队的日常吗?

周一早上的办公室,大屏上的智能体准确率稳定在73%,像个永远考C+的学生。博士小哥周末砸了400美元GPU算力搞微调,精度从73.2%涨到73.4%,资深工程师冷冷补了一句:“这在误差区间里,你花了400美元啥也没学到。”

太真实了。我们一直陷入一个根深蒂固的误区:AI要变强,就得堆参数、搞微调、砸算力,像给大脑做“开颅手术”一样改模型的神经元参数。但这篇来自Memento团队的论文,直接推翻了这个逻辑:他们做了一套叫Memento-Skills的系统,让智能体(Agent)自己设计智能体,全程不动大语言模型(LLM)的任何参数,只靠一本会自己写、自己改的“错题本+技能手册”,就在人类终极考试(HLE)基准上实现了116.2%的相对性能提升,通用AI助手基准(GAIA)上也涨了26.2%。

我们解读最新技术,文末有相关信息。

作者:张长旺,图源:旺知识

你有没有发现一个很矛盾的点?我们天天教AI要像人一样学习,但给AI设计的成长路径,却完全反人类。人从来不会为了学会修水管,就给自己做开颅手术改神经元,我们只会把步骤记下来,踩过的“没关总闸”的坑标出来,下次照着做就行。但过去的AI,要进步就得改参数,这不就是本末倒置吗?

本质痛点:我们一直在给AI做“开颅手术”式的学习

先讲清楚一个行业里人人都懂,但很少对外说的真相:99%的商用AI智能体,部署之后都是“冻结”的。

什么叫冻结?就是大模型的参数在预训练、微调完成后,就彻底固定了,像一个刚毕业的大学生,脑子很好使,但没有任何落地经验。它遇到问题,只能靠预训练里的知识和上下文窗口里的内容解决,踩过的坑、成功的经验,根本留不下来——它是“无状态”的,这次犯的错,下次还会一模一样再犯一遍。

你想让它进步?传统路径只有一条:重新微调。但这条路的坑多到离谱:你需要成千上万条标注数据,数据少了直接过拟合,就像学生只背200道错题,考试换个题型就不会了;还要花巨额的算力成本,往往几万块砸下去,精度涨了不到1个百分点,就像论文里的小哥,400美元换了0.2%的提升;更麻烦的是,每次微调都要重新部署,稳定性根本没法保障。

这就是当下AI落地最大的死穴:我们造出了记忆力超群的大脑,却没给它一套能沉淀经验、持续成长的学习机制。它能背下整个图书馆,却不会写一本属于自己的错题本。

核心解法:给AI一本会自己写的“错题本+技能手册”

Memento-Skills的核心创新,说穿了一点都不复杂:它把“可复用的技能”当成了AI的外部记忆,用一套“读写反射学习闭环”,让AI自己给自己写、自己改这本“技能手册”,全程不动大模型的任何参数。

我给你打个最通俗的比方:这就像给一个新入职的员工,配了一本空白的活页工作手册,还有一套严格的成长规则:


  1. 1. :接到新任务,先翻手册,找最能把这件事干成的操作指南,而不是找和任务字面意思最像的内容。比如接到“水管漏水维修”的需求,不是找一篇写水管的散文,而是精准找到“水管漏水维修标准步骤”的实操页。论文里专门做了一套“行为对齐的技能路由”,不看语义相似度,只看“这个技能能不能把事干成”,解决了传统检索“看着很像,实则没用”的通病。

  2. 2. :照着手册里的步骤,用大模型完成任务,拿到明确的结果反馈——成了还是败了,败在哪一步。


  3. 3. :这是最核心的一步。如果干成了,就给这个技能的实用度加分;如果干砸了,就先找清楚是哪个技能出了问题,然后直接修改手册里的内容,把踩过的坑、补全的方案写进去。比如这次修水管忘了关总闸,就把“第一步必须关闭总闸”写进手册;如果一个技能改了好几次还是不好用,就直接写一个全新的技能,补进手册里。

最绝的是,它不是把所有聊天记录、操作日志一股脑存下来,而是把经验提炼成了可复用、可执行的结构化技能,每个技能都有明确的适用场景、操作步骤、避坑指南,甚至还有配套的可执行代码。而且每次修改完,都会自动做“单元测试”,确保改完的技能不会越改越糟,从根源上避免了“学了新的,忘了旧的”的灾难性遗忘问题。

整个过程,AI的“大脑”(大模型参数)完全没动,所有的成长都在这本不断迭代的手册里。就像你不用给自己做开颅手术,只需要把经验写在本子上,就能越做越好。

这不是记忆,是AI的“程序性肌肉记忆”

看到这里,你可能会问:这不就是给AI加了个向量数据库吗?有什么稀奇的?

完全不是。这也是我看完论文最惊喜的地方:它做的根本不是“记忆存储”,而是给AI构建了一套和人类一模一样的“程序性学习系统”。

认知心理学里有个核心概念:人的记忆分为陈述性记忆和程序性记忆。陈述性记忆是“北京是中国的首都”这种事实性知识,而程序性记忆是“怎么骑自行车”“怎么写一篇合格的方案”这种技能型记忆——你学会之后,不用每次都从头思考步骤,靠肌肉记忆就能完成,而且越练越熟练。

过去的检索增强系统,存的都是陈述性记忆,都是死的知识;而Memento-Skills里的技能,是活的程序性记忆,是AI的“肌肉记忆”。 论文里有个类比特别到位:刚生成的新技能,就像人刚学骑自行车,很脆弱,只能应对特定场景,稍微有点变化就会摔;但经过一次次的反馈、修改、迭代,它会慢慢变成一个稳健、通用的技能,就像你学会骑车之后,不管是平路还是上坡,都能轻松应对。

这也完美契合了《刻意练习》里的核心逻辑:真正的成长,从来不是重复劳动,而是“及时反馈+针对性改进+持续沉淀”。这套读写闭环,就是AI的刻意练习系统,每一次任务都是一次练习,每一次反馈都是一次改进,最终沉淀成越来越强的能力。

实验结果:靠错题本,学渣直接逆袭成中等生

论文里的实验数据,用一句话就能讲清楚:一个靠死记硬背考30分的学渣,靠整理错题本、写技能手册,直接逆袭成了考65分的中等生,性能直接翻倍。

在人类终极考试(HLE)这个基准上,全是数学、物理、生物、人文等8个学科的专业学术题,AI初始正确率只有30.8%,经过3轮学习,训练集正确率直接涨到54.5%,最终测试集的相对提升达到了116.2%。

更有意思的是,它的技能库从最开始的5个基础技能,直接涨到了235个,还自动聚类成了搜索、物理、数学、代码等不同的模块,就像你工作久了,你的手册会自动分成不同的专业领域,越来越系统。

而在通用AI助手基准(GAIA)上,都是需要多步推理、工具调用、网页搜索的真实世界问题,它也实现了26.2%的相对提升。这里有个很关键的细节:GAIA的问题太杂,每个问题的场景都不一样,技能复用率很低,所以提升不如HLE明显。

这也恰恰验证了这套系统的核心逻辑:当任务有固定的领域和规律时,技能沉淀的价值才会最大化,就像你在一个行业深耕,你的工作手册才会越来越有用,跨行业瞎折腾,手册根本用不上。

冷静下来:它不是万能的,也有自己的边界

当然,我不想把这项技术吹成“颠覆性革命”,它也有自己明确的边界。

首先,它解决的是“可复用任务的持续优化”,但面对完全没有先例的、颠覆性的创新任务,它的作用会大打折扣。就像你的工作手册里没有相关的内容,你还是得从头开始思考,没法靠旧技能解决全新的问题。

其次,技能库的增长有收敛性。论文里也提到,随着技能越来越多,覆盖了大部分场景之后,再加新技能的收益会越来越小,就像你工作10年,该踩的坑都踩过了,再遇到新坑的概率就很低了,成长速度自然会变慢。

最后,也是最关键的安全问题:AI自己写的技能,会不会有隐藏的风险?论文里虽然加了单元测试的闸门,但在真实的生产环境里,一旦技能出现逻辑漏洞,可能会引发连锁的问题,就像你自己写的手册里有个错误的步骤,下次照着做还是会踩坑,甚至造成更大的损失。

结尾:AI的未来,不在参数里,而在“学会学习”里

看完这篇论文,我最大的启发,根本不是技术本身,而是它对“智能”的重新定义。

我们一直陷入一个参数崇拜的怪圈:总觉得AI要变强,就要把模型做的更大,参数更多,算力更强,就像我们总觉得,人要变厉害,就要把大脑塞更多的知识,记更多的内容。但人类文明的进步,从来不是靠每个人的大脑进化,而是靠我们把知识和经验写进书里,写进手册里,一代代传承、迭代,不用每个人都从头发明轮子。

Memento-Skills最珍贵的地方,就是它给AI装上了这样一套“文明传承”的系统。它不用改自己的大脑,只需要不断迭代自己的“技能手册”,就能持续成长;它不用重复踩别人踩过的坑,只需要复用已经沉淀好的经验;它的成长,不是靠神经元的改写,而是靠方法的沉淀、迭代和传承。

未来的AI,可能从来都不是一个无所不能的超级大脑,而是一个会学习、会沉淀、会自己写手册的“终身学习者”。就像我们身边那些越老越值钱的资深专家,不是因为他们的脑子比年轻人更好使,而是因为他们有一本沉淀了几十年的、不断迭代的“人生手册”。

说到底,真正的智能,从来不是记住所有东西,而是学会“如何学习”。 人是这样,AI也是。


参考资料

  • • Memento-Skills: Let Agents Design Agents, https://arxiv.org/pdf/2603.18743

 

图片

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询