微信扫码
添加专属顾问
我要投稿
微软开源SkillOpt,让AI Agent的Skill文件实现自动优化,大幅提升任务执行效果。核心内容: 1. SkillOpt的核心原理:双模型协作,一个执行任务,一个复盘优化 2. 优化过程:小步迭代、测试验证、失败记录,避免无效改动 3. 实际效果:在多种任务和模型上显著提升得分,无需改动模型本身
做 AI Agent 的朋友,在遇到 Agent 跑偏的时候,是不是像下面这样:
给 Skill 文件里加一句「别这么做」。但格式错了,又补一句「输出长什么样」。
不断地频繁改动,Skill 文件内容越来越多。但 Agent 并没有变得听话,反而变得更差。
Agent 的表现不靠谱,大家有没有想过,可能并不是模型不够聪明,而是 Skill 写得不够好。
最近微软开源的 SkillOpt,给了我们解决这个痛点一条新的思路。
它的核心是,把我们写的 Skill,本身变成一个能反复训练、自动优化的东西。
为此,它请了两个模型搭班子。一个专心干活,另一个在旁边盯着,琢磨 Skill 该怎么改。
干活那个模型会先按照当前 Skill 做一批任务,哪些做成了、哪些搞砸了,全程记下来。
接着,负责优化的模型来复盘。成功的吸取经验,而失败的则去找规律,看看是不是老在同一个地方出错。
当复盘完成后,就开始动手优化 Skill 文件,加删内容,或者更改其中的描述。
也会有限制,每次只准小改几处。防止步子迈大了,容易把原本好用的规矩也一起修改了。
论文里给出的测试结果是,每次的改动数量控制在 4 处左右,效果是比较好的。
改到最后,真正被留下、起决定作用的核心规矩,往往就那么一两条或者三四条。
但改归改,能不能留下来,还得通过测试。
SkillOpt 会安排一批没做过的新任务,用改动后的 Skill 去完成。
结果变好,保留这次改动,如果没变好,则会立刻退回到上一个版本。
当然被反驳回去的改动也是没白费的。系统会把它存进一个「失败记录」的档案里。
在往后的优化里,它就知道哪些方法已经试过、走不通,不会反复地在原地打转。
而且每跑完一整轮,框架还会做一次大复盘,把整份 Skill 重新捋一遍,免得越跑越偏。
那优化后的 Skill 实际效果怎么样,论文里给了一份详细的测试得分。
从表格来看,覆盖了日常大部分的场景,从查资料答题、做表格,到读文档、解数学题等。
在这 6 类任务,7 个不同模型上,通过 52 次测试,全部拿到第一或并列第一。
换上优化后的 Skill,GPT-5.5 平均涨了 23.5 分,其中表格类任务的提升接近 39 分。
这里我们有必要知道,这些得分的提升,是在没动模型本身的前提下拿到的。
从得分来看,通过 SkillOpt 优化过后的 Skill 的确是有了很大的提升。
至于如何上手使用这个工具,目前没有提供开箱即用安装包,具体执行下面几条命令:
git clone https://github.com/microsoft/SkillOpt.gitcd SkillOptpip install -e .
并且需要配置模型 API,支持 OpenAI、Anthropic、Qwen 等主流模型。
安装配置完成后,我们需准备两份带有答案的测试题目,一份用于训练,一份用于验证。
然后执行一条命令启动,我们就只需喝杯咖啡,坐等一份优化后的 Skill 文件输出。
另外工具也提供 WebUI,可以直观看到训练的过程,安装和启动的命令如下:
pip install -e ".[webui]"python -m skillopt_webui.app
想了解更多关于参数的配置,以及使用步骤,可以查看 README 文件里的教程。
过去调整优化 Skill,全凭经验让 AI 去改,就算改好了,也说不出个原因来。
而 SkillOpt 把它变成一件能验证、能回退、能自我迭代的事。每次失败,都成了让 Skill 变得更稳的经验。
类似的思路,在我们上个月分享过的 Hermes Agent 工具身上也见过。
它把每次完成重复性复杂的任务,撰写成一份 Skill,后面使用时,还会不断的迭代优化。
两个工具所走的路子虽然不同,但都是想让 Skill 不断地变得更加好用。
以后或许再也不用我们自己,一遍又一遍地去打磨优化 Skill 了。
GitHub 项目地址:https://github.com/microsoft/SkillOpt
今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-29
人才+1,有人把申请专利也做成了skill,知识产权的普及度再次增加
2026-05-29
手搓Skill串联成专属 SubAgent:打造前端代码审查→修复→提交自动化流水线
2026-05-29
让 Skill 自己训练自己:8阶段Loop与自进化机制
2026-05-29
Codex 必装十大 Skills,我挨个翻车之后,重新排了一次顺序
2026-05-29
如何评估你写的 SKILL.md 质量?一套完整的 Eval 方法论
2026-05-28
小红书支持上传 skill 了,AI 创作者赚钱的时机到了
2026-05-28
大模型的Agent Skill功能,在LLM HTTP底层交互流中是怎么承载的?
2026-05-27
Skill越详细Agent越傻!砍到40词一次选对
2026-04-05
2026-03-05
2026-03-17
2026-03-04
2026-03-03
2026-03-03
2026-03-17
2026-03-26
2026-03-10
2026-03-05