我要投稿

微软悄然开源了一款 Skill 神器

发布日期：2026-05-29 20:27:42 浏览次数： 1530

作者：GitHubDaily

微信搜一搜，关注“GitHubDaily”

做 AI Agent 的朋友，在遇到 Agent 跑偏的时候，是不是像下面这样：

给 Skill 文件里加一句「别这么做」。但格式错了，又补一句「输出长什么样」。

不断地频繁改动，Skill 文件内容越来越多。但 Agent 并没有变得听话，反而变得更差。

Agent 的表现不靠谱，大家有没有想过，可能并不是模型不够聪明，而是 Skill 写得不够好。

最近微软开源的 SkillOpt，给了我们解决这个痛点一条新的思路。

它的核心是，把我们写的 Skill，本身变成一个能反复训练、自动优化的东西。

为此，它请了两个模型搭班子。一个专心干活，另一个在旁边盯着，琢磨 Skill 该怎么改。

干活那个模型会先按照当前 Skill 做一批任务，哪些做成了、哪些搞砸了，全程记下来。

接着，负责优化的模型来复盘。成功的吸取经验，而失败的则去找规律，看看是不是老在同一个地方出错。

当复盘完成后，就开始动手优化 Skill 文件，加删内容，或者更改其中的描述。

也会有限制，每次只准小改几处。防止步子迈大了，容易把原本好用的规矩也一起修改了。

论文里给出的测试结果是，每次的改动数量控制在 4 处左右，效果是比较好的。

改到最后，真正被留下、起决定作用的核心规矩，往往就那么一两条或者三四条。

但改归改，能不能留下来，还得通过测试。

SkillOpt 会安排一批没做过的新任务，用改动后的 Skill 去完成。

结果变好，保留这次改动，如果没变好，则会立刻退回到上一个版本。

当然被反驳回去的改动也是没白费的。系统会把它存进一个「失败记录」的档案里。

在往后的优化里，它就知道哪些方法已经试过、走不通，不会反复地在原地打转。

而且每跑完一整轮，框架还会做一次大复盘，把整份 Skill 重新捋一遍，免得越跑越偏。

那优化后的 Skill 实际效果怎么样，论文里给了一份详细的测试得分。

从表格来看，覆盖了日常大部分的场景，从查资料答题、做表格，到读文档、解数学题等。

在这 6 类任务，7 个不同模型上，通过 52 次测试，全部拿到第一或并列第一。

换上优化后的 Skill，GPT-5.5 平均涨了 23.5 分，其中表格类任务的提升接近 39 分。

这里我们有必要知道，这些得分的提升，是在没动模型本身的前提下拿到的。

从得分来看，通过 SkillOpt 优化过后的 Skill 的确是有了很大的提升。

至于如何上手使用这个工具，目前没有提供开箱即用安装包，具体执行下面几条命令：

git clone https://github.com/microsoft/SkillOpt.gitcd SkillOptpip install -e .

并且需要配置模型 API，支持 OpenAI、Anthropic、Qwen 等主流模型。

安装配置完成后，我们需准备两份带有答案的测试题目，一份用于训练，一份用于验证。

然后执行一条命令启动，我们就只需喝杯咖啡，坐等一份优化后的 Skill 文件输出。

另外工具也提供 WebUI，可以直观看到训练的过程，安装和启动的命令如下：

pip install -e ".[webui]"python -m skillopt_webui.app

想了解更多关于参数的配置，以及使用步骤，可以查看 README 文件里的教程。

写在最后

过去调整优化 Skill，全凭经验让 AI 去改，就算改好了，也说不出个原因来。

而 SkillOpt 把它变成一件能验证、能回退、能自我迭代的事。每次失败，都成了让 Skill 变得更稳的经验。

类似的思路，在我们上个月分享过的 Hermes Agent 工具身上也见过。

它把每次完成重复性复杂的任务，撰写成一份 Skill，后面使用时，还会不断的迭代优化。

两个工具所走的路子虽然不同，但都是想让 Skill 不断地变得更加好用。

以后或许再也不用我们自己，一遍又一遍地去打磨优化 Skill 了。

GitHub 项目地址：https://github.com/microsoft/SkillOpt

今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-29

人才+1，有人把申请专利也做成了skill，知识产权的普及度再次增加

2026-05-29

手搓Skill串联成专属 SubAgent：打造前端代码审查→修复→提交自动化流水线

2026-05-29

让 Skill 自己训练自己：8阶段Loop与自进化机制

2026-05-29

Codex 必装十大 Skills，我挨个翻车之后，重新排了一次顺序

2026-05-29

如何评估你写的 SKILL.md 质量？一套完整的 Eval 方法论

2026-05-28

小红书支持上传 skill 了，AI 创作者赚钱的时机到了

2026-05-28

大模型的Agent Skill功能，在LLM HTTP底层交互流中是怎么承载的？

2026-05-27

Skill越详细Agent越傻！砍到40词一次选对

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

开源「女娲.skill」，你现在可以去蒸馏任何人！

2026-04-05

OpenAI Codex Skills 深度技术解读

2026-03-05

视频分镜提示词Skill，详细制作过程分享！

2026-03-17

OpenCode进阶指南：MCP协议与Skill技能，让你的AI助手真正"开外挂"

2026-03-04

Agent Skills：把提示词升级成“员工手册”，让 Agent 真正可复用、可规模化

2026-03-03

Skills 真的可以帮我干活了：把工单分析变成一个可复用的 Skill

2026-03-03

当AI自己学会搭积木：Skills的崛起，会杀死Dify吗？

2026-03-17

🦞元宝派「养虾」常见问题答疑

2026-03-26

OpenClaw 搭团队太折腾？这个 Skill 一键搞定多智能体协作

2026-03-10

让你的 ClaudeCode 秒变 Openclaw（龙虾），连接飞书、Discord 远程控制

2026-03-05

大家都在问

大模型的Agent Skill功能，在LLM HTTP底层交互流中是怎么承载的？

2026-05-28

当我们在管 Skill 时，我们到底在管什么？

2026-05-19

怎么创建一个真正能干活的 Skills？

2026-05-09

Skill 是怎么悄悄变成 SOP 的?

2026-05-08

如何从0到1创建一个画原型的Skills？

2026-04-29

如何把经验装到Skills？

2026-04-29

你写的 Skill，及格了吗？

2026-04-22

万字干货！Harness Engineering如何工程化落地？

2026-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw