2026年6月18日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

教你用 Codex 从 0 到 1 写一个 SKILL

发布日期:2026-06-12 17:58:12 浏览次数: 1535
作者:Neo与AI

微信搜一搜,关注“Neo与AI”

推荐语

用 Codex 从零制作一个 GIF 处理技能,将视频转 GIF 的繁琐过程自动化,一劳永逸。

核心内容:
1. 从解决具体问题入手,让 Codex 生成 FFmpeg 命令
2. 将一次性操作整理成可复用的自动化工作流
3. 如何封装成通用 skill 以处理各种视频剪辑需求

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

为了宣传 oh-my-prompt 2.0,我用 Codex 从 0 写了个 GIF skill

我今天刚发布了 oh-my-prompt 2.0。

这次版本里有两个主要更新。

云端备份,还有 Prompt Agent

Prompt Agent 这个功能比较适合用 GIF 展示,所以我录了一段屏,准备剪一下,加速一下,转成一个动图放到文章里。

以前遇到这种视频处理,我一般会用 Remotion。

Remotion 很强,做视频比例转换、自动加字幕、复杂渲染都很好用。但这次需求太简单了,我只是想把一个录屏转成 GIF,再专门起 Remotion 项目就有点重。

所以我临时起了一个念头。

能不能直接让 Codex 帮我做一个专门处理视频转 GIF 的 skill?

不是写一条 FFmpeg 命令就完事,而是做成一个可以反复用的工作流。

以后我只要告诉它,视频在哪,保留哪一段,速度调多少,输出多大,它就能先检查视频,再复述计划,等我确认后生成 GIF。

这篇就记录一下,我是怎么用 Codex 从 0 到 1 做出这个 skill 的。

如果你也经常有一些重复的小任务,比如整理文件、处理图片、转格式、生成草稿、批量改名,其实都可以照这个思路来做。

1、先别急着写 skill,先把任务跑通一遍

我一开始问 Codex 的问题很简单。

我想将视频进行剪辑,并变速,再转成 gif,可以使用什么工具?

Codex 给出的建议是 FFmpeg。

这个选择挺合理。因为视频裁剪、变速、拼接、转 GIF,这些能力 FFmpeg 都能做,而且免费,适合放在自动化流程里。

然后我继续回答它的询问。

一个命令搞定,且免费。

Codex 给了一条 FFmpeg 命令,并解释了几个关键参数。

到这里,其实已经能解决一次性问题了。

但我不想每次都重新拼命令。

而且真实的视频处理,往往不是只截取一段。

后面我是直接边看视频,并将对应的要剪辑的位置描述成语言发给codex。

8 秒之前不要,8 秒到 15 秒加速 4 倍,16 秒到 31 秒不要,32 秒到 40 秒加速 4 倍,41 秒到 53 秒不要,54 秒到 55 秒加速 2 倍,55 秒之后不要。

这句话翻译成命令,其实挺麻烦。

要拆片段,要分别变速,要拼接,要转 GIF,还要检查输出大小。

它生成了一个 4 秒多的 GIF,保留了三个片段,并分别按 4 倍速、4 倍速、2 倍速处理。

其实到这里,我本次的需求已经解决了,它帮我将视频转成了我需要的 GIF 了。

但我不制作成 SKILL 的话,下次我还需要重复跟它沟通上面的对话。

2、把一次操作,整理成可复用流程

上面的第一步很重要。

你在创建 skill 之前,最好先让 Codex 完整做一遍真实任务。不要一上来就说,帮我写一个视频转 GIF skill。

这样很容易写成空泛说明。

更好的方式是先让它解决一次真实问题,把过程里的输入、判断、异常、确认、输出都暴露出来。

跑通之后,再让它把这套流程沉淀成 skill。

任务跑通之后,我让 Codex 使用 Skill Creator,把上面的过程整理成一个 skill。

我的要求不是直接创建,而是先跟我确认。

这个习惯建议大家保留。

因为 skill 不是一段普通 prompt,它会影响 Agent 后续怎么做事。如果它里面写得太粗,后面就容易乱执行。如果写得太死,又不好用。

所以创建前最好先确认几个问题。

这个 skill 叫什么。

它在什么场景下触发。

它需要用户提供什么信息。

它什么时候应该追问。

它什么时候可以执行。

它执行前要不要确认。

它执行后怎么验证结果。

它解决的不是所有视频剪辑问题,只解决一个很具体的场景,把视频里的片段裁出来,按需要变速,拼接,然后转成 GIF。

范围一定要收住。

很多朋友第一次写 skill,容易什么都想塞进去。

比如视频转 GIF、加字幕、加封面、压缩、调色、去水印、转 MP4,全都写进去。

看起来很强,实际很容易失控。

我自己的经验是,skill 越小越容易真的用起来。

它只要把一件重复的小事做稳定,就已经很值了。

3、设计 skill 时,重点写清楚交互流程

这次 video-gif-editor 的核心,不是 FFmpeg 命令。

FFmpeg 只是底层工具。

真正重要的是交互流程。

我希望它按这个顺序工作。

1、先定位来源视频。

如果我没有指定视频,就问我视频在哪里。

2、读取视频基础信息。

包括时长、分辨率、帧率、文件大小。

3、询问我要怎么处理。

我可以用自然语言描述,比如裁掉开头 8 秒,后面整体 4 倍速,或者保留几段不同速度。

4、检查描述有没有问题。

比如时间段是否超出视频长度,片段是否重叠,速度倍率是否合理。

5、复述即将执行的计划。

包括保留哪些片段,每段速度多少,输出尺寸多少,预计 GIF 时长和大小。

6、等待我明确确认。

我没确认,就不能执行。

7、生成 GIF 并校验结果。

输出实际时长、尺寸、帧率、帧数、文件大小。

你看,这里真正要写进 skill 的,是这些规则。

是让 Agent 知道什么时候问、什么时候判断、什么时候复述、什么时候执行。

我觉得这是很多 skill 好不好用的分界线。

差一点的 skill,只写怎么做。

好一点的 skill,会写清楚怎么跟用户一起做。

尤其是视频处理这种任务,执行一次可能要等几十秒,甚至几分钟。如果没确认就直接跑,错了就是在浪费时间。

所以我在 skill 里明确要求,用户确认前不能执行。

这个规则很简单,但很有用。

4、让 Codex 创建文件,并自己验证

确认流程之后,Codex 创建了 video-gif-editor skill。

它包含几个东西。

SKILL.md,用来描述触发场景和工作流程。

scripts/render_gif.py,用来真正调用 FFmpeg 生成 GIF。

5、用新 skill 处理真实素材

这一步也建议大家照做。

不要只看 Codex 说创建完成了。

一定要让它用一个真实素材跑一下。

skill 这种东西,如果只写不跑,很容易看起来很完整,但真正调用时才发现路径不对、依赖没装、参数解析有问题。

能跑通,才算完成。

skill 做好之后,我就拿它测试处理这次 oh-my-prompt 2.0 的录屏。

源视频是 PixPin_2026-05-26_10-20-06.mp4

video-gif-editor 先读取了视频信息。

因为刚刚创建skill的过程中,它其实已经帮我把 GIF 做出来了。

所以这里我测试,给它的处理要求是随便编的

全部加速 4 倍,裁剪掉末尾 2 秒。

它解析出的计划是,保留 0 到 124.45 秒,整体加速 4 倍,预计 GIF 时长约 31.11 秒。

然后它给了我三个输出规格。


我选择了 small。

因为这个 GIF 主要是发文章和聊天记录,不需要特别高清,体积小一点更好传播。

然后 skill 再次复述即将执行的参数,并要求我明确回复确认执行。

确认之后,它开始生成 GIF。

到这里,这个 skill 就完成了它的第一次真实工作。

从需求上看,它只是帮我做了一个 GIF。

但从工作流上看,它把一个以后会反复出现的小任务固定下来了。

下次我再录一个产品演示,不需要重新想用什么工具,我只要把视频丢给 video-gif-editor,然后用自然语言描述想怎么剪就行。


这就是我觉得 Codex 做 skill 最实用的地方。

它不是只能帮你写大型项目。

它也适合把那些反复出现、步骤不复杂但容易出错的小任务,变成稳定工具。

比如你可以这样做。

先让 Codex 帮你手动完成一次真实任务。

再让它总结流程,找出固定步骤和容易出错的地方。

然后用 Skill Creator 把流程写成 skill。

接着让它创建必要脚本。

再用真实素材验证。

这就是一条很简单的 skill 创建路径。


再顺便介绍一下 oh-my-prompt 2.0。

这次更新主要是两个功能。

云端备份和 Prompt Agent。

云端备份解决的是 prompt 资产安全问题。

很多人用 oh-my-prompt 不是只存几条提示词,而是按项目、角色、平台、风格长期积累。积累到一定程度之后,这些 prompt 就不是临时文本了,而是你的素材资产。

所以 2.0 加了云端备份,换电脑、重装浏览器、同步 prompt 都会更稳。

Prompt Agent 则是这次 GIF 展示的重点。

以前 oh-my-prompt 更像是一个 prompt 管理器。

你保存一段 prompt,要用时一键插入。

但很多 prompt 其实不是一段固定文本,而是一个任务入口。

比如你要做产品海报,它应该继续问你产品是什么、卖点是什么、风格是什么、面向谁。

比如你要做角色一致性,它应该帮你补全角色设定、生成参考表、测试场景、沉淀模板。

Prompt Agent 想做的就是这件事。

把静态 prompt,变成一个可以继续追问和推进任务的小助手。

这也是为什么我需要一个 GIF。

因为这个功能光用截图不好说明,动起来更直观。

官网是 oh-my-prompt.com

GitHub 是 github.com/wk240/oh-my-prompt

如果你已经在用,可以更新到 2.0 试试。

如果你还没用过,也可以从这版开始看看。


 

我是Neo,工作了8年,独立开发5年,专注于制作各种产品与提高工作效率。
关注我,你可以获得AI相关的思考和产品构建思路。
如果觉得不错,随手点个赞、推荐、转发三连吧,如果想第一时间收到推送,也可以给我个星标~
如果你想用on my prompt,可以加进我们的用户群。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询