微信扫码
添加专属顾问
我要投稿
用HTML代码直接生成视频?HyperFrames让AI agent轻松实现视频创作自动化!核心内容: 1. HyperFrames技术原理:基于HTML+headless Chrome的创新视频生成方案 2. AI agent集成:通过skills系统让Claude等AI掌握视频制作能力 3. 完整工作流:从文字到带字幕、配音的成品视频全自动生成
这个 skills 我愿称之为老章狂喜Skills
我的视频号,都是文字转视频,用的基于Remotion自己手写的skills,目前我还是比较满意的
今天再聊一个更神奇的 Skills——HyperFrames,让 AI agent 用 HTML 代码直接写出视频
一句话定位是:Write HTML. Render video. Built for agents.
还是先看效果吧,我把前几天发的那篇 Claude Opus 蒸馏 Qwen3.6-27B,GGUF 来了,消费级显卡轻松本地部署! 喂给了 HyperFrames,让它压成一段可视化解读视频
结果如下:
然后我花了一些时间,把它融入到语音克隆、读稿、字幕处理、视频生产、BGM压制大工作流中
生成了我的声音播报、带精准字幕和BGM的视频
HyperFrames 是一个开源的视频渲染框架,把视频组合(composition)写成一个 HTML 文件,浏览器里实时预览,命令行渲染成 MP4
最有意思的是 Skills 这条线
装上 HyperFrames 的 skills,Claude Code、Cursor、Gemini CLI、Codex 这些 agent 就学会怎么写合规的 composition 和 GSAP 动画
在 Claude Code 里,这套 skills 直接注册成斜杠命令:/hyperframes 写 composition,/hyperframes-cli 跑 CLI,/gsap 解决动画问题
技术栈是 headless Chrome + FFmpeg 的稳定组合,HTML 文件直接当源文件用,没有构建步骤
核心特点:
data-* 属性的 HTML 文件,没有 React,没有专有 DSL,agent 本来就会写 HTMLnpx skills add heygen-com/hyperframes 把视频框架的肌肉记忆装进 agent 脑子里要求 Node.js >= 22,加 FFmpeg。
配合 AI agent(官方推荐):
npx skills add heygen-com/hyperframes
装完之后直接在 agent 里描述需求即可
手动起项目:
npx hyperframes init my-video
cd my-video
npx hyperframes preview # 浏览器实时预览,热更新
npx hyperframes render # 渲染成 MP4
hyperframes init 会自动把 skills 一并安装好,随时可以切回 agent 模式
Codex 用户有专门的 plugin 入口,稀疏安装:
codex plugin marketplace add heygen-com/hyperframes --sparse .codex-plugin --sparse skills --sparse assets
Cursor 也有对应 plugin,可以从 Cursor Marketplace 装,也可以本地 sideload
一个 composition 长这样,就是一个 HTML 片段:
<div id="stage" data-composition-id="my-video" data-start="0" data-width="1920" data-height="1080">
<video
id="clip-1"
data-start="0"
data-duration="5"
data-track-index="0"
src="intro.mp4"
muted
playsinline
></video>
<img
id="overlay"
class="clip"
data-start="2"
data-duration="3"
data-track-index="1"
src="logo.png"
/>
<audio
id="bg-music"
data-start="0"
data-duration="9"
data-track-index="2"
data-volume="0.5"
src="music.wav"
></audio>
</div>
data-start 是开始时间,data-duration 是持续秒数,data-track-index 是轨道编号——视频、图片、音频在时间轴上的关系一目了然
这就是它能让 agent 准确生成视频的关键:HTML 大模型再熟不过了
调用 catalog 加现成组件:
npx hyperframes add flash-through-white # shader 转场
npx hyperframes add instagram-follow # Ins 关注覆盖层
npx hyperframes add data-chart # 动态数据图表
跟 agent 配合的几个典型 prompt(直接抄):
❝Using
/hyperframes, create a 10-second product intro with a fade-in title, a background video, and background music.
❝Take a look at this GitHub repo https://github.com/heygen-com/hyperframes and explain its uses and architecture to me using
/hyperframes.
❝Make a 9:16 TikTok-style hook video about [topic] using
/hyperframes, with bouncy captions synced to a TTS narration.
❝Make the title 2x bigger, swap to dark mode, and add a fade-out at the end.
最后那条改稿 prompt 才是真正的杀器——把 agent 当视频剪辑师用,自然语言改样式、加下三分之一、加片尾淡出,全程不用碰代码
视频渲染框架这块,绕不开 Remotion
HeyGen 自己也大方承认 HyperFrames 受 Remotion 启发,源码里还保留了向 Remotion 致敬的注释(Chrome 启动参数、image2pipe → FFmpeg 流式管道、帧缓冲那些模式)
两者底层都是 headless Chrome 驱动,都讲究确定性渲染
差别在一个核心决定上:作者主要写什么
Remotion 押注 React 组件,HyperFrames 押注 HTML
| HyperFrames | Remotion | |
|---|---|---|
index.html 直接跑 |
||
许可证差别更直接:HyperFrames 是 Apache 2.0 完全开源,OSI 认证那种,商用任意规模、无按渲染计费、无座位上限、无公司体量阈值
Remotion 是 source-available,代码在 GitHub 上但用的是自定义 Remotion License,超过小团队规模需要付费授权
如果是给 agent 用,HTML 这条路比 React 那条路顺得多——大模型生成 HTML 的准确率远高于生成完整 React 项目,加上 HyperFrames 没有构建步骤,agent 写完文件就能预览,反馈链路特别短
仓库是个 monorepo,按职责拆得很清晰:
hyperframes |
|
@hyperframes/core |
|
@hyperframes/engine |
|
@hyperframes/producer |
|
@hyperframes/studio |
|
@hyperframes/player |
<hyperframes-player> web component |
@hyperframes/shader-transitions |
随框架一起出的 skills 一共 5 个:
hyperframes |
|
hyperframes-cli |
|
hyperframes-registry |
hyperframes add 安装区块和组件 |
website-to-hyperframes |
|
gsap |
website-to-hyperframes 这个最骚——把网页直接变视频,这是把"内容素材搬运"的活儿都打包好了。
上周发的那篇 Claude Opus 蒸馏 Qwen3.6-27B,GGUF 来了,消费级显卡轻松本地部署! 喂给了 HyperFrames,让它压成一段可视化解读视频
全程 HTML + GSAP 写五个场景:标题 → Qwen + Opus 公式 → 关键参数卡片(12K SFT / 16 prompt 评测 / RTX 5090 / Apache 2.0)→ GGUF 量化档位列表 → 收尾
npx hyperframes init 起项目,npx hyperframes lint 校验,npx hyperframes render 渲染——总共 22 秒的 1920×1080 视频,渲染耗时 25 秒,输出 2 MB 的 MP4:
又生成了一个适合视频号的3:4
整个 composition 的核心结构就是一个 HTML 文件,每个场景一个 .scene 块加 data-start、data-duration 控制时间轴,底下一段 GSAP timeline 控动画。改文案、调时长、换配色都是改 HTML,agent 改起来跟改普通网页没区别
中间有个小坑:渲染时碰到 PingFang SC 不在 HyperFrames 的确定性字体映射表里,有 warning,但兜底会走 Inter,不影响出片。要彻底干净的话,文档里说自己加 @font-face 引入字体文件就行
HyperFrames 这套东西的精妙之处,在于它把视频生成这个传统上需要剪辑师/动画师的工种,重新定义成了写 HTML——而 agent 写 HTML 的能力本来就到位了
Skills 把框架的具体语法、动画模式、CLI 用法封装成 agent 可加载的上下文,等于给大模型现场培训了一个全栈视频开发能力
适合谁用:
局限也得说清楚:
最大的看点还是 Skills 这条线,也是本文测试等重点
把一个开源视频框架的全部知识塞进 agent,让"写视频"和"写文章"在 Claude Code 里变成同一种操作——这是让我觉得"AI 原生工具"这个词终于落到实处的一个例子
#HyperFrames #Skills #HeyGen #视频生成 #ClaudeCode
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-26
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
2026-04-22
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
2026-04-22
刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
2026-04-21
PaddleOCR 3.5 发布:Web 端直用、文档一键转 Markdown,生态交互新体验
2026-04-21
用Claude Code剪视频,自动去口癖、加字幕、调色,完全免费开源
2026-04-15
刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址
2026-04-09
豆包「打电话」升级 Seeduplex:周围再吵,只认准你的声音
2026-04-03
美团发布原生多模态 LongCat-Next:当视觉和语音成为AI的母语
2026-04-01
2026-04-22
2026-03-05
2026-02-12
2026-02-27
2026-03-11
2026-02-12
2026-03-18
2026-04-02
2026-02-02
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30