2026年5月7日 周四晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

AI短剧Skill开源啦!如何用GPT-Image-2+SeeDance2.0制作AI短剧

发布日期:2026-05-04 22:39:01 浏览次数: 1523
作者:Draco正在VibeCoding

微信搜一搜,关注“Draco正在VibeCoding”

推荐语

AI短剧制作神器开源!用GPT-Image-2+SeeDance2.0轻松打造爆款短视频,快来体验创作乐趣。

核心内容:
1. 开源AI短剧制作工具skill的获取与使用说明
2. 生产工具与环境准备的具体要求
3. Seedance2.0的核心能力与API调用方法

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

你大概率看过这个“臭猫”土味情话系列的视频,或者再之前的“酱板鸭”反转系列,这几天我把类似的迷你剧/短剧生产线封装成了skill,今天开源出来给大家玩耍:






skill仓库地址:

https://github.com/dracohu2025-cloud/draco-skills-collection/tree/main/feishu-seedance-video-pipeline

欢迎使用,并顺手给个Star~


虽说是个skill,但为了保证pipeline的稳定,其实内部流程还蛮复杂(完善)的:

image

前置条件/生产工具/环境准备

1.
所有图片素材/物料:GPT-Image-2

我用的是Hermes Agent采取Codex Auth登录下获得的image_generate工具,如果你也采用相同模式,那恭喜你,这个skill无需改造你就可以直接用了;但如果你无法采用这种方式,你就需要用其他方式获取GPT-Image-2,比如OpenRouter上的API,或者某些中转站的API;也可以采用Nano Banana Pro/2或者SeeDream5.0,但效果可能会有差异,你估计需要做不少Prompt的调试工作...

2.
所有视频生产:SeeDance2.0(或SeeDance2.0 Fast,当然,Fast模式稳定性会弱那么一丢丢的,但也便宜一丢丢)

我是直接采用的火山引擎SeeDance2.0的API,你也可以采用即梦CLI,或者小云雀的API,或其他拥有SeeDance2.0接口的中转站

3.
基建:Hermes+飞书(或OpenClaw、或其他gateway可以打通飞书Agent)
4.
已登录飞书CLI

由于整个产线是依托于飞书多维表格的(如下图),因此最好是打通了飞书CLI的环境;其他类似多维表格的文档工具也可以用(比如企微智能表格),但你也需要做一些额外调试

image
5.
云端存储/图床/存储桶

由于SeeDance2.0接收的图片、视频、音频等素材等都采用URL/URI形式,因此,你需要确保所有作为参考的输入给SeeDance的素材都需要是公网可访问的链接形式;

产线拆解

知其然,知其所以然。

让我们先了解一下Seedance2.0的能力,有利于后续的讲解。

Seedance2.0除了大家最熟悉的文本Prompt之外,还支持:

最多9张图片作为“reference image”
最多3段视频作为“reference video”
最多3段音频作为“reference audio”

API主体示意如下所示:

{ 
  
"model":"doubao-seedance-2-0-260128",
  
"content":[
    
{
      
"type":"text",
      
"text":"完整 Prompt。可写:[图1]是角色,[图2]是场景,第一个 reference_video 是动作节奏参考,第一个 reference_audio 是语气参考。"
    
},
 

    
{
      
"type":"image_url",
      
"image_url":{
        
"url":"https://example.com/ref1.png"
      
},
      
"role":"reference_image"
    
},
 

    
{
      
"type":"video_url",
      
"video_url":{
        
"url":"https://example.com/ref_video.mp4"
      
},
      
"role":"reference_video"
    
},
 

    
{
      
"type":"audio_url",
      
"audio_url":{
        
"url":"https://example.com/ref_audio.mp3"
      
},
      
"role":"reference_audio"
    
}
  
],
  
"ratio":"16:9",
  
"duration":12,
  
"generate_audio":true,
  
"watermark":false
}

以一个参考图为例,可以看到:输入给Seedance2.0的参考图需要是公网可访问的链接形式!音频和视频也是如此。


  "type": "image_url", 
  "image_url": { 
    "url": "https://example.com/ref1.png" 
  }, 
  "role": "reference_image" 
}

在我封装的skill/pipeline中主要采用了图片作为Reference,主要分为以下几类:

Character Reference Sheet(简称CRS):也就是输入给SeeDance2.0的人物参考图
image
image

参考Prompt template如下(这个模板对于Seedance来说很稳,建议直接采用):

生成一张专业电影角色设定表:CHARACTER REFERENCE SHEET。只画一只黑白 tuxedo 家猫 Hei-Bai 的多视图参考。白底技术设定表,无任何环境背景。
重点:底部必须清楚出现一个独立大区块,英文标题必须是 HAND / PAW GESTURES。这个区块中必须有 5 个分格,分别画猫前爪动作:relaxed paw、tense paw、pointing paw、gripping sleeve、subtle paw near face。每格必须能看见肉垫、爪形、抓握或指向动作。不要把这个区块省略,不要只画袖口。
完整版式必须包含:
- Top row left: CHARACTER REFERENCE SHEET title + horizontal info block: Name Hei-Bai, Alias Tuxedo Trickster, Role Comic Tavern Guest, Age Adult Cat, Personality sly stubborn nervous funny, Core Theme unlucky tough-talking diner, Speech Accent streetwise Hong Kong cadence.
- Top row right: COLOR PALETTE, 6-8 clean swatches.
- Center largest section: MAIN IDENTITY + SCALE SHEET. Same subject only. Show Front, 3/4 View, Side, Back over subtle measurement guide lines. Include SILHOUETTE GUIDE.
- Right column: EXPRESSION PROGRESSION with 8 panels: Neutral, Curious, Worried, Surprised, Afraid, Sad, Determined, Relieved. MICRO EXPRESSIONS with 5 panels. HEAD DETAIL SHEET with 5 angles. NEUTRAL BASELINE. POSTURE VARIATION with relaxed, tense, confident. CLOSE-UP POSE with pure white background.
- Bottom row: WARDROBE / ACCESSORIES DETAILS exactly 4 callouts; PROP exactly 1 isolated small wooden tavern stool; HAND / PAW GESTURES exactly 5 paw gesture panels.

你可以基于这个template添加其他的要求

Scene Environment Settings(简称SES):也就是故事发生在什么场景
image
image

这个部分没有特定的template,下面的Prompt仅作参考,你完全可以用语言描述你想要的任何场景:

生成一张单一连贯的电影级 Scene, Environment, and Settings reference image(场景、环境与设定参考图),用于后续视频生成锁定同一酒楼空间。
核心目标:邵氏电影写实风格的古风酒楼内景,画面中心是一张完全空的圆形木质餐桌。整个场景只保留大块稳定结构,不要任何小器皿、小罐子、杯碗盘筷、食物或柜台杂物。
画面必须这样构成:
- 16:9 横屏电影画面,中广角建立镜头。
- 最大视觉锚点:一张圆形木质餐桌,严格居中,桌面完全为空。
- 桌面上不能有任何东西:没有鸡、没有菜、没有盘子、没有碗、没有筷子、没有杯子、没有酒壶、没有托盘、没有罐子、没有食物残渣。
- 圆桌左侧一张低木凳,右侧一张低木凳,凳子清楚但不要太多。
- 右后方有空的布帘入口,作为服务员入场动线。
- 左侧地面和桌边留出干净空位,右侧凳子后方也留出干净空位。
- 背景用大块木墙、木柱、窗格、布帘、灯笼、木地板来构成,不要酒柜,不要货架,不要柜台陈列,不要瓶罐,不要茶壶,不要餐具架。

视觉风格:邵氏电影写实风格,1970年代香港古装武侠棚拍酒楼,暖琥珀灯笼光,深色木梁木柱,暗红布帘,轻微烟雾,真实电影感,胶片颗粒,市井喜剧气氛。
空间要求:圆桌居中、左右凳子清楚、后方入口动线清楚、左右动作空间清楚。画面不能太拥挤,背景干净,所有稳定道具必须大而清晰。
严格禁止:没有人物,没有猫,没有动物,没有角色剪影,没有人影,没有手脚身体局部;没有鸡,没有菜,没有盘子,没有碗,没有筷子,没有杯子,没有酒壶,没有托盘,没有瓶罐,没有小器皿,没有食物,没有柜台陈列物;没有文字,没有中文字符,没有可读招牌,没有标签,没有字幕,没有标题,没有 UI,没有 logo,没有 watermark,没有箭头,没有图表,没有分镜边框,没有多宫格;没有现代物品,没有霓虹灯,没有塑料家具。
输出:一张干净、可复用、餐桌为中心的邵氏电影古风酒楼场景环境设定参考图。
Wardrobe Reference(简称WR)

如果你是直接采用火山引擎提供的人像素材库(也就是说,人脸本身一定是稳定的),那么你无需提供人物的CRS;但是,人除了脸还有服饰也需要保持稳定,这里就需要WR作为参考了...

image

WR的template如下,仅供参考:

Create a clean Wardrobe Reference image for later AI video generation. It should show ONE consistent outfit only, designed for an adult female character in a 1970s-1980s Shaw Brothers style bedroom comedy short film: a tasteful small floral camisole top and matching short floral skirt, vintage warm colors, light fabric, same pattern and colors across every view. Layout like a fashion design reference sheet: front view, side view, back view on neutral faceless mannequin or dress form, plus close-up panels for fabric pattern, neckline/strap detail, skirt hem detail, and overall silhouette. No face, no identifiable person, no character identity, no text, no labels, no arrows, no logo, no watermark, no extra outfits, no modern fashion styling, no nudity, no lingerie look. Plain neutral studio background. High-quality realistic fashion reference sheet, consistent wardrobe across all views.

如何使用真人面容-官方形象库

火山引擎SeeDance2.0的API接口不接受真人形象,想用真人形象就得使用官方提供的虚拟人像库。

你需要先打开官方虚拟人像库的素材权限:

https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement

image

然后再去虚拟人像库,选择你喜欢的人像,点击右上角把人像的asset ID复制出来;得到asset ID之后,你需要将这个ID告知你的Agent,让它按照迷你剧skill中的格式将这个ID填入API payload中;

https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision

image

当你搞定以上内容之后,恭喜你,你可以在Seedance生成视频的过程中拥有稳定的环境场景和人物形象了。

接下来,你只要给这个pipeline/skill输入故事脚本即可。

脚本脚本🌟🌟🌟

故事脚本没有一定之规,以下只是我比较随意的版本,仅供参考:

## 人物:
女主角A-Ling:
资产ID:asset-20260320095733-gx8rw
特征:金色长直发
穿着:碎花吊带,碎花短裙
奶牛猫Hei-Bai:
特征:黑白相间的奶牛猫
衣着:无需穿人类的衣着

## 故事情节:
A-Ling正在吃面,Hei-Bai突然跳上桌子跟A-Ling说:“主人,我最近总是犯困”。
A-Ling问:“你是不是总熬夜啊?”
Hei-Bai一脸色眯眯的看着A-Ling,回答:“其实我没有,我是为你所困~”
A-Ling面色微红,娇嗔的拍了Hei-Bai一巴掌(但是心里是开心的),说“坏猫,油嘴滑舌!”
Hei-Bai接着跟A-Ling说:“主人,我想喝点东西~”
A-Ling问:“好啊,你想喝什么?”
Hei-Bai接着一脸认真的说:“呵护你!”
A-Ling一撅嘴怒道:“你这都从哪学的!臭猫!”,同时伸出大长腿把Hei-Bai给踢飞了!

## 声音:
Hei-Bai的声音酷似周星驰的国语配音
A-Ling的声音甜美可爱

## 风格和环境:
邵氏电影风格,七八十年代的普通人家的卧室;

Pipeline/Skill中的Director模块会自动判断视频时长(短:6s-8s;中:8s-12s;长:12s-15s)

这个Director模块也支持分为“多幕”的脚本输入,例如:

## 人物:
女主角A-Ling:
资产ID:asset-20260320095351-q975r
特征:黑色柔顺长发及腰,空气刘海
穿着:碎花吊带,碎花短裙
奶牛猫Hei-Bai:
特征:黑白相间的奶牛猫
衣着:无需穿人类的衣着
三花猫San-Hua:
特征:黑白黄三花猫
衣着:无需穿人类的衣着

##故事情节:
### 第一幕:
A-Ling正在化妆,Hei-Bai突然跳到A-Ling腿上说:“主人,你猜我是喜欢南京还是北京?”
A-Ling略作思考,回答说:“南京!”
Hei-Bai说:“错!我喜欢你的眼睛!” ;边说边把脸凑到A-Ling的眼前;
A-Ling微笑着说:“坏猫,油嘴滑舌!”
Hei-Bai接着说:“那你猜我喜欢机械表还是电子表?”
A-Ling回答说:“机械表!”
Hei-Bai说:“错!是你美丽的外表!”
A-Ling娇嗔的说:“你这都从哪学的!臭猫!”,同时伸出大长腿把Hei-Bai给踢飞了!

### 第二幕:
A-Ling正在看书,Hei-Bai和San-Hua分别卧在A-Ling的腿两侧;
San-Hua突然跳到A-Ling腿上说,“主人,我突然感觉头疼!”
A-Ling放下书,亲了亲San-Hua的头,然后摸了摸San-Hua的头,温柔的说:“还疼么?”
San-Hua说“不疼了。 不过,我觉得我的手又有点疼!”
A-Ling又握住San-Hua的爪子亲了亲,然后问“还疼么?”
San-Hua回答“都不疼了”,然后可爱的在A-Ling的腿上打滚,露出肚子让A-Ling挠。
Hei-Bai一直在旁边看着。这时突然说“那个......主人......我最疼”
A-Ling怒道:“臭猫!”,同时伸出大长腿把Hei-Bai给踢飞了!

## 声音:
Hei-Bai的声音酷似周星驰的国语配音石班瑜的声音
A-Ling的声音甜美可爱

## 风格和环境:
邵氏电影风格,七八十年代的普通人家的卧室;


<hr />

## 请基于以上脚本生成视频,要求:
每一幕应该是单独的一条Seedance任务;
不同的“幕”共享相同人物的CRS和SES;
最后需要用ffmpeg把不同幕的视频拼接成一条完整的视频;

注意:

在“多幕”模式下,每一幕都会单独作为一条seedance任务提交给火山引擎;
当每条都完成之后,pipeline/skill会调用ffmpeg将多条视频进行拼接;

因此,逻辑上这个pipeline不仅支持15秒以内的的迷你剧,也支持更长的、多场景、多人物的短剧;由于时间有限,我只测试了30秒及以内的情况,基本稳定。

此外,我建议你了解一下“Director模块”拆分并撰写给Seedance的Prompt结构类似下面这样:

【Dialogue Lock|对白锁定】
以下8句对白必须逐字出现,顺序、文字、标点、语气词、波浪号完全不变;不得改写、合并、移动、补台词或删台词:
1. Hei-Bai:“主人,我最近总是犯困”
2. A-Ling:“你是不是总熬夜啊?”
3. Hei-Bai:“其实我没有,我是为你所困~”
4. A-Ling:“坏猫,油嘴滑舌!”
5. Hei-Bai:“主人,我想喝点东西~”
6. A-Ling:“好啊,你想喝什么?”
7. Hei-Bai:“呵护你!”
8. A-Ling:“你这都从哪学的!臭猫!”

【整体风格与硬约束】
整体采用邵氏电影风格,七八十年代的普通人家的卧室,暖琥珀灯光、木床、旧柜子、小方桌、一碗面、轻微棚拍烟雾,真实电影质感。全片可见角色固定为2名:A-Ling女主角、Hei-Bai黑白相间奶牛猫。不得出现额外人、额外猫、背景猫、镜中复制角色或第三只动物。
A-Ling是成人女性,使用官方预置人像资产保持脸型、金色长直发、年龄感、体态和自然真实表情;服装必须替换为碎花吊带上衣和碎花短裙,健康棚拍喜剧风,不裸露、不色情化,不沿用官方资产默认服装。Hei-Bai必须保持胖乎乎黑白相间奶牛猫/燕尾服家猫外观,真实猫身体,没有牛角、牛鼻、牛蹄、牛身体、衣服或拟人化身体。
【参考图使用方式】
content[] 中第1个 reference_image 项是 A-Ling 官方虚拟人像资产 asset-20260320095733-gx8rw,只用于脸型、金色长直发、年龄感、体态、表情和身份连续性;服装按本文本改为碎花吊带上衣和碎花短裙。
content[] 中第2个 reference_image 项是 Hei-Bai 的 Character Reference Sheet,所有面板都是同一只Hei-Bai,只用于黑白奶牛猫花纹、圆胖体型、猫脸、表情范围和真实猫动作,禁止复现设定表版式、英文标签、分区线或生成多只猫。
content[] 中第3个 reference_image 项是 Scene, Environment, and Settings reference image,只用于七八十年代卧室布局、小方桌、面碗、木床、旧家具、暖灯光和材质;不要继承场景图中的任何文字、图表、人物、猫或额外食物。
【空间关系硬约束】
小方桌始终是画面中心偏左最大空间锚点,桌上只有一碗面和一双筷子。A-Ling始终在画面右侧或桌子右侧坐着吃面,最后从右向左伸腿踢出。Hei-Bai从左侧或左下方跳上小方桌,主要停在桌面左侧或中左侧,最后被A-Ling从右向左踢向左侧画外。床始终在右后方作为卧室锚点。禁止反打跨轴导致左右互换,禁止角色瞬移,禁止A-Ling跑到左侧,禁止Hei-Bai出现在右侧,禁止多只Hei-Bai。
【道具与状态硬约束】
全片只有一碗面作为主要食物道具。A-Ling开场正在吃面,筷子在右手或碗边,面碗始终在小方桌上。不要出现多碗面、额外菜肴、可读文字、手机、电视、现代电子产品、字幕、对白气泡、水印或屏幕内文字。土味情话只作为对白,不要实体化成文字或图案。
【音频与声音】
生成中文对白音频。A-Ling声音甜美可爱、轻柔少女感,但保持成人女性自然表演。Hei-Bai声音是酷似港片无厘头夸张国语配音男声,尖亮、拖腔、节奏欠揍、喜剧感强。对白必须清楚,环境音轻微:筷子碰碗、猫跳上桌、轻拍、最后踢飞的喜剧音效。不要生成字幕。
【逐秒导演稿】
[0-2秒] 镜头构图与运镜:中广角建立镜头,七八十年代普通卧室内,小方桌中心偏左,A-Ling坐在桌右侧吃面,镜头轻轻推近。角色动作:A-Ling用筷子吃面,表情放松。空间锚点/道具连续性:一碗面固定在桌上,木床在右后方。对白/音效:筷子轻碰碗,无对白。
[2-3.5秒] 镜头构图与运镜:镜头保持桌面中景,左下方Hei-Bai跳上桌子,落在桌面左侧。角色动作:Hei-Bai抬头看A-Ling,认真又有点撒娇。空间锚点/道具连续性:A-Ling仍在右侧,猫在左侧,不跨轴。对白/音效:Hei-Bai说:“主人,我最近总是犯困”。
[3.5-5秒] 镜头构图与运镜:切到A-Ling中近景,镜头从碗边缓慢推到脸。角色动作:A-Ling停下筷子,疑惑又关心地看向桌左侧。空间锚点/道具连续性:桌面和面碗仍在前景。对白/音效:A-Ling问:“你是不是总熬夜啊?”。
[5-7秒] 镜头构图与运镜:切回Hei-Bai桌面近景,轻微低机位增强喜剧感。角色动作:Hei-Bai一脸暧昧坏笑地看着A-Ling,尾巴轻甩,语气拖腔。空间锚点/道具连续性:Hei-Bai仍在桌面左侧。对白/音效:Hei-Bai回答:“其实我没有,我是为你所困~”。
[7-8.5秒] 镜头构图与运镜:双人中景,A-Ling在右、Hei-Bai在左,镜头微微摇晃制造邵氏喜剧节奏。角色动作:A-Ling面色微红,娇嗔地轻拍Hei-Bai一巴掌,但心里开心,动作是喜剧轻拍不能伤害。空间锚点/道具连续性:面碗不翻倒。对白/音效:A-Ling说:“坏猫,油嘴滑舌!”。轻拍音效。
[8.5-10秒] 镜头构图与运镜:桌面中近景,Hei-Bai被轻拍后立刻恢复认真脸,身体前倾。角色动作:Hei-Bai继续盯着A-Ling,像在铺第二个梗。空间锚点/道具连续性:猫仍在左侧,A-Ling右侧入画。对白/音效:Hei-Bai说:“主人,我想喝点东西~”。
[10-11.5秒] 镜头构图与运镜:切到A-Ling右侧中近景,暖光打脸,保留桌边和猫的局部轮廓。角色动作:A-Ling好奇地歪头,语气温柔。空间锚点/道具连续性:她仍坐在桌右侧。对白/音效:A-Ling问:“好啊,你想喝什么?”。
[11.5-12.8秒] 镜头构图与运镜:切回Hei-Bai正面近景,轻微推近到猫脸。角色动作:Hei-Bai忽然一脸认真,停顿半拍后说出包袱。空间锚点/道具连续性:不要出现文字。对白/音效:Hei-Bai说:“呵护你!”。
[12.8-15秒] 镜头构图与运镜:快速切回双人中景再轻微拉远,保留桌面、床、旧家具。角色动作:A-Ling一撅嘴怒道,右腿从右向左伸出,把Hei-Bai喜剧化踢飞到左侧画外;动作夸张但卡通安全,不血腥不受伤。Hei-Bai飞出时四爪张开,保持黑白奶牛猫身份。空间锚点/道具连续性:桌子、面碗、床位置不变,猫从左侧画外飞走,禁止多猫。对白/音效:A-Ling怒道:“你这都从哪学的!臭猫!”。随后是夸张喜剧飞走音效。
【负面约束】
不要字幕、不要文字、不要对白气泡、不要分镜格、不要Logo、不要水印、不要现代物件、不要额外角色、不要额外猫、不要把Hei-Bai变成人、牛或穿衣服、不要把A-Ling服装改成非碎花吊带和碎花短裙、不要改变左右站位、不要改写对白。

逻辑上这个部分是不需要你写的,但是如果你发现视频质量很差,那么,你可以在多维表格中找到对应的项,来反查是不是Director模块跑飞了,写出了错误的或者低质量的Prompt。


小结

逻辑上,当你准备好前置条件,以及输入剧本之后,这个skill/pipeline就可以全自动把一条迷你剧/短剧跑出来。

但是,鉴于大模型的能力不同,前置条件可能也会出现差异,我建议你在将skill和这篇文章喂给你的Agent同时,自己也要读完这此文,否则,后续debug会比较困难。


OK,让我们再提炼和升华一下:

由于seedance在跟随参考图片/音频/视频的能力上异常强大,因此,你需要做的就是给出【稳定的、高质量的参考】!

稳定的人物形象:

如果是真人形象,就用官方的虚拟人像库的asset ID; 
额外提供WR(Wardrobe Reference)来锁定衣着;
如果不是真人形象,就生成人物的CRS(Character Reference Sheet)图;

稳定的环境:

SES(Scene Environment Settings)图

P.S.

其实,我还看到一种更极端的邪修:

就是用GPT-Image-2直接生成9格或者16格的分镜,然后喂给Seedance2.0直出全片!

image
image

你有兴趣也可以试一下~

不过,如果要做短剧,可能还是需要锁死人物/服/化/道/环境等,才是个稳定的产线吧。

Have fun~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询