微信扫码
添加专属顾问
我要投稿
掌握Sora2视频生成的秘诀:像给摄影师写简报一样构思提示词,在控制与创意间找到完美平衡。核心内容: 1. Sora2提示词的核心思路与基本原则 2. 构建有效提示词的具体技巧(摄影机取景、主题动作等) 3. 高级功能使用指南(remix微调、视觉参考等)
大家好,我是蓝衣剑客。今天是国庆复工第一天,首先祝大家开工大吉🧧。
这几天OpenAI发布了Sora2提示词指南,里边系统的讲解了应该如何使用sora2模型来进行视频生成的技巧,同时也破解了一些迷思(比如remix功能到底怎么用)。想看原文的朋友请往下滑,只是想了解信息的朋友直接看完这个高亮框中的内容即可。
太长不看版:
想要掌握Sora 2视频生成?核心思路其实很简单:把写提示词想象成给摄影师简报。你需要在控制与创意之间找到平衡——详细的提示词给你更多控制权和一致性,而简洁的提示词则为意外惊喜留出空间。
首先明确技术参数:模型选择(sora-2或sora-2-pro)、视频尺寸和时长(4-12秒)必须通过API设置,不能在提示词中要求。接着构建你的"镜头简报":描述摄影机取景(广角还是特写?什么角度?)、主题动作(具体到"走四步然后停下"而不是模糊的"快速移动")、光线设置("柔和窗光配温暖台灯填充"比"明亮照明"有效得多)和整体风格("1970年代电影"或"16mm纪录片"等)。
运动控制是关键难点,保持简单:每个镜头一个清晰的摄影机移动,一个明确的主体动作,用具体的节拍描述时间节奏。对话要简短自然,4秒片段最多容纳一两句话。如果需要更精确的控制,可以用图像作为视觉参考来锁定构图和风格。
记住remix功能是用来微调的工具:当结果接近期望时,固定大部分内容,只调整需要改变的细节。最重要的是要准备迭代——同一个提示词会产生不同结果,这是特性不是缺陷,有时第二第三次尝试会更好。清晰具体胜过模糊抽象,但也要给模型留些创作空间,这样才能在控制与惊喜之间找到最佳平衡。
原内容地址:https://cookbook.openai.com/examples/sora/sora2_prompting_guide
提示词控制视频的内容,但某些属性仅由API参数控制。你无法在文本中请求它们,必须在API调用中明确设置:
这些参数是视频的容器——分辨率、持续时间和质量不会因为"让它更长"这样的文字描述而改变。在API调用中明确设置它们;你的提示词控制其他一切(主题、运动、光线、风格)。
视频分辨率直接影响Sora中的视觉保真度和运动一致性。更高的分辨率能更准确地生成细节、纹理和光线过渡,而较低的分辨率会压缩视觉信息,通常会引入柔化或伪影。
模型在较短片段中通常能更可靠地遵循指令。为了获得最佳效果,建议使用简洁的镜头。如果你的项目允许,通过在后期制作中拼接两个4秒片段,可能比生成单个8秒片段获得更好的结果。
清晰的提示词描述一个镜头,就像你在分镜头脚本上勾勒它一样。说明摄影机取景,注明景深,按节拍描述动作,并设置光线和调色板。用几个独特的细节来锚定你的主题,使其保持可识别性,而单一、合理的动作使镜头更容易跟随。
在单个提示词中描述多个镜头也是有效的,如果你需要覆盖一个序列的话。当你这样做时,保持每个镜头块的独特性:一次一个摄影机设置,一个主题动作,一个光线配方。这给你灵活性来生成短的独立片段或更长的连续时刻,取决于你的项目。将每个镜头视为一个创意单元,你可以在编辑中将它们拼接在一起,或让它们作为一个序列一次性播放。
这里是一个简短提示词的例子:
在90年代纪录片风格的采访中,一位瑞典老人坐在书房里说:"我仍然记得我年轻的时候。"
这个提示词可能会很好地工作:
这个提示词会可靠地产生符合这些要求的视频。然而,它可能不会完全符合你的愿景,因为许多细节是开放的。例如,提示词没有描述一天中的时间、天气、服装、语调、角色的外观和年龄、摄影机角度、剪切、场景设计和许多其他因素。除非你描述这些细节,否则Sora会自己编造它们。
对于复杂的电影镜头,你可以超越标准提示词结构,用专业制作术语指定外观、摄影机设置、分级、声景,甚至镜头原理。这类似于导演向摄影团队或视觉特效团队简报的方式。关于镜头、滤镜、光线、分级和运动的详细提示帮助模型锁定非常特定的美学效果。
例如,你可能描述观众首先注意到什么、摄影机平台和镜头、光线方向、调色板、纹理质量、场景内音效和镜头时机。当你想要匹配真实的电影摄影风格(例如,IMAX航拍、35mm手持、复古16mm纪录片)或在镜头间保持严格连续性时,这种方法效果很好。
格式与外观
持续时间4秒;180°快门;数字捕捉模拟65mm胶片对比度;细颗粒;高光处微妙光晕;无胶片晃动。
镜头与滤镜
32mm/50mm球面定焦镜头;Black Pro-Mist 1/4;轻微CPL旋转以管理火车窗户上的玻璃反射。
分级/调色板
高光:干净的晨光,带琥珀色提升。
中调:平衡的中性色,阴影中带轻微青色调。
黑色:柔和、中性,轻微提升以保持雾霾效果。
光线与氛围
来自摄影机左侧的自然阳光,低角度(上午07:30)。
反光:轨道边4×4超级反光银色反光板。
从对面墙壁负填充。
实用光:昏暗渐变的钠灯站台灯。
氛围:轻柔薄雾;火车废气在光束中飘散。
位置与取景
城市通勤站台,黎明。
前景:黄色安全线,长椅上的咖啡杯。
中景:在雾霾中剪影的等候乘客。
背景:正在刹车停靠的到达列车。
避免标识或企业品牌。
服装/道具/群众演员
主要主题:30多岁的旅行者,海军蓝外套,单肩背包,手边松松地拿着手机。
群众演员:穿着柔和色调的通勤者;一个推自行车的骑行者。
道具:纸质咖啡杯,拉杆行李箱,LED出发牌(通用目的地)。
音效
仅场景音效:微弱的铁轨尖叫声,火车刹车嘶嘶声,远处公告模糊(-20LUFS),低环境嗡嗡声。
脚步声和纸张沙沙声;无配乐或添加音效。
优化镜头列表(2个镜头/总共4秒)
0.00–2.40 —"到达漂移"(32mm,肩扛缓慢左移)
摄影机滑过站台标识边缘;浅焦点显示旅行者在画面中央望向轨道。晨光在镜头上绽放;火车前灯在薄雾中柔和闪耀。目的:建立场景和语调,暗示期待。
2.40–4.00 —"转身暂停"(50mm,缓慢弧形推进)
切换到更紧的过肩弧形,火车停止;旅行者轻微转向摄影机,阳光边缘照亮脸颊和手机屏幕反射。眼睛向上瞥向看不见的东西。目的:创造人性化焦点时刻,运动最小化。
摄影机注意事项(为什么有效)
保持视线低且接近镜头轴以获得亲密感。
允许火车玻璃的微光斑作为美学纹理。
保持微妙的手持不完美感以获得真实感。
不要用过度曝光的光斑破坏剪影清晰度;保持肌肤高光过渡。
后期制作
细颗粒叠加,轻微色度噪声增强真实感;实用光源的克制光晕;晨间分离色调的暖冷LUT。
混音:优先考虑火车和环境细节而非脚步瞬态。
海报帧:旅行者转身中,金色边缘光,到达列车在背景雾霾中柔焦。
在编写提示词时,风格是引导模型朝向期望结果的最强大杠杆之一。描述整体美学——例如,"1970年代电影"、"史诗级IMAX规模场景"或"16mm黑白胶片"——设定了一个视觉基调,框定所有其他选择。早期建立这种风格,这样模型就能始终如一地贯彻它。
同样的细节在你要求精致的好莱坞剧情片、手持智能手机片段或颗粒感复古商业广告时会有截然不同的效果。一旦基调确定,就用镜头、动作和光线来分层添加具体内容。
清晰度获胜。与其使用模糊的提示如"一条美丽的街道",不如写"湿润的沥青、斑马线、霓虹灯标志反射"。与其说"快速移动",不如具体说明"慢跑三步并在路边停下"。指向可见结果的动词和名词总是会给你更清晰、更一致的输出。
弱提示词 | 强提示词 |
"夜晚的美丽街道" | "湿润沥青,斑马线,霓虹灯标志在水坑中反射" |
"人快速移动" | "骑行者踩踏三次,刹车,在人行横道停下" |
"电影感外观" | "变形2.0x镜头,浅景深,体积光" |
摄影机方向和取景塑造镜头的感觉。从上方的广角镜头会强调空间和背景,而眼平的特写镜头会将注意力集中在情感上。景深增加了另一层:浅焦点可以让主体在模糊背景中突出,而深焦点保持前景和背景都清晰。光线同样强烈地设定基调。柔和、温暖的主光创造出邀请感,而带有冷色边缘的单一硬光推向戏剧性。
在介绍角色时,要预期一些不可预测性——措辞的小变化可能改变身份、姿势或场景本身的焦点。在镜头间保持描述一致,重复使用措辞以保持连续性,避免混合可能竞争的特征。
弱
摄影机镜头:电影感外观
强
摄影机镜头:广角镜头,低角度景深:浅(主体清晰,背景模糊)光线+调色板:温暖背光,柔和边缘光
一些良好取景指令的例子:
一些良好摄影机运动指令的例子:
运动往往是最难做对的部分,所以保持简单。每个镜头应该有一个清晰的摄影机移动和一个清晰的主体动作。当用节拍或计数来描述动作时效果最好——小步骤、手势或停顿——这样它们在时间上感觉有根据。
"演员走过房间"没有提供太多可操作的内容。像"演员走四步到窗户,停顿,在最后一秒拉开窗帘"这样的描述使时机精确且可实现。
弱
演员走过房间。
强
演员走四步到窗户,停顿,在最后一秒拉开窗帘。
光线决定情绪,就像动作或场景设置一样重要。整个画面的漫射光感觉平静和中性,而单一强光源创造尖锐对比和紧张感。当你想要将多个片段剪辑在一起时,保持光线逻辑一致是使编辑无缝的关键。
描述光线的质量和强化它的色彩锚点。与其用"明亮照明的房间"这样的宽泛注释,不如指定光源和色调的混合:"柔和窗光,温暖台灯填充,走廊的冷色边缘。"命名三到五种颜色有助于在镜头间保持调色板稳定。
弱
光线+调色板:明亮照明的房间
强
光线+调色板:柔和窗光,温暖台灯填充,走廊冷色边缘光调色板锚点:琥珀色、奶油色、胡桃木棕色
为了对镜头的构图和风格进行更精细的控制,你可以使用图像输入作为视觉参考。你可以使用照片、数字艺术作品或AI生成的视觉效果。这锁定了角色设计、服装、场景布置或整体美学等元素。模型使用图像作为第一帧的锚点,而你的文本提示词定义接下来发生什么。
对话必须在你的提示词中直接描述。将其放在散文描述下方的块中,这样模型就能清楚地区分视觉描述和口语台词。保持台词简洁自然,尽量将对话限制在几句话内,这样时机能与你的片段长度匹配。对于多角色场景,始终如一地标记说话者并使用交替轮次;这有助于模型将每句台词与正确角色的手势和表情联系起来。
你还应该考虑节奏和时机:4秒镜头通常能容纳一到两次简短对话,而8秒片段可以支持更多。长而复杂的演讲不太可能同步良好,可能会破坏节奏。
如果你的镜头是无声的,你仍然可以用一个小音效来暗示节奏,比如"远处交通嘶嘶声"或"清脆的响指声"。将其视为节奏提示而非完整配乐。
带对话的提示词示例:
一个狭窄、无窗的房间,墙壁是旧灰烬的颜色。一盏裸露的灯泡从天花板悬挂,光线汇聚到中央的伤痕累累的金属桌子上。两把椅子面对面放置。一边坐着侦探,风衣搭在椅背上,眼神锐利不眨。对面,嫌疑人懒散地坐着,香烟烟雾懒洋洋地向天花板卷曲。寂静压迫着,只有头顶灯光微弱的嗡嗡声打破沉默。
对话:
- 侦探:"你在撒谎。我能从你的沉默中听出来。"
- 嫌疑人:"或者我只是厌倦了说话。"
- 侦探:"无论如何,在夜晚结束前你会开口的。"
背景音效描述示例:
咖啡机的嗡嗡声和人声的低语形成背景。
remix是用来微调的,不是用来赌博的。用它来进行受控的改变——一次一个——并说明你在改变什么:"同样的镜头,切换到85mm",或"同样的光线,新调色板:青色、沙色、锈色"。当结果接近时,将其固定为参考,只描述调整。这样,已经有效的一切都保持锁定。
如果镜头一直出错,将其简化:固定摄影机,简化动作,清理背景。一旦它有效,逐步分层添加额外的复杂性。
编写提示词的一种有效方式是将你希望模型使用的不同类型信息分开。这不是一个万能的成功配方,但它给你一个清晰的框架,使保持一致性变得更容易。不是每个细节都需要包含——如果某些东西对镜头不重要,你可以省略它。
实际上,让某些元素保持开放式会鼓励模型更有创造力。你指定每个视觉选择越不严格,模型就有越多空间来诠释并用意想不到但通常美丽的变化来惊喜你。高度描述性的提示词产生更一致、受控的结果,而轻量级提示词可以解锁感觉新鲜和富有想象力的多样化结果。
描述性提示词模板:
[用通俗语言进行散文场景描述。描述角色、服装、风景、天气和其他细节。尽可能描述性以生成符合你愿景的视频。]
电影摄影:
摄影机镜头:[取景和角度,例如广角建立镜头,眼平]
情绪:[整体基调,例如电影感和紧张,俏皮和悬疑,奢华期待]
动作:
- [动作1:清晰、具体的节拍或手势]
- [动作2:片段内的另一个独特节拍]
- [动作3:另一个动作或对话台词]
对话:
[如果镜头有对话,在这里添加简短自然的台词或作为动作列表的一部分。保持简洁以匹配片段长度。]
风格:手绘2D/3D混合动画,柔和笔刷纹理,温暖钨丝灯光,触感定格动画感觉。美学唤起2000年代中期故事书动画——舒适、不完美、充满机械魅力。微妙水彩渲染和绘画纹理;分级中的暖冷平衡;电影运动模糊增强动画真实感。
在一个杂乱的工作室内,架子上溢满齿轮、螺栓和泛黄的蓝图。中央,一个小圆形机器人坐在木凳上,其凹陷的身体用不匹配的板材和旧漆层修补。它大大的发光眼睛闪烁着淡蓝色,紧张地摆弄着一个嗡嗡作响的灯泡。空气中充满安静的机械呼呼声,雨点拍打窗户,时钟在背景中稳定滴答。
电影摄影:
摄影机:中近景,缓慢推进,悬挂工具的轻柔视差
镜头:35mm虚拟镜头;浅景深柔化背景杂乱
光线:头顶实用光的温暖主光;窗户的冷色溢光形成对比
情绪:温和、异想天开,带一丝悬疑
动作:
- 机器人轻敲灯泡;火花噼啪作响。
- 它退缩,掉落灯泡,眼睛睁大。
- 灯泡慢动作翻滚;它及时抓住。
- 一股蒸汽从它胸部逸出——松了一口气,充满自豪。
- 机器人轻声说:"差点丢了……但我抓住了!"
背景音效:
雨声,时钟滴答,柔和机械嗡嗡声,微弱灯泡嘶嘶声。
风格:1970年代浪漫剧情片,35mm胶片拍摄,自然光斑,柔焦和温暖光晕。轻微胶片晃动和手持微震唤起复古亲密感。温暖柯达风格分级;灯泡上的轻微光晕;胶片颗粒和柔和渐晕增强时代真实感。
在黄金时刻,砖砌公寓楼顶变成了一个小舞台。挂着白床单的晾衣绳在风中摇摆,捕捉最后的阳光。头顶悬挂着不匹配的仙女灯串,发出微弱嗡嗡声。一位身穿飘逸红丝裙的年轻女子赤脚起舞,卷发在褪色光线中发光。她的舞伴——袖子卷起,吊带松垮——拍手伴奏,笑容宽阔而不设防。下方,城市嗡嗡作响着汽车喇叭声、地铁震动和远处笑声。
电影摄影:
摄影机:中广角镜头,从眼平缓慢推进
镜头:40mm球面;浅焦点将情侣从天际线中分离
光线:金色自然主光,钨丝反光;仙女灯的边缘光
情绪:怀旧、温柔、电影感
动作:
- 她旋转;裙子飞扬,捕捉阳光。
- 女子(笑着):"看?连城市今晚都和我们一起跳舞。"
- 他上前,抓住她的手,将她倾斜到阴影中。
- 男子(微笑):"只因为你在领舞。"
- 床单飘过画面,短暂遮蔽天际线后再次分开。
背景音效:
仅自然环境音:微风、织物飘动、街道噪音、模糊音乐。无添加配乐。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-26
20个从入门到高阶的提示词工程技巧
2025-09-23
Claude Code 高级使用技巧,让你的开发效率翻倍
2025-09-23
Prompt的尽头,居然是MBTI。
2025-09-22
「一句顶万句」让所有AI秒变天才的黄金提示词,提问效率飙升100倍!
2025-09-20
N个promptPilot的数据集,验证一个提示词,效果就是稳!
2025-09-17
Dify标注回复秘籍:3步确保AI答案100%一致性
2025-09-15
不能错过!让AI写出真正的人味:方法不在提示词中,而在这3层上下文工程里
2025-09-14
一组使用深度工作思路提升产出的提示词
2025-07-15
2025-07-16
2025-08-25
2025-08-18
2025-08-24
2025-07-20
2025-08-29
2025-07-22
2025-08-17
2025-09-05