我要投稿

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

发布日期：2025-12-17 04:38:21 浏览次数： 3135

作者：字节跳动Seed

微信搜一搜，关注“字节跳动Seed”

舞台中央，灯光聚焦，随着一段高亢的旦角唱腔，角色完成了一连串配合鼓点的长枪动作。这并非真实演出，而是 Seedance 1.5 pro 尝试一镜生成的创作片段，其演绎与专业戏曲表演尚有很大差距，但声韵已初见雏形。

今天，我们正式发布新一代音视频创作模型 Seedance 1.5 pro。

Seedance 1.5 pro 支持音视频联合生成，它能够执行多种任务，包括从文本到音视频的合成以及图像引导的音视频生成等。至此，Seedance 视频生成不再局限于视觉维度，而是自然融合了声音。

在 Seedance 1.0 版本中，我们更侧重改善模型表现的“下限”，优化了运动生成的稳定性；而 Seedance 1.5 pro 除了支持音频同步生成外，还致力于提升视觉冲击力和运动效果的“上限”。通过采用更加大胆的技术方案，Seedance 1.5 pro 在视听协同、视觉张力和叙事协调性等方面实现突破：

精准音画同步与多语言、方言支持：模型在生成中实现了较高的视听一致性，提升了角色的口型、语调与表演节奏的拟合精度。模型原生支持多语种和特色方言口音，能够捕捉其独有的语音韵律与情感张力。
电影级运镜控制与动态张力：模型具备自发的镜头调度能力，可执行长镜头跟随、希区柯克变焦等高难度运镜，同时还能实现电影级的画面衔接与专业影调，大幅提升了视频的动态张力。
语义理解与叙事协调性增强：通过增强语义理解，模型实现了对叙事语境的较好解析。它显著提升了音视频段落的整体叙事协调性，为专业级内容创作提供有力支撑。

在综合评测中，Seedance 1.5 pro 取得领先的结果，各项关键能力处于业界前列。目前，Seedance 1.5 pro 已上线即梦AI和豆包，欢迎使用反馈。

Model Card：https://arxiv.org/pdf/2512.13507
项目主页：https://seed.bytedance.com/seedance1_5_pro
体验入口：
（1）即梦网页端-视频生成-选择视频3.5 Pro；
（2）豆包 App 对话框-照片动起来-上传照片-选择 1.5 Pro 模型-输入 prompt（内测中）

不止音画，更有叙事

从素材生成到作品表达

Seedance 1.5 pro 不再满足于生成简单的内容片段，而是将视频和音频视为一个整体，以满足多样化的创作需求。模型对视听协同、动态调度和文化语境的掌握，使其在影视创作、短剧生成、广告生产及戏曲演绎等场景中，均展现出较好的叙事表现力与视听融合度。

接下来，我们将通过具体场景，拆解 Seedance 1.5 pro 如何助力专业创作。

1. 细腻连贯的叙事表现力，支持影视艺术创作

Seedance 1.5 pro 在语义理解上实现了较大提升，这使它能够解析细腻复杂的人类情感，并将其转化为富有张力的艺术表达。同时，依靠高精度的视听协同，模型可深度融合语音、画面和场景氛围，生成相对一致的精细呈现，从而增强内容的叙事感染力。

在特写镜头中，模型展现出细腻的情绪捕捉能力。即使在没有台词的情况下，它也能通过细微的表情变化延续情绪铺垫。例如，在生成的赛博朋克电影感视频中，模型可根据指令推测故事背景，并精细演绎人物状态，其情绪变化自然且富有层次，与环境和音乐氛围达到统一。

Demo 观看提示：可调大音量，效果更佳
T2V prompt：赛博朋克废墟风格，冷暖光影交替。镜头手持跟随年轻东亚女性，特写捕捉她从眼眶含泪的压抑悲伤，随着朝阳金光洒在脸上，神情转为温柔坚定的微表情变化。人物皮肤具备真实胶片质感，浅景深背景虚化。

除了带有故事感的特写镜头生成，Seedance 1.5 pro 还可根据提示语组织出具备基本叙事结构的镜头序列。比如，在动漫作品创作中，模型能生成烟火绽放、男女主日语告白的多个连续镜头，配合情绪化声线，展现出流畅的叙事逻辑。

T2V prompt：夏日花火大会动漫风格，烟花绽放提供柔和轮廓光。镜头从全景烟花推至人群中穿和服的男女主，特写镜头捕捉女生做告白前的心理准备，男生羞涩开口「実は...」，女生抢先一步告白「大好きです」，两人互表心意后亲密相拥。烟花声、人群环境声与日语对白融合，营造浪漫且连贯的叙事氛围。

2. 专业运镜与动态张力，满足高难度场景需求

Seedance 1.5 pro 优化了运镜控制和动态张力，能更好地应对高难度的复杂场景生成。

模型可以相对从容地演绎高动态、高冲击力的运动场景。在滑雪视频中，通过声音和画面运动的协同，Seedance 1.5 pro 创造了强烈的临场感：镜头高速侧切紧随滑雪者轨迹，雪雾迸溅的瞬间被细腻捕捉，真实还原了极限运动的速度与力量。

I2V prompt：滑雪者身着专业装备在雪山背景中展现敏捷技巧。镜头以长镜头低角度跟随滑雪者滑下雪坡，捕捉卡宾切刃、雪雾炸开瞬间，随后快切至慢镜头特写，最后跟随滑雪者转向冲出弯道。背景音乐为动感 Future Bass，配合风声环境音，整体氛围充满活力。

同时，模型具备自发的运镜调度能力，能够执行高难度镜头运动，可应对精度要求较高的生成场景。在模拟红毯首映礼场景时，模型能生成镜头快速摇移的效果，营造现场的匆忙与繁华，配合女生清晰的中文说话声，有效还原了现场氛围。

T2V prompt：身穿晚礼服的亚洲时尚博主在红毯出镜，兴奋地说道：“空气里都是香水和野心的味道！今晚的红毯简直是时装编年史的现场，快跟我来捕捉那个高光时刻！”

在生成的扫地机器人宣传片中，画面可按商业广告片风格缓慢地推动镜头，并紧密追随机器人的运动，较好地聚焦产品。

T2V prompt：极简主义现代豪宅，落日余晖倒映在大理石地面。一台黑色高端洗地机，自动工作时发出幽幽蓝光探测灰尘。运镜采用贴地低角度跟随，展示机器流线线条。音频配合 AI 女声口播：“看不见的微尘，才是过敏的元凶。激光显尘，智能变频，把地板还给赤脚行走的自由。”

3. 支持多语种和方言，增强喜剧等风格化表演质感

Seedance 1.5 pro 支持多语种语音生成，能够相对自然地呈现中文、英文、日文、韩语、西班牙语、印尼语等语种的声韵。尤其在中文语境下，模型还能模拟四川语、粤语等多种方言口音，为短剧和娱乐内容提供了更自然的表演质感。

例如，大熊猫啃竹子时突然用四川口音对着镜头吐槽，模型能匹配方言的声韵和表情，赋予视频鲜活的生命力。

T2V prompt：实拍高级质感。竹林中一只真实的熊猫拿竹子咀嚼，突然停下用四川话吐槽：“今天的竹子咋有点老哦！啷个的喃？有点造孽哦~”。随后镜头急推至近特写，熊猫歪头狡黠一笑，凑近镜头压低声音说：“喂，摄像的大哥，帮我点个外卖要得不！要微辣的哈！”

4. 精准音效生成，提升游戏等视听内容沉浸感

除了人声，Seedance 1.5 pro 对环境音效和音乐氛围同样有较好的理解。模型能够根据画面内容叠加环境音，营造空间感，实现“所见即所听”。

在像素风游戏片段中，模型不仅实现了随角色跑步、跳跃而流畅跟随的运镜，还可同步生成契合场景的 8-bit 游戏音效，展现了在快节奏运动中的音画协同。

T2V prompt：8-bit 像素艺术风格，勇者夕阳下奔跑跳跃，带扫描线效果，复古电子游戏配乐。

在 3D 风格的游戏片段中，模型生成了细节丰富的开放世界，且随着角色移动，脚步声与喘息声精准同步，配合远处低沉的乌鸦鸣叫，提升了视听交互的沉浸感。

I2V prompt：3D 游戏 CG 视频，皮夹克男人在废弃教堂遗址中行动，他警觉停下，确认安全后冲刺，最后在拱门边缘急停观察。画面采用左侧高窗逆光拍摄，呈现暖色调黄褐色。音频精准叠加脚步声、心跳声和猫头鹰叫声，配合紧张背景乐营造悬疑氛围。

依托上述能力， Seedance 1.5 pro 可有力支持影视、广告、短剧、动漫等类型化创作。尤其在 I2V 任务中，模型展现出较强的风格一致性，有效保持了多镜头切换与复杂运动中的人物特征稳定，提升了从素材片段到成片制作的连贯性。

Seedance 1.5 pro 评测结果

指令遵循、音频表现突出

为了客观评估模型的综合能力，团队建立了综合评测基准 SeedVideoBench 1.5。该测试集由影视导演与技术专家联合制定评估标准，重点考察模型在视觉复杂指令遵循、运动稳定性与生动性、美学质量，以及音频指令遵循、音画同步、音质表现力等维度的表现。

在视频生成方面，相比对比评测的其他模型，Seedance 1.5 pro 对动作、镜头等复杂指令的理解相对精准，可更好匹配提示词设定的叙事与影像风格。评测显示，其动态表现较为饱满，人物表情特写生动，复杂运镜相对流畅且与参考图风格衔接自然统一，整体画面质感更贴近实拍；不过，其运动稳定性仍有提升空间。

Seedance 1.5 pro 视频生成能力评测

在音频生成方面， Seedance 1.5 pro 处于业内头部水平。模型在音频指令遵循、音画同步、音质与表现力等维度表现稳定且均衡：能相对准确地生成匹配的人声与指定音效，尤其在中文台词场景中具备较高的完整性与发音清晰度，并可响应多种方言指令。

相比同类模型，Seedance 1.5 pro 生成的人声相对更自然、机械感更少，音效真实感与空间混响较为贴近实际，同时音画错位现象显著减少。尽管后续仍需重点提升其在多角色交替对话及歌唱类场景的表现，但综合来看，该模型已能部分应用于中文及方言对白驱动的短剧、舞台演艺及电影类叙事场景。

Seedance 1.5 pro 音频生成能力评测

多模态联合生成架构

实现视听流精准协同

Seedance 1.5 pro 采用音视频联合生成的基座模型设计，通过底层架构、数据链路、后训练与推理环节的重构，提升了模型在多样化复杂任务中的泛化性能。

Seedance 1.5 pro 训推框架图

多模态联合架构：团队提出了一种基于 MMDiT 架构的统一音视频联合生成框架，通过深度跨模态信息交互机制，实现了视觉与听觉流在时间同步与语义一致性上的精准协同。通过在大规模混合模态数据集上进行多任务训练，我们的模型在各种下游任务中实现了稳健的泛化能力。
多阶段数据 Pipeline：团队设计了平衡音视频一致性、运动表现力与课程化调度的多阶段数据链路。该方案显著增强了视频描述的丰富度与专业性，并融入音频描述，为高保真音视频生成任务提供了高质量、多样化的数据基础。
精细化后训练优化：团队采用了高质量音视频数据集进行监督微调 (SFT)，并引入专为音视频场景定制的 RLHF 算法。具体而言，多维奖励模型有效增强了文生视频 (T2V) 和图生视频 (I2V) 任务的表现，全面提升了运动质量、视觉美感及音频保真度。
高效推理加速：团队进一步优化了多阶段蒸馏框架，大幅降低生成所需的函数评估次数 (NFE)。通过集成量化、并行等推理基础设施优化，在保持模型性能的同时，实现了超过 10 倍的端到端推理加速。

总结与展望

相较我们的前代视频生成模型 Seedance 1.0，Seedance 1.5 pro 在沉浸式音画体验和作品级叙事表达上迈出关键一步。

依托音视频联合架构与精细化后训练，Seedance 1.5 pro 实现了对多模态指令的较好遵循——无论是在影视级的高动态运镜，还是对口型精准度有要求的方言表演中，它均展现出较高潜力。不过，我们也注意到，模型在高难度运动的物理稳定性、多角色对话及演唱等方面仍有提升空间。

未来，Seed 团队将致力于突破更长时长的叙事生成与更实时的端侧体验，并进一步增强模型对物理世界规律的理解及其多模态感知能力。我们希望 Seedance 系列模型能更生动、更高效、更懂用户，助力创作者打破感官界限，实现视听创意。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业