免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

声画俱全,一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

发布日期:2025-12-17 04:38:21 浏览次数: 1518
作者:字节跳动Seed

微信搜一搜,关注“字节跳动Seed”

推荐语

Seedance 1.5 pro 突破音视频创作边界,实现声画同步与专业级叙事,为影视、戏曲等艺术创作带来全新可能。

核心内容:
1. 音视频联合生成技术突破,支持多语言与方言口音
2. 电影级运镜控制与动态张力提升视觉冲击力
3. 增强语义理解与叙事协调性,助力专业内容创作

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
Image

舞台中央,灯光聚焦,随着一段高亢的旦角唱腔,角色完成了一连串配合鼓点的长枪动作。这并非真实演出,而是 Seedance 1.5 pro 尝试一镜生成的创作片段,其演绎与专业戏曲表演尚有很大差距,但声韵已初见雏形。

注:生成视频中角色的唱腔、妆造及身段与真实剧种规范仍有明显差距,台词也非传统戏文,仅作为 AI 技术对戏曲美学的一次初步探索。

今天,我们正式发布新一代音视频创作模型 Seedance 1.5 pro。

Seedance 1.5 pro 支持音视频联合生成,它能够执行多种任务,包括从文本到音视频的合成以及图像引导的音视频生成等。至此,Seedance 视频生成不再局限于视觉维度,而是自然融合了声音。

在 Seedance 1.0 版本中,我们更侧重改善模型表现的“下限”,优化了运动生成的稳定性;而 Seedance 1.5 pro 除了支持音频同步生成外,还致力于提升视觉冲击力和运动效果的“上限”。通过采用更加大胆的技术方案,Seedance 1.5 pro 在视听协同、视觉张力和叙事协调性等方面实现突破:

  • 精准音画同步与多语言、方言支持:模型在生成中实现了较高的视听一致性,提升了角色的口型、语调与表演节奏的拟合精度。模型原生支持多语种和特色方言口音,能够捕捉其独有的语音韵律与情感张力。

  • 电影级运镜控制与动态张力:模型具备自发的镜头调度能力,可执行长镜头跟随、希区柯克变焦等高难度运镜,同时还能实现电影级的画面衔接与专业影调,大幅提升了视频的动态张力。

  • 语义理解与叙事协调性增强:通过增强语义理解,模型实现了对叙事语境的较好解析。它显著提升了音视频段落的整体叙事协调性,为专业级内容创作提供有力支撑。

在综合评测中,Seedance 1.5 pro 取得领先的结果,各项关键能力处于业界前列。目前,Seedance 1.5 pro 已上线即梦AI和豆包,欢迎使用反馈。

Model Card:https://arxiv.org/pdf/2512.13507 

项目主页:https://seed.bytedance.com/seedance1_5_pro

体验入口:

(1)即梦网页端-视频生成-选择视频3.5 Pro;

(2)豆包 App 对话框-照片动起来-上传照片-选择 1.5 Pro 模型-输入 prompt(内测中)



不止音画,更有叙事

从素材生成到作品表达

Seedance 1.5 pro 不再满足于生成简单的内容片段,而是将视频和音频视为一个整体,以满足多样化的创作需求。模型对视听协同、动态调度和文化语境的掌握,使其在影视创作、短剧生成、广告生产及戏曲演绎等场景中,均展现出较好的叙事表现力与视听融合度。

接下来,我们将通过具体场景,拆解 Seedance 1.5 pro 如何助力专业创作。

1. 细腻连贯的叙事表现力,支持影视艺术创作

Seedance 1.5 pro 在语义理解上实现了较大提升,这使它能够解析细腻复杂的人类情感,并将其转化为富有张力的艺术表达。同时,依靠高精度的视听协同,模型可深度融合语音、画面和场景氛围,生成相对一致的精细呈现,从而增强内容的叙事感染力。

在特写镜头中,模型展现出细腻的情绪捕捉能力。即使在没有台词的情况下,它也能通过细微的表情变化延续情绪铺垫。例如,在生成的赛博朋克电影感视频中,模型可根据指令推测故事背景,并精细演绎人物状态,其情绪变化自然且富有层次,与环境和音乐氛围达到统一。

Demo 观看提示:可调大音量,效果更佳

T2V prompt:赛博朋克废墟风格,冷暖光影交替。镜头手持跟随年轻东亚女性,特写捕捉她从眼眶含泪的压抑悲伤,随着朝阳金光洒在脸上,神情转为温柔坚定的微表情变化。人物皮肤具备真实胶片质感,浅景深背景虚化。

除了带有故事感的特写镜头生成,Seedance 1.5 pro 还可根据提示语组织出具备基本叙事结构的镜头序列。比如,在动漫作品创作中,模型能生成烟火绽放、男女主日语告白的多个连续镜头,配合情绪化声线,展现出流畅的叙事逻辑。

T2V prompt:夏日花火大会动漫风格,烟花绽放提供柔和轮廓光。镜头从全景烟花推至人群中穿和服的男女主,特写镜头捕捉女生做告白前的心理准备,男生羞涩开口「実は...」,女生抢先一步告白「大好きです」,两人互表心意后亲密相拥。烟花声、人群环境声与日语对白融合,营造浪漫且连贯的叙事氛围。

2. 专业运镜与动态张力,满足高难度场景需求

Seedance 1.5 pro 优化了运镜控制和动态张力,能更好地应对高难度的复杂场景生成。

模型可以相对从容地演绎高动态、高冲击力的运动场景。在滑雪视频中,通过声音和画面运动的协同,Seedance 1.5 pro 创造了强烈的临场感:镜头高速侧切紧随滑雪者轨迹,雪雾迸溅的瞬间被细腻捕捉,真实还原了极限运动的速度与力量。

I2V prompt:滑雪者身着专业装备在雪山背景中展现敏捷技巧。镜头以长镜头低角度跟随滑雪者滑下雪坡,捕捉卡宾切刃、雪雾炸开瞬间,随后快切至慢镜头特写,最后跟随滑雪者转向冲出弯道。背景音乐为动感 Future Bass,配合风声环境音,整体氛围充满活力。

同时,模型具备自发的运镜调度能力,能够执行高难度镜头运动,可应对精度要求较高的生成场景。在模拟红毯首映礼场景时,模型能生成镜头快速摇移的效果,营造现场的匆忙与繁华,配合女生清晰的中文说话声,有效还原了现场氛围。

T2V prompt:身穿晚礼服的亚洲时尚博主在红毯出镜,兴奋地说道:“空气里都是香水和野心的味道!今晚的红毯简直是时装编年史的现场,快跟我来捕捉那个高光时刻!”

在生成的扫地机器人宣传片中,画面可按商业广告片风格缓慢地推动镜头,并紧密追随机器人的运动,较好地聚焦产品。

T2V prompt:极简主义现代豪宅,落日余晖倒映在大理石地面。一台黑色高端洗地机,自动工作时发出幽幽蓝光探测灰尘。运镜采用贴地低角度跟随,展示机器流线线条。音频配合 AI 女声口播:“看不见的微尘,才是过敏的元凶。激光显尘,智能变频,把地板还给赤脚行走的自由。”

3. 支持多语种和方言,增强喜剧等风格化表演质感

Seedance 1.5 pro 支持多语种语音生成,能够相对自然地呈现中文、英文、日文、韩语、西班牙语、印尼语等语种的声韵。尤其在中文语境下,模型还能模拟四川语、粤语等多种方言口音,为短剧和娱乐内容提供了更自然的表演质感。

例如,大熊猫啃竹子时突然用四川口音对着镜头吐槽,模型能匹配方言的声韵和表情,赋予视频鲜活的生命力。

T2V prompt:实拍高级质感。竹林中一只真实的熊猫拿竹子咀嚼,突然停下用四川话吐槽:“今天的竹子咋有点老哦!啷个的喃?有点造孽哦~”。随后镜头急推至近特写,熊猫歪头狡黠一笑,凑近镜头压低声音说:“喂,摄像的大哥,帮我点个外卖要得不!要微辣的哈!”

4. 精准音效生成,提升游戏等视听内容沉浸感

除了人声,Seedance 1.5 pro 对环境音效和音乐氛围同样有较好的理解。模型能够根据画面内容叠加环境音,营造空间感,实现“所见即所听”。

在像素风游戏片段中,模型不仅实现了随角色跑步、跳跃而流畅跟随的运镜,还可同步生成契合场景的 8-bit 游戏音效,展现了在快节奏运动中的音画协同。

T2V prompt:8-bit 像素艺术风格,勇者夕阳下奔跑跳跃,带扫描线效果,复古电子游戏配乐。

在 3D 风格的游戏片段中,模型生成了细节丰富的开放世界,且随着角色移动,脚步声与喘息声精准同步,配合远处低沉的乌鸦鸣叫,提升了视听交互的沉浸感。

I2V prompt:3D 游戏 CG 视频,皮夹克男人在废弃教堂遗址中行动,他警觉停下,确认安全后冲刺,最后在拱门边缘急停观察。画面采用左侧高窗逆光拍摄,呈现暖色调黄褐色。音频精准叠加脚步声、心跳声和猫头鹰叫声,配合紧张背景乐营造悬疑氛围。

依托上述能力, Seedance 1.5 pro 可有力支持影视、广告、短剧、动漫等类型化创作。尤其在 I2V 任务中,模型展现出较强的风格一致性,有效保持了多镜头切换与复杂运动中的人物特征稳定,提升了从素材片段到成片制作的连贯性。


Seedance 1.5 pro 评测结果

指令遵循、音频表现突出

为了客观评估模型的综合能力,团队建立了综合评测基准 SeedVideoBench 1.5。该测试集由影视导演与技术专家联合制定评估标准,重点考察模型在视觉复杂指令遵循、运动稳定性与生动性、美学质量,以及音频指令遵循、音画同步、音质表现力等维度的表现。

在视频生成方面,相比对比评测的其他模型,Seedance 1.5 pro 对动作、镜头等复杂指令的理解相对精准,可更好匹配提示词设定的叙事与影像风格。评测显示,其动态表现较为饱满,人物表情特写生动,复杂运镜相对流畅且与参考图风格衔接自然统一,整体画面质感更贴近实拍;不过,其运动稳定性仍有提升空间。

Seedance 1.5 pro 视频生成能力评测

在音频生成方面, Seedance 1.5 pro 处于业内头部水平。模型在音频指令遵循、音画同步、音质与表现力等维度表现稳定且均衡:能相对准确地生成匹配的人声与指定音效,尤其在中文台词场景中具备较高的完整性与发音清晰度,并可响应多种方言指令。

相比同类模型,Seedance 1.5 pro 生成的人声相对更自然、机械感更少,音效真实感与空间混响较为贴近实际,同时音画错位现象显著减少。尽管后续仍需重点提升其在多角色交替对话及歌唱类场景的表现,但综合来看,该模型已能部分应用于中文及方言对白驱动的短剧、舞台演艺及电影类叙事场景。

Seedance 1.5 pro 音频生成能力评测



模态联合生成架构

实现视听流精准协同

Seedance 1.5 pro 采用音视频联合生成的基座模型设计,通过底层架构、数据链路、后训练与推理环节的重构,提升了模型在多样化复杂任务中的泛化性能。

Seedance 1.5 pro 训推框架图

  • 模态联合架构团队提出了一种基于 MMDiT 架构的统一音视频联合生成框架,通过深度跨模态信息交互机制,实现了视觉与听觉流在时间同步与语义一致性上的精准协同。通过在大规模混合模态数据集上进行多任务训练,我们的模型在各种下游任务中实现了稳健的泛化能力。

  • 多阶段数据 Pipeline团队设计了平衡音视频一致性、运动表现力与课程化调度的多阶段数据链路。该方案显著增强了视频描述的丰富度与专业性,并融入音频描述,为高保真音视频生成任务提供了高质量、多样化的数据基础。

  • 精细化后训练优化团队采用了高质量音视频数据集进行监督微调 (SFT),并引入专为音视频场景定制的 RLHF 算法。具体而言,多维奖励模型有效增强了文生视频 (T2V) 和图生视频 (I2V) 任务的表现,全面提升了运动质量、视觉美感及音频保真度。

  • 高效推理加速团队进一步优化了多阶段蒸馏框架,大幅降低生成所需的函数评估次数 (NFE)。通过集成量化、并行等推理基础设施优化,在保持模型性能的同时,实现了超过 10 倍的端到端推理加速。


总结与展望

相较我们的前代视频生成模型 Seedance 1.0,Seedance 1.5 pro 在沉浸式音画体验和作品级叙事表达上迈出关键一步。

依托音视频联合架构与精细化后训练,Seedance 1.5 pro 实现了对多模态指令的较好遵循——无论是在影视级的高动态运镜,还是对口型精准度有要求的方言表演中,它均展现出较高潜力。不过,我们也注意到,模型在高难度运动的物理稳定性、多角色对话及演唱等方面仍有提升空间。

未来,Seed 团队将致力于突破更长时长的叙事生成与更实时的端侧体验,并进一步增强模型对物理世界规律的理解及其多模态感知能力。我们希望 Seedance 系列模型能更生动、更高效、更懂用户,助力创作者打破感官界限,实现视听创意。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询