免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


IndexTTS2:哔哩哔哩推出全新大规模自回归语音合成模型

发布日期:2025-09-27 15:01:17 浏览次数: 1512
作者:Renee 创业随笔

微信搜一搜,关注“Renee 创业随笔”

推荐语

B站突破性语音合成技术IndexTTS2来了!精准控制语音时长与情感表达,让AI配音更自然生动。

核心内容:
1. 创新性实现语音时长精确控制与情感音色解耦
2. 采用GPT潜在表示和三阶段训练提升语音质量
3. 开源模型推动AI语音合成技术发展与应用落地

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

现有的大规模自回归文本转语音(TTS)模型在语音自然度方面表现突出,但由于逐 token 生成机制,难以精确控制语音时长。这在需要严格音画同步的应用(如视频配音)中成为一大限制。

B站最新提出的 IndexTTS2,在保持自回归模型优势的同时,提供了一种全新且通用的 语音时长控制方法

🔹 两种生成模式

  1. 显式控制模式:可直接指定生成 token 数量,从而精确控制语音时长。

原声:

文本:

The equipment needed to do this includes rock saws and polishers.

短时长

中时长

长时长

  1. 自由生成模式:无需指定时长,模型仍能保持自然的韵律特征。

情感:

Angry 😠

文本:

你在我们屋子里走路的时候,发现路程遥远,这是不足为怪的。

原声

输出

🔹 情感与音色的解耦

IndexTTS2 实现了 情感表达与说话人音色的解耦

  • 能根据音色提示精确还原目标音色;
  • 同时根据风格提示再现特定情感语气;
  • 在零样本(zero-shot)场景下同样有效。

🔹 技术亮点

  • GPT 潜在表示:在高度情绪化表达中引入 GPT 表征,提升语音清晰度与稳定性。
  • 三阶段训练范式:优化生成语音的稳定性。
  • 软指令机制:结合 Qwen3 微调,通过文字描述即可引导情感控制,大幅降低使用门槛。

🔹 实验结果

在多个数据集上的实验表明,IndexTTS2 在以下方面均超越现有最先进的零样本 TTS 模型:

  • 词错误率(WER)
  • 说话人相似度(SS)
  • 情感保真度

技术架构

IndexTTS2 在架构和方法上带来了多项突破:

  1. 时长自适应方案

  • 首次在自回归零样本 TTS 模型中实现了 精准时长控制 与 自然时长生成 的结合。
  • 该方案具有良好的可扩展性,可适用于任意大规模自回归 TTS 模型。
  • 情感与音色解耦

    • 模型将情感特征与音色特征从提示中分离,并通过 特征融合策略 保证在高度情绪化表达下的语义流畅性和发音清晰度。
    • 进一步开发了基于自然语言描述的 情感控制工具,用户仅需输入文字即可便捷引导语音的情感方向。
  • 数据与训练策略优化

    • 针对高表达力语音数据不足的问题,提出了一种高效的三阶段训练策略。
    • 显著提升了零样本 TTS 的情感表现力,使其达到当前的 SOTA(State-of-the-Art)水平
  • 开源与生态

    • 将公开 代码与预训练权重,以推动未来的研究探索和实际应用落地。

    🔹 试听样例

    视频翻译配音

    🔹 我的测试

    HuggingFace 上可以适用: https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo


    情感:

    Happy 😄

    文本:

    We will make America strong again. We will make America proud again. We will make America safe again. And we will make America great again.

    原声:

    输出:


    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询