我要投稿

阿里开源 Qwen3-TTS 全家桶！语音设计、克隆、生成全打包，开源 2 天 3K Star！

发布日期：2026-01-25 08:46:41 浏览次数： 1528

作者：开源星探

微信搜一搜，关注“开源星探”

Qwen3-TTS 全家桶开源：语音设计、克隆与生成，一次性拉满

阿里在去年推出了 Qwen3-TTS 就引起了巨大反响，上个月还发布两大更新，当时还写了一篇文章介绍了下。阿里 Qwen3-TTS 两大更新直接封神！支持跨物种音色克隆，3 秒复刻！

而今阿里通义团队直接将 Qwen3-TTS 开源了，而且还是开源的 TTS 全家桶。

语音设计、语音克隆、语音生成，一次性拉满，开源 2 天 GitHub 上直接斩获 3K+ Star。

如果说以前的 TTS 是在「模仿说话」，那么 Qwen3-TTS 就是在「塑造灵魂」。它不仅能克隆，还能通过文字描述来“设计”全新的声音（包括跨物种的音色）。

核心信息一眼看懂👇🏻：

• ✅ 秒级声音克隆
• ✅ 一句话设计全新音色
• ✅ 实时流式输出
• ✅ 端到端延迟 97 ms
• ✅ 100% 本地，无云端依赖
• ✅ 参数规模仅 0.6B 和 1.7B

三大核心能力

1、秒级语音克隆

Qwen3-TTS 直接将门槛拉至最低 —— 仅需 3 秒清晰语音样本，无论是人声、方言，甚至特殊声线，都能实现精准复刻。

更令人惊艳的是克隆后的稳定性：用自己的声音克隆后，切换中文、英文、日语等不同语言朗读，音色始终保持一致，甚至能完美保留说话时的尾音、语气等细节特征。

2、语音设计

这是 Qwen3-TTS 非常关键的一个功能，一句话就可以造一个新音色。

如果没有参考语音样本也完全不影响--Qwen3-TTS 支持通过自然语言描述直接创造全新音色。

在魔搭和HuggingFace都可以免费体验本文所讲述的功能。（地址都放文末了）

只需输入一句详细描述，比如：

「17 岁元气少女，声音清甜带奶音，语速稍快」

17岁少女设计语音（请试听）：

再试试「35 岁沉稳男声，低音炮质感，带轻微磁性」

35岁男声设计语音（请试听）：

只需要这样，模型就能生成完全符合预期的专属声线。

在 InstructTTSEval 权威评测中，其指令遵循能力甚至超越了 GPT-4o-mini-tts 等主流模型，无论是复杂的情感描述还是声线特征定义，都能精准落地。

这一次，声音变成“可 prompt 的对象”。

3、多语言 + 多方言

这是 Qwen3-TTS 的另一大杀手锏 —— 全面支持 10 种主流语言，以及四川话、北京话等多种中文方言。

最核心的突破在于「跨语言音色一致性」：用中文声音克隆后，切换到韩语、西班牙语朗读，音色依然是克隆的原声，不会出现「换语言就换嗓子」的问题。

模型规格：0.6B 和 1.7B 各有定位

Qwen3-TTS 提供 1.7B 和 0.6B 两个尺寸的模型，完美适配不同用户的使用场景。

模型	参数量	特点
Qwen3-TTS-1.7B	17 亿	性能最优、控制能力最强
Qwen3-TTS-0.6B	6 亿	性能与效率平衡，实时场景首选

技术解密

惊艳功能的背后，是 Qwen 团队硬核的技术创新。其核心突破主要来自两大关键设计，既保证了音质，又兼顾了效率。

1、Dual-Track 双轨架构

传统 TTS 模型采用「单轨串行处理」，需要先完成全部文本处理，才能启动音频生成，导致延迟居高不下。

而 Qwen3-TTS 创新采用双轨架构，将「文本处理」和「声学生成」拆分为两条并行轨道：

• 一条轨道实时处理输入文本，提取语义和韵律信息；
• 另一条轨道基于这些信息同步生成音频，无需等待全部文本处理完成。

这种设计配合 MTP（Multi-Token Prediction）模块，实现了单帧即时解码，最终达成 97ms 的超低延迟。

2、双 Tokenizer 设计

Qwen3-TTS 配备了两款自主研发的语音 Tokenizer，分别适配不同场景需求：

• Qwen-TTS-Tokenizer-25Hz：采用单码本架构，融合语义与声学线索，基于 Qwen2-Audio 编码器打造，配合块级 DiT 解码，适合对音质要求极高的场景（如有声书、精品配音）；
• Qwen-TTS-Tokenizer-12Hz：采用 12.5Hz 多码本设计，语义与声学解耦，通过轻量级因果 ConvNet 解码，无需复杂扩散模型，主打高速响应，完美适配实时流式场景。

这种双 Tokenizer 设计，让模型既能在追求音质时输出 24kHz 高采样率音频，又能在追求效率时实现极速生成，实现了不同场景的无缝适配。

3、三阶段训练

Qwen3-TTS 的训练流程分为预训练和后训练两大阶段，每个阶段都有明确的优化目标：

• 预训练三阶段：S1 阶段基于 500 万小时多语言数据，构建文本与语音的映射关系；S2 阶段采用高质量数据持续预训练，降低噪声数据导致的幻觉；S3 阶段将最大 token 长度从 8192 扩展至 32768，提升长文本处理能力；
• 后训练三阶段：通过 DPO（直接偏好优化）对齐人类语音偏好，GSPO（规则奖励优化）增强任务稳定性，再经过轻量说话人微调，进一步提升自然度与可控性。

这套完整的训练体系，让 Qwen3-TTS 在零样本克隆、长文本生成、跨语言合成等场景中，均达到了 SOTA 水平。

写在最后

Qwen3-TTS 是个真正端到端、真正可控、真正能落地的开源 TTS 模型。

如果说前几年 TTS 还停留在“把文字念出来”，那 Qwen3-TTS 标志着它已经进入了：

“把声音当成可设计、可复制、可实时调用的能力模块”

同时把延迟、效率、部署成本，都考虑进来了。

这不是又一个语音模型，而是语音 Agent 时代的刚需产物。

参考链接：

GitHub：https://github.com/QwenLM/Qwen3-TTS
模型合集：

https://huggingface.co/collections/Qwen/qwen3-tts
https://modelscope.cn/collections/Qwen/Qwen3-TTS
官方技术博客：https://qwen.ai/blog?id=qwen3tts-0115
在线体验：
https://modelscope.cn/studios/Qwen/Qwen3-TTS
https://huggingface.co/spaces/Qwen/Qwen3-TTS