微信扫码
添加专属顾问
我要投稿
阿里开源Qwen3-TTS全家桶,语音克隆与设计能力直接封神,2天狂揽3K Star!核心内容: 1. 秒级语音克隆:仅需3秒样本,跨语言音色一致性惊人 2. 语音设计革命:通过文字描述即可创造全新音色 3. 多语言支持:10种主流语言+方言,0.6B/1.7B双模型适配不同场景
Qwen3-TTS 全家桶开源:语音设计、克隆与生成,一次性拉满
阿里在去年推出了 Qwen3-TTS 就引起了巨大反响,上个月还发布两大更新,当时还写了一篇文章介绍了下。阿里 Qwen3-TTS 两大更新直接封神!支持跨物种音色克隆,3 秒复刻!
而今阿里通义团队直接将 Qwen3-TTS 开源了,而且还是开源的 TTS 全家桶。
语音设计、语音克隆、语音生成,一次性拉满,开源 2 天 GitHub 上直接斩获 3K+ Star。
如果说以前的 TTS 是在「模仿说话」,那么 Qwen3-TTS 就是在「塑造灵魂」。它不仅能克隆,还能通过文字描述来“设计”全新的声音(包括跨物种的音色)。
核心信息一眼看懂👇🏻:
1、秒级语音克隆
Qwen3-TTS 直接将门槛拉至最低 —— 仅需 3 秒清晰语音样本,无论是人声、方言,甚至特殊声线,都能实现精准复刻。
更令人惊艳的是克隆后的稳定性:用自己的声音克隆后,切换中文、英文、日语等不同语言朗读,音色始终保持一致,甚至能完美保留说话时的尾音、语气等细节特征。
2、语音设计
这是 Qwen3-TTS 非常关键的一个功能,一句话就可以造一个新音色。
如果没有参考语音样本也完全不影响--Qwen3-TTS 支持通过自然语言描述直接创造全新音色。
在魔搭和HuggingFace都可以免费体验本文所讲述的功能。(地址都放文末了)
只需输入一句详细描述,比如:
「17 岁元气少女,声音清甜带奶音,语速稍快」
17岁少女设计语音(请试听):
再试试「35 岁沉稳男声,低音炮质感,带轻微磁性」
35岁男声设计语音(请试听):
只需要这样,模型就能生成完全符合预期的专属声线。
在 InstructTTSEval 权威评测中,其指令遵循能力甚至超越了 GPT-4o-mini-tts 等主流模型,无论是复杂的情感描述还是声线特征定义,都能精准落地。
这一次,声音变成“可 prompt 的对象”。
3、多语言 + 多方言
这是 Qwen3-TTS 的另一大杀手锏 —— 全面支持 10 种主流语言,以及四川话、北京话等多种中文方言。
最核心的突破在于「跨语言音色一致性」:用中文声音克隆后,切换到韩语、西班牙语朗读,音色依然是克隆的原声,不会出现「换语言就换嗓子」的问题。
Qwen3-TTS 提供 1.7B 和 0.6B 两个尺寸的模型,完美适配不同用户的使用场景。
惊艳功能的背后,是 Qwen 团队硬核的技术创新。其核心突破主要来自两大关键设计,既保证了音质,又兼顾了效率。
1、Dual-Track 双轨架构
传统 TTS 模型采用「单轨串行处理」,需要先完成全部文本处理,才能启动音频生成,导致延迟居高不下。
而 Qwen3-TTS 创新采用双轨架构,将「文本处理」和「声学生成」拆分为两条并行轨道:
这种设计配合 MTP(Multi-Token Prediction)模块,实现了单帧即时解码,最终达成 97ms 的超低延迟。
2、双 Tokenizer 设计
Qwen3-TTS 配备了两款自主研发的语音 Tokenizer,分别适配不同场景需求:
这种双 Tokenizer 设计,让模型既能在追求音质时输出 24kHz 高采样率音频,又能在追求效率时实现极速生成,实现了不同场景的无缝适配。
3、三阶段训练
Qwen3-TTS 的训练流程分为预训练和后训练两大阶段,每个阶段都有明确的优化目标:
这套完整的训练体系,让 Qwen3-TTS 在零样本克隆、长文本生成、跨语言合成等场景中,均达到了 SOTA 水平。
Qwen3-TTS 是个真正端到端、真正可控、真正能落地的开源 TTS 模型。
如果说前几年 TTS 还停留在“把文字念出来”,那 Qwen3-TTS 标志着它已经进入了:
“把声音当成可设计、可复制、可实时调用的能力模块”
同时把延迟、效率、部署成本,都考虑进来了。
这不是又一个语音模型,而是语音 Agent 时代的刚需产物。
参考链接:
GitHub:https://github.com/QwenLM/Qwen3-TTS
模型合集:https://huggingface.co/collections/Qwen/qwen3-tts
https://modelscope.cn/collections/Qwen/Qwen3-TTS
官方技术博客:https://qwen.ai/blog?id=qwen3tts-0115
在线体验:
https://modelscope.cn/studios/Qwen/Qwen3-TTS
https://huggingface.co/spaces/Qwen/Qwen3-TTS
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-25
GLM-4.7-Flash无审查版发布:30B MoE模型,仅3B激活参数
2026-01-25
48 个专家级技能包!这个开源库让你的 Claude 瞬间进化,营销、代码、管理样样精通!
2026-01-24
当 AI 学会"造沙箱":OpenSandbox 如何让大模型安全地执行代码
2026-01-24
Claude Code 重磅升级:Task 正式取代 Todo,专治多会话、长周期大工程
2026-01-23
国内外主流AI Agent开发框架与平台深度解析
2026-01-23
为什么你一定要用OpenCode
2026-01-23
阿里云为何要将数据采集开发套件开源
2026-01-23
只需 4 步搞定!开源文档解析服务 MinerU-API 最新安装指南
2025-11-19
2025-10-27
2025-10-27
2025-12-22
2025-11-17
2025-12-10
2025-11-07
2025-10-29
2025-12-23
2026-01-06
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24
2025-12-22
2025-11-12