免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Qwen3-TTS全家桶正式全面开源,一站式解锁多语言语音生成全能力

发布日期:2026-01-23 00:22:16 浏览次数: 1529
作者:Ai-learn SIG

微信搜一搜,关注“Ai-learn SIG”

推荐语

阿里云通义千问团队开源Qwen3-TTS系列,带来多语言语音生成的全新突破,支持音色定制与智能控制,性能全面领先。

核心内容:
1. Qwen3-TTS系列模型开源,覆盖10种语言与方言音色
2. 商业级VoiceDesign模型实现自然语言定制音色
3. 四大技术优势:高效语音表征、端到端架构、低延迟流式推理、智能文本理解

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家



2026年1月22日,阿里云通义千问团队正式开源Qwen3-TTS全系列语音生成模型,代码与模型权重已上架GitHub,同时提供Hugging Face、ModelScope双平台Demo及详细技术文档/论文,该系列凭借全功能覆盖、多语言支持、极致推理性能成为目前开源生态中最全面的TTS解决方案,还与vllm社区达成首日适配,为开发者提供高效部署支持。

本次开源的Qwen3-TTS包含0.6B/1.7B两个参数量级,共5个模型,核心实现语音设计、音色克隆、定制音色生成三大核心能力,且全系列搭载自研的Qwen3-TTS-Tokenizer-12Hz分词器,开源代码原生支持微调,所有模型均实现10种语言(中、英、日、韩、德、法、俄、葡、西、意)自由切换,各语言在相关基准测试中均达到SOTA水平,还覆盖多种方言音色,满足全球化应用需求。

核心创新:商业级VoiceDesign模型,实现“所想即所听”

本次开源的最大亮点是Qwen3-TTS-12Hz-1.7B-VoiceDesign商业级音色/语音控制模型,支持通过自然语言自由描述定制音色,打破了传统TTS需通过克隆实现新音色的限制。用户可通过文字指令定义音色的性别、年龄、情绪、口音甚至说话风格,生成专属定制音色;若搭配音色克隆模型,还能将生成的定制音色固化,实现独有的专属音色长期使用,玩法与定制灵活性大幅提升。

四大技术优势,打造工业级TTS体验

Qwen3-TTS在底层架构与性能上做了多重创新,兼顾生成效果、推理速度与实用性,核心技术优势体现在四方面:

  1. 高效语音表征:自研分词器实现高效声学压缩与高维语义建模,完整保留语音的副语言信息和声学环境特征,通过轻量非DiT架构实现高速高保真语音重建;
  2. 端到端通用架构:采用离散多码本LM架构,规避传统LM+DiT方案的信息瓶颈与级联误差,大幅提升模型通用性、生成效率与性能上限;
  3. 极致低延迟流式推理:创新双轨混合流式生成架构,单模型同时支持流式/非流式生成,单字输入即可立即输出首个音频包,端到端合成延迟低至97ms,满足实时交互场景的严苛要求,且流式推理性能拉满,模型稳定性优异(数字类TN场景除外);
  4. 智能文本理解与语音控制:具备强上下文理解能力,可根据文字语义与指令自适应调节语气、语速、情绪,对含噪输入文本的鲁棒性大幅提升,语音表达力丰富,生成效果达到甚至超越多家企业商用产品水平。

全能力覆盖,五大模型各有专攻

本次开源的5个模型分工明确,覆盖从基础生成到高级定制的全场景需求,且均支持流式推理:

  1. 1.7B-VoiceDesign:核心语音设计模型,自然语言指令定制音色/语音;
  2. 1.7B/0.6B-CustomVoice:定制音色生成,支持通过指令对目标音色做风格控制,内置9种优质音色(覆盖不同性别、年龄、语言/方言);
  3. 1.7B/0.6B-Base:基础模型,支持3秒音频快速音色克隆,也可作为基础模型微调其他TTS模型。

极简上手,多方式支持快速使用与部署

为降低开发者使用门槛,Qwen3-TTS提供多种便捷的使用与部署方式,零基础也能快速上手:

  1. Python包快速调用:可通过PyPI安装qwen-tts包,一行代码实现定制语音、语音设计、音色克隆,支持单条/批量推理,还能实现“先设计音色再克隆固化”的组合玩法;
  2. 本地Web UI演示:安装包后通过简单命令即可启动本地Gradio Demo,支持可视化操作,Base模型还提供HTTPS部署方案,规避浏览器麦克风权限问题;
  3. vLLM高效部署:vllm社区为其提供首日适配,支持vLLM-Omni离线推理,后续还将上线在线服务,持续优化推理速度与流式能力,同时支持批量推理;
  4. API调用:提供阿里云DashScope实时API,兼顾便捷性与高效性;
  5. 手动下载与微调:支持通过ModelScope/Hugging Face手动下载模型权重,开源代码提供详细微调教程,满足个性化定制需求。

此外,自研的Qwen3-TTS-Tokenizer-12Hz也单独开源,支持音频的编码/解码,可用于语音传输、模型训练等下游任务,支持本地文件、URL、base64等多种输入格式。

未来规划:持续深耕,诚邀共建生态

通义千问团队表示,在TTS领域的深入研发中发现仍有大量未被挖掘的机会,未来将持续打造顶尖的TTS算法、基础模型与应用,同时欢迎开发者试用Qwen3-TTS系列模型,也向有追求的技术同学发出邀请,加入团队共同深耕语音生成领域。

快速获取与体验

  • 开源地址:GitHub/QwenLM/Qwen3-TTS
  • 模型下载:支持ModelScope/Hugging Face自动下载/手动下载
  • 在线Demo:Hugging Face、ModelScope均提供在线演示,可直接体验语音设计、克隆等能力
  • 技术文档:GitHub仓库、官方Blog、论文中提供详细模型介绍、使用教程与技术细节

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询