我要投稿

Qwen3-TTS全家桶正式全面开源，一站式解锁多语言语音生成全能力

发布日期：2026-01-23 00:22:16 浏览次数： 3127

作者：Ai-learn SIG

微信搜一搜，关注“Ai-learn SIG”

2026年1月22日，阿里云通义千问团队正式开源Qwen3-TTS全系列语音生成模型，代码与模型权重已上架GitHub，同时提供Hugging Face、ModelScope双平台Demo及详细技术文档/论文，该系列凭借全功能覆盖、多语言支持、极致推理性能成为目前开源生态中最全面的TTS解决方案，还与vllm社区达成首日适配，为开发者提供高效部署支持。

本次开源的Qwen3-TTS包含0.6B/1.7B两个参数量级，共5个模型，核心实现语音设计、音色克隆、定制音色生成三大核心能力，且全系列搭载自研的Qwen3-TTS-Tokenizer-12Hz分词器，开源代码原生支持微调，所有模型均实现10种语言（中、英、日、韩、德、法、俄、葡、西、意）自由切换，各语言在相关基准测试中均达到SOTA水平，还覆盖多种方言音色，满足全球化应用需求。

核心创新：商业级VoiceDesign模型，实现“所想即所听”

本次开源的最大亮点是Qwen3-TTS-12Hz-1.7B-VoiceDesign商业级音色/语音控制模型，支持通过自然语言自由描述定制音色，打破了传统TTS需通过克隆实现新音色的限制。用户可通过文字指令定义音色的性别、年龄、情绪、口音甚至说话风格，生成专属定制音色；若搭配音色克隆模型，还能将生成的定制音色固化，实现独有的专属音色长期使用，玩法与定制灵活性大幅提升。

四大技术优势，打造工业级TTS体验

Qwen3-TTS在底层架构与性能上做了多重创新，兼顾生成效果、推理速度与实用性，核心技术优势体现在四方面：

高效语音表征：自研分词器实现高效声学压缩与高维语义建模，完整保留语音的副语言信息和声学环境特征，通过轻量非DiT架构实现高速高保真语音重建；
端到端通用架构：采用离散多码本LM架构，规避传统LM+DiT方案的信息瓶颈与级联误差，大幅提升模型通用性、生成效率与性能上限；
极致低延迟流式推理：创新双轨混合流式生成架构，单模型同时支持流式/非流式生成，单字输入即可立即输出首个音频包，端到端合成延迟低至97ms，满足实时交互场景的严苛要求，且流式推理性能拉满，模型稳定性优异（数字类TN场景除外）；
智能文本理解与语音控制：具备强上下文理解能力，可根据文字语义与指令自适应调节语气、语速、情绪，对含噪输入文本的鲁棒性大幅提升，语音表达力丰富，生成效果达到甚至超越多家企业商用产品水平。

全能力覆盖，五大模型各有专攻

本次开源的5个模型分工明确，覆盖从基础生成到高级定制的全场景需求，且均支持流式推理：

1.7B-VoiceDesign：核心语音设计模型，自然语言指令定制音色/语音；
1.7B/0.6B-CustomVoice：定制音色生成，支持通过指令对目标音色做风格控制，内置9种优质音色（覆盖不同性别、年龄、语言/方言）；
1.7B/0.6B-Base：基础模型，支持3秒音频快速音色克隆，也可作为基础模型微调其他TTS模型。

极简上手，多方式支持快速使用与部署

为降低开发者使用门槛，Qwen3-TTS提供多种便捷的使用与部署方式，零基础也能快速上手：

Python包快速调用：可通过PyPI安装qwen-tts包，一行代码实现定制语音、语音设计、音色克隆，支持单条/批量推理，还能实现“先设计音色再克隆固化”的组合玩法；
本地Web UI演示：安装包后通过简单命令即可启动本地Gradio Demo，支持可视化操作，Base模型还提供HTTPS部署方案，规避浏览器麦克风权限问题；
vLLM高效部署：vllm社区为其提供首日适配，支持vLLM-Omni离线推理，后续还将上线在线服务，持续优化推理速度与流式能力，同时支持批量推理；
API调用：提供阿里云DashScope实时API，兼顾便捷性与高效性；
手动下载与微调：支持通过ModelScope/Hugging Face手动下载模型权重，开源代码提供详细微调教程，满足个性化定制需求。