微信扫码
添加专属顾问
我要投稿
阿里云通义千问团队开源Qwen3-TTS系列,带来多语言语音生成的全新突破,支持音色定制与智能控制,性能全面领先。核心内容: 1. Qwen3-TTS系列模型开源,覆盖10种语言与方言音色 2. 商业级VoiceDesign模型实现自然语言定制音色 3. 四大技术优势:高效语音表征、端到端架构、低延迟流式推理、智能文本理解
2026年1月22日,阿里云通义千问团队正式开源Qwen3-TTS全系列语音生成模型,代码与模型权重已上架GitHub,同时提供Hugging Face、ModelScope双平台Demo及详细技术文档/论文,该系列凭借全功能覆盖、多语言支持、极致推理性能成为目前开源生态中最全面的TTS解决方案,还与vllm社区达成首日适配,为开发者提供高效部署支持。
本次开源的Qwen3-TTS包含0.6B/1.7B两个参数量级,共5个模型,核心实现语音设计、音色克隆、定制音色生成三大核心能力,且全系列搭载自研的Qwen3-TTS-Tokenizer-12Hz分词器,开源代码原生支持微调,所有模型均实现10种语言(中、英、日、韩、德、法、俄、葡、西、意)自由切换,各语言在相关基准测试中均达到SOTA水平,还覆盖多种方言音色,满足全球化应用需求。
本次开源的最大亮点是Qwen3-TTS-12Hz-1.7B-VoiceDesign商业级音色/语音控制模型,支持通过自然语言自由描述定制音色,打破了传统TTS需通过克隆实现新音色的限制。用户可通过文字指令定义音色的性别、年龄、情绪、口音甚至说话风格,生成专属定制音色;若搭配音色克隆模型,还能将生成的定制音色固化,实现独有的专属音色长期使用,玩法与定制灵活性大幅提升。
Qwen3-TTS在底层架构与性能上做了多重创新,兼顾生成效果、推理速度与实用性,核心技术优势体现在四方面:
本次开源的5个模型分工明确,覆盖从基础生成到高级定制的全场景需求,且均支持流式推理:
为降低开发者使用门槛,Qwen3-TTS提供多种便捷的使用与部署方式,零基础也能快速上手:
此外,自研的Qwen3-TTS-Tokenizer-12Hz也单独开源,支持音频的编码/解码,可用于语音传输、模型训练等下游任务,支持本地文件、URL、base64等多种输入格式。
通义千问团队表示,在TTS领域的深入研发中发现仍有大量未被挖掘的机会,未来将持续打造顶尖的TTS算法、基础模型与应用,同时欢迎开发者试用Qwen3-TTS系列模型,也向有追求的技术同学发出邀请,加入团队共同深耕语音生成领域。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-22
AI应用上线就崩?你可能缺个“评测引擎”
2026-01-22
Anthropic正式开源了Claude的「灵魂」
2026-01-22
阿里又放大招了!AgentScope最适合做本地智能助手的智能体框架
2026-01-22
10B参数挑战200B!阶跃星辰开源多模态"小核弹"Step3-VL-10B
2026-01-22
抓个OpenAutoGLM来帮我做24小时在线的运维
2026-01-21
10B击败200B!阶跃星辰10B视觉语言SOTA模型开源
2026-01-21
8B模型媲美Claude?DeepResearch终于本地化了:拖入PDF,自动生成万字研报
2026-01-21
刷新 Google AlphaEvolve 进化结果,百度开源 Agent 开发框架 LoongFlow
2025-11-19
2025-10-27
2025-10-27
2025-12-22
2025-12-10
2025-11-17
2025-11-07
2025-10-29
2025-12-23
2026-01-06
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24
2025-12-22
2025-11-12