微信扫码
添加专属顾问
我要投稿
阿里云通义千问团队开源Qwen3-TTS系列,带来多语言语音生成的全新突破,支持音色定制与智能控制,性能全面领先。 核心内容: 1. Qwen3-TTS系列模型开源,覆盖10种语言与方言音色 2. 商业级VoiceDesign模型实现自然语言定制音色 3. 四大技术优势:高效语音表征、端到端架构、低延迟流式推理、智能文本理解
2026年1月22日,阿里云通义千问团队正式开源Qwen3-TTS全系列语音生成模型,代码与模型权重已上架GitHub,同时提供Hugging Face、ModelScope双平台Demo及详细技术文档/论文,该系列凭借全功能覆盖、多语言支持、极致推理性能成为目前开源生态中最全面的TTS解决方案,还与vllm社区达成首日适配,为开发者提供高效部署支持。
本次开源的Qwen3-TTS包含0.6B/1.7B两个参数量级,共5个模型,核心实现语音设计、音色克隆、定制音色生成三大核心能力,且全系列搭载自研的Qwen3-TTS-Tokenizer-12Hz分词器,开源代码原生支持微调,所有模型均实现10种语言(中、英、日、韩、德、法、俄、葡、西、意)自由切换,各语言在相关基准测试中均达到SOTA水平,还覆盖多种方言音色,满足全球化应用需求。
本次开源的最大亮点是Qwen3-TTS-12Hz-1.7B-VoiceDesign商业级音色/语音控制模型,支持通过自然语言自由描述定制音色,打破了传统TTS需通过克隆实现新音色的限制。用户可通过文字指令定义音色的性别、年龄、情绪、口音甚至说话风格,生成专属定制音色;若搭配音色克隆模型,还能将生成的定制音色固化,实现独有的专属音色长期使用,玩法与定制灵活性大幅提升。
Qwen3-TTS在底层架构与性能上做了多重创新,兼顾生成效果、推理速度与实用性,核心技术优势体现在四方面:
本次开源的5个模型分工明确,覆盖从基础生成到高级定制的全场景需求,且均支持流式推理:
为降低开发者使用门槛,Qwen3-TTS提供多种便捷的使用与部署方式,零基础也能快速上手:
此外,自研的Qwen3-TTS-Tokenizer-12Hz也单独开源,支持音频的编码/解码,可用于语音传输、模型训练等下游任务,支持本地文件、URL、base64等多种输入格式。
通义千问团队表示,在TTS领域的深入研发中发现仍有大量未被挖掘的机会,未来将持续打造顶尖的TTS算法、基础模型与应用,同时欢迎开发者试用Qwen3-TTS系列模型,也向有追求的技术同学发出邀请,加入团队共同深耕语音生成领域。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-09
OpenAI 刚开源了 Symphony:以后写代码,你只需要拖工单就行了
2026-03-08
【开源】98.4K star,OpenCode + Agent Browser:让 AI 帮你完成浏览器自动化测试,会打字就能完成
2026-03-07
Release News - Ollama v0.17.7
2026-03-07
苹果画了2年的饼,小米先吃上了……
2026-03-06
DeepSeek V4 本周登场:万亿参数只是开胃菜,真正的大招在后面
2026-03-06
ollama v0.17.6 发布:重大解析修复与 Qwen3.5 完整支持,全链路优化模型渲染与工具调用
2026-03-06
Codex重磅更新:在CLI中语音Vibe Coding
2026-03-05
AReaL v1.0 正式发布:面向 Agent 的全异步强化学习训练框架
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2025-12-22
2026-01-28
2026-01-21
2025-12-10
2025-12-23
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16