微信扫码
添加专属顾问
我要投稿
阿里通义团队最新推出的Qwen3-TTS,以49种角色化音色+9种方言支持,重新定义了文本转语音的标准。核心内容: 1. 49种高保真角色化音色,覆盖各类内容创作场景 2. 支持10种语言+9种方言,语音自然度行业领先 3. 智能韵律调节系统,实现拟人化语音表达
最近 TTS 领域是真的越来越卷了,国内外各个互联网大厂轮番上阵。
阿里通义(Qwen)团队最近在开源界简直是“劳模”级别的存在,这边又悄悄上新了全新的 Qwen3-TTS。
而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。
Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型,主打三件事:
这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。
1、49 种高保真音色
这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。
不只是「男声/女声/老年/童声」这种基础划分,而是已经具备角色化倾向。
比如下面这些非常有画面感的音色👇
这些音色已经不是“调调音高”,而是明显带说话习惯与表达风格。
这 49 个音色几乎就是现成的素材库。
2、10 种语言 + 9 种方言
✅ 10 种语言支持
包括:
在 MiniMax TTS multilingual test set 上:
Qwen3-TTS 的平均 WER 表现,优于 MiniMax/ElevenLabs/GPT-4o Audio Preview,对一个国产 TTS 来说,这个成绩非常能打。
✅ 9 种中文方言
并且不是机器味很重那种读方言词典,而是能保留真实语调与地域口音。
3、语速 & 韵律智能调节
相比上一代,Qwen3-TTS 最大的模型层面改进,其实在韵律控制。
可根据文本内容自动调整语速;情绪变化时韵律跟着变;还有陈述/转折/感叹,听得出来区别。
拟人化程度相比上一代 有明显感知级提升。
Qwen3-TTS 的使用需通过 API 方式进行,而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。
大家可选择一个可访问的进行使用体验其效果。
如果需要 API 接入到自己的项目或应用中,可在阿里云百炼开通 API 进行使用。
示例代码:
# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)
response = dashscope.MultiModalConversation.call(
model="qwen3-tts-flash-2025-11-27",
api_key=os.getenv("DASHSCOPE_API_KEY"),
text=text,
voice="Cherry",
language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。
stream=False
)
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav" # 自定义保存路径
try:
response = requests.get(audio_url)
response.raise_for_status() # 检查请求是否成功
with open(save_path, 'wb') as f:
f.write(response.content)
print(f"音频文件已保存至:{save_path}")
except Exception as e:
print(f"下载失败:{str(e)}")
Qwen3-TTS 并不是想做最多功能的 TTS,而是选择把「像不像真人」这件事,往前推了一大步。
多音色、多语言、多方言只是表象,真正重要的是 — 语速、韵律、情绪,开始有「人味」了。
如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用,这一代 Qwen3-TTS,非常值得认真试一下。
官方资源整理:
博客介绍:https://qwen.ai/blog?id=qwen3-tts-1128
Realtime API:https://modelstudio.console.alibabacloud.com/?modelId=qwen3-tts-flash-realtime-2025-11-27
Offline API:https://modelstudio.console.alibabacloud.com/?modelId=qwen3-tts-flash-2025-11-27
HF 在线 Demo:http://hf.co/spaces/Qwen/Qwen3-TTS-Demo
ModelScope Demo:http://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo
如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-06
微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!
2025-12-03
Step-Audio-R1 技术报告解析
2025-11-20
Gemini多模态Prompt:风水堪舆大宗师(玄清道人)
2025-11-19
Sam Altman 祝贺 Gemini 3 是“阴阳怪气”?我写了个 Prompt 破案了...
2025-11-19
Gemini 3 多模态Prompt:手相宗师 - 玄师
2025-11-11
一场极卷的大模型PoC,吓退了大厂一大堆!
2025-11-10
谁是OCR王者?MinerU、PaddleOCR、DeepSeek-OCR 实测对比,集成一个多模态PDF解析系统
2025-11-03
Doc-Researcher:多模态文档解析准确率提升3.4倍
2025-09-19
2025-11-10
2025-10-22
2025-09-25
2025-10-31
2025-09-17
2025-11-03
2025-11-11
2025-11-19
2025-11-20
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05