免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!

发布日期:2025-12-07 08:03:40 浏览次数: 1589
作者:开源星探

微信搜一搜,关注“开源星探”

推荐语

阿里通义团队最新推出的Qwen3-TTS,以49种角色化音色+9种方言支持,重新定义了文本转语音的标准。

核心内容:
1. 49种高保真角色化音色,覆盖各类内容创作场景
2. 支持10种语言+9种方言,语音自然度行业领先
3. 智能韵律调节系统,实现拟人化语音表达

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

最近 TTS 领域是真的越来越卷了,国内外各个互联网大厂轮番上阵。

阿里通义(Qwen)团队最近在开源界简直是“劳模”级别的存在,这边又悄悄上新了全新的 Qwen3-TTS

而且一出手就明显是冲着「自然度 + 多音色 + 多语言」这一代标准去的。

Qwen3-TTS 是阿里 Qwen 系列最新一代文本转语音模型,主打三件事:

  • • 更拟人的语音表达
  • • 更丰富、可用的音色体系
  • • 更强的多语言 + 多方言能力

这是一个更会说话、更像真人、也更适合内容创作与虚拟角色的 TTS 模型。

主要特色

1、49 种高保真音色

这次 Qwen3-TTS 的音色体系明显是认真重新打磨过的。

不只是「男声/女声/老年/童声」这种基础划分,而是已经具备角色化倾向。

比如下面这些非常有画面感的音色👇

  • • 「茉兔」:活泼、略带撒娇感,很适合短视频或虚拟主播
  • • 「十三」:傲娇、女汉子气质,情绪张力很强
  • • 「墨讲师」:稳重严肃,典型课程 / 知识型人设
  • • 「沧明子」:低沉、睿智,适合历史、人文、长内容
  • • 「萌小姬」:偏萝莉向,二次元或轻娱乐场景友好

这些音色已经不是“调调音高”,而是明显带说话习惯与表达风格。

这 49 个音色几乎就是现成的素材库。

2、10 种语言 + 9 种方言

✅ 10 种语言支持

包括:

  • • 中文 🇨🇳
  • • 英文 🇺🇸
  • • 德语 🇩🇪
  • • 法语 🇫🇷
  • • 西班牙语 🇪🇸
  • • 意大利语 🇮🇹
  • • 葡萄牙语 🇵🇹
  • • 日语 🇯🇵
  • • 韩语 🇰🇷
  • • 俄语 🇷🇺

在 MiniMax TTS multilingual test set 上:

Qwen3-TTS 的平均 WER 表现,优于 MiniMax/ElevenLabs/GPT-4o Audio Preview,对一个国产 TTS 来说,这个成绩非常能打。

✅ 9 种中文方言

  • • 普通话
  • • 粤语
  • • 闽南语
  • • 吴语
  • • 四川话
  • • 北京话
  • • 南京话
  • • 天津话
  • • 陕西话

并且不是机器味很重那种读方言词典,而是能保留真实语调与地域口音。

3、语速 & 韵律智能调节

相比上一代,Qwen3-TTS 最大的模型层面改进,其实在韵律控制。

可根据文本内容自动调整语速;情绪变化时韵律跟着变;还有陈述/转折/感叹,听得出来区别。

拟人化程度相比上一代 有明显感知级提升。

快速入手

Qwen3-TTS 的使用需通过 API 方式进行,而官方也给了抱抱脸和魔搭社区的Demo可体验不同的语言和音色。

大家可选择一个可访问的进行使用体验其效果。

如果需要 API 接入到自己的项目或应用中,可在阿里云百炼开通 API 进行使用。

示例代码:

# 请安装 DashScope SDK 的最新版本
import os
import requests
import dashscope
text = "那我来给大家推荐一款T恤,这款呢真的是超级好看,这个颜色呢很显气质,而且呢也是搭配的绝佳单品,大家可以闭眼入,真的是非常好看,对身材的包容性也很好,不管啥身材的宝宝呢,穿上去都是很好看的。推荐宝宝们下单哦。"
# SpeechSynthesizer接口使用方法:dashscope.audio.qwen_tts.SpeechSynthesizer.call(...)

response = dashscope.MultiModalConversation.call(
    model="qwen3-tts-flash-2025-11-27",
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    text=text,
    voice="Cherry",
    language_type="Chinese", # 建议与文本语种一致,以获得正确的发音和自然的语调。
    stream=False
)
audio_url = response.output.audio.url
save_path = "downloaded_audio.wav"  # 自定义保存路径
try:
    response = requests.get(audio_url)
    response.raise_for_status()  # 检查请求是否成功
    with open(save_path, 'wb') as f:
        f.write(response.content)
    print
(f"音频文件已保存至:{save_path}")
except Exception as e:
    print
(f"下载失败:{str(e)}")

写在最后

Qwen3-TTS 并不是想做最多功能的 TTS,而是选择把「像不像真人」这件事,往前推了一大步。

多音色、多语言、多方言只是表象,真正重要的是 — 语速、韵律、情绪,开始有「人味」了。

如果你正在做内容创作、虚拟角色、AI 助手、播客或本地化语音应用,这一代 Qwen3-TTS,非常值得认真试一下。

官方资源整理:

博客介绍:https://qwen.ai/blog?id=qwen3-tts-1128

Realtime API:https://modelstudio.console.alibabacloud.com/?modelId=qwen3-tts-flash-realtime-2025-11-27

Offline API:https://modelstudio.console.alibabacloud.com/?modelId=qwen3-tts-flash-2025-11-27

HF 在线 Demo:http://hf.co/spaces/Qwen/Qwen3-TTS-Demo

ModelScope Demo:http://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

 







如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询