我要投稿

通义发布的Qwen-TTS太绝了，劳资蜀道山都能说得这么溜

发布日期：2025-07-02 20:58:10 浏览次数： 2287

作者：程序猿玩AI

微信搜一搜，关注“程序猿玩AI”

感谢阅读，我是江枫，专注AI工具/智能体/AI编程, 文末有福利赠送

在语音TTS方面，国产能打的不多，海螺Minimax是其中的佼佼者。但随着各种AI应用的落地，AI生成语音是个非常大的市场，就比如AI陪伴玩具，如果能带上各地方言，这样的陪伴将会更具象化

现在除了海螺和豆包，通义也开始杀进这个蓝海市场，就在前几天，通义发布了Qwen-TTS.

通过API调用，目前支持北京，上海和四川话三种方言，更多的方言还在添加中。

成都妹子的劳资蜀道山

北京爷们的唠嗑

上海吴侬软语

英文发音

怎么样，效果是不是很赞，已经很难听出到底是人声还是AI生成的了

Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练，合成效果实现了人类级别的自然度和表现力。并且还能根据文本调整节奏和情绪变化。

使用方法很简单，下面2步就可以搞定

第一步：申请API key

登录阿里百炼云，在我的页签（下图位置①）下单击创建我的API-KEY

然后复制自己的API-key, 后面代码的调用会用到。

价格如下，开通百炼云180天内，有100万的token额度免费送

第二步：代码调用

目前只开通了API的调用方式，通义也给出了源码。有两种场景的调用方式

1 生成后，通过URL进行下载音频文件

2 一边生成，一边播放，最后下载音频文件，很适合对话场景。

第一种场景代码

import osimport timeimport requestsimport dashscopetext="你们莫以为成都妹儿都是劳资蜀道山！其实多数还是很温柔的，哥老官些莫着网上那些误导了，哎，哎，哎，那几个横穿马路的瘟神，赶快停下来，劳资蜀道山"response = dashscope.audio.qwen_tts.SpeechSynthesizer.call(    model="qwen-tts-latest",    api_key='你的api秘钥',    text=text,    voice="Sunny",)time.sleep(10)audio_url = response.output.audio["url"]save_path = "downloaded_audio.wav"  # 自定义保存路径try:    response = requests.get(audio_url)    response.raise_for_status()  # 检查请求是否成功    with open(save_path, 'wb') as f:        f.write(response.content)    print(f"音频文件已保存至：{save_path}")except Exception as e:    print(f"下载失败：{str(e)}")

第二种场景代码

import osimport dashscopeimport pyaudioimport timeimport base64import numpy as npp = pyaudio.PyAudio()# 创建音频流stream = p.open(format=pyaudio.paInt16,                channels=1,                rate=24000,                output=True)text = "你好啊，我是通义千问"responses = dashscope.audio.qwen_tts.SpeechSynthesizer.call(    model="qwen-tts",    api_key="你的api密钥",    text=text,    voice="Ethan",    stream=True)for chunk in responses:    audio_string = chunk["output"]["audio"]["data"]    wav_bytes = base64.b64decode(audio_string)    audio_np = np.frombuffer(wav_bytes, dtype=np.int16)    # 直接播放音频数据    stream.write(audio_np.tobytes())time.sleep(0.8)# 清理资源stream.stop_stream()stream.close()p.terminate()

最后，详细的解释参考官网介绍。

https://qwenlm.github.io/zh/blog/qwen-tts/

写在最后

AI陪伴目前是个非常火的赛道，不管是陪伴智能体还是陪伴机器人，语音都是绕不过去的坎。特别是通义支持变生成，变输出，完全满足对话场景。

希望通义能发布更多的地方语音接口，相信不久后，这个模型也会被开源。

#AI #AI工具 #通义 #TTS #语音克隆 #语音clone #大模型 #人工智能