微信扫码
添加专属顾问
我要投稿
通义Qwen-TTS方言语音合成效果惊艳,北京爷们唠嗑、成都妹子"劳资蜀道山"都能以假乱真,AI语音技术迎来新突破! 核心内容: 1. Qwen-TTS支持京沪川方言及英文,300万小时语料训练实现人类级自然度 2. 阿里云百炼平台提供180天100万token免费额度,API调用简单高效 3. 提供实时流式播放和文件下载两种调用方式,适配不同对话场景需求
感谢阅读,我是江枫,专注AI工具/智能体/AI编程, 文末有福利赠送
在语音TTS方面,国产能打的不多,海螺Minimax是其中的佼佼者。但随着各种AI应用的落地,AI生成语音是个非常大的市场,就比如AI陪伴玩具,如果能带上各地方言,这样的陪伴将会更具象化
现在除了海螺和豆包,通义也开始杀进这个蓝海市场,就在前几天,通义发布了Qwen-TTS.
通过API调用,目前支持北京,上海和四川话三种方言,更多的方言还在添加中。
成都妹子的劳资蜀道山
北京爷们的唠嗑
上海吴侬软语
英文发音
怎么样,效果是不是很赞,已经很难听出到底是人声还是AI生成的了
Qwen-TTS 使用了超过 300 万小时的大规模语料库进行训练,合成效果实现了人类级别的自然度和表现力。并且还能根据文本调整节奏和情绪变化。
使用方法很简单,下面2步就可以搞定
01
第一步:申请API key
登录阿里百炼云,在我的页签(下图位置①)下单击创建我的API-KEY
然后复制自己的API-key, 后面代码的调用会用到。
价格如下,开通百炼云180天内,有100万的token额度免费送
02
第二步:代码调用
目前只开通了API的调用方式,通义也给出了源码。有两种场景的调用方式
1 生成后,通过URL进行下载音频文件
2 一边生成,一边播放,最后下载音频文件,很适合对话场景。
第一种场景代码
import osimport timeimport requestsimport dashscopetext="你们莫以为成都妹儿都是劳资蜀道山!其实多数还是很温柔的,哥老官些莫着网上那些误导了,哎,哎,哎,那几个横穿马路的瘟神,赶快停下来,劳资蜀道山"response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model="qwen-tts-latest", api_key='你的api秘钥', text=text, voice="Sunny",)time.sleep(10)audio_url = response.output.audio["url"]save_path = "downloaded_audio.wav" # 自定义保存路径try: response = requests.get(audio_url) response.raise_for_status() # 检查请求是否成功 with open(save_path, 'wb') as f: f.write(response.content) print(f"音频文件已保存至:{save_path}")except Exception as e: print(f"下载失败:{str(e)}")
第二种场景代码
import osimport dashscopeimport pyaudioimport timeimport base64import numpy as npp = pyaudio.PyAudio()# 创建音频流stream = p.open(format=pyaudio.paInt16, channels=1, rate=24000, output=True)text = "你好啊,我是通义千问"responses = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model="qwen-tts", api_key="你的api密钥", text=text, voice="Ethan", stream=True)for chunk in responses: audio_string = chunk["output"]["audio"]["data"] wav_bytes = base64.b64decode(audio_string) audio_np = np.frombuffer(wav_bytes, dtype=np.int16) # 直接播放音频数据 stream.write(audio_np.tobytes())time.sleep(0.8)# 清理资源stream.stop_stream()stream.close()p.terminate()
最后,详细的解释参考官网介绍。
https://qwenlm.github.io/zh/blog/qwen-tts/
写在最后
AI陪伴目前是个非常火的赛道,不管是陪伴智能体还是陪伴机器人,语音都是绕不过去的坎。特别是通义支持变生成,变输出,完全满足对话场景。
希望通义能发布更多的地方语音接口,相信不久后,这个模型也会被开源。
#AI #AI工具 #通义 #TTS #语音克隆 #语音clone #大模型 #人工智能
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-04-11
2025-04-12
2025-04-06
2025-04-29
2025-04-12
2025-04-29
2025-05-07
2025-04-17
2025-05-07