微信扫码
添加专属顾问
我要投稿
GLM-TTS 3秒克隆你的声音,连语气词和情绪转折都能完美复刻,AI语音合成进入新纪元! 核心内容: 1. GLM-TTS 语音克隆效果实测:连「哎等等这bug怎么回事」的语气转折都能完美还原 2. 技术亮点:10万小时训练数据实现高效预训练,情感表达超越主流竞品 3. 应用场景:从中文日常对话到英文演讲,展现强大的语音合成能力
TTS 赛道又卷起来了。
今天,智谱正式开源了 GLM-TTS —— 一套工业级语音合成系统。
如果你对「AI 语音」这几个字不感冒,建议留下来看看。
文字说多了没用,语音这东西,得听。
听完什么感觉?
这是我录了一段话,然后用 GLM-TTS 克隆我的声音后生成的。
如果我不说,你能听出来哪个是 AI 吗?
我专门设计了一段带语气词和情绪转折的文案来测试:
重点来了——那句「哎,等等,这个 bug 怎么回事……哦,路径写错了」,语气转折、停顿、恍然大悟的感觉,全都在。
这不是机械地念字,这是在「表演」。
打开 audio.z.ai,首页长这样:
登录支持邮箱、Google 和 GitHub,界面基于 Open WebUI 构建,挺清爽的。
默认提供三种声音,但重点是——你可以克隆自己的声音。
点「创建音色」,支持上传文件或直接录音:
我的录音环境是茶馆,有点小杂音,用的电脑浏览器 + AirPods,能听清但不算特别清晰。
点击克隆,十几秒就完成了:
克隆成功后就在你的音色库里了:
实测下来,确实像。
不过有个小 bug:生成的声音里偶尔会有听不到声音的片段。希望后续能修。
光测中文不过瘾,我又用克隆后的声音念了段丘吉尔的「至暗时刻」:
We shall not flag or fail.
We shall go on to the end!
We shall fight in France.
We shall fight on the seas and the oceans.
We shall fight with growing confidence and growing strength in the air.
效果你们自己感受:
用我的声音念英文演讲词,这个违和感……有点上头。
聊完体验,说说技术。GLM-TTS 这次有几个点让我印象深刻:
什么概念?以前训个能打的 TTS 模型是大厂专属,现在中小团队甚至独立开发者也能玩了。
这是最让我惊讶的。
智谱公布了一个评测结果:在 CV3-eval-emotion 情感测试集上,GLM-TTS 在「开心」「悲伤」「愤怒」三个维度都是 SOTA。
而阿里 Qwen3-TTS、百度超拟人 TTS、豆包 TTS-2.0 在悲伤和愤怒维度几乎没有有效输出(得分接近 0)。
为什么?
我猜是训练数据的问题。大部分 TTS 数据集里,负面情绪的样本本来就少,或者厂商出于某种考虑刻意回避。但智谱这次用 GRPO 强化学习专门优化了情感表达,把「笑声」都作为奖励维度之一。
智谱在 TTS 领域引入的强化学习算法,融合了字符错误率、音色相似度、情感表达、笑声副语言四个维度的奖励机制。这是让 AI「会表达」而不只是「会念字」的关键。
对于有声书、游戏配音、短剧这些需要丰富情感的场景,这个突破意义重大。
技术报告里提到,Speech Tokenizer 新增了海量方言语料,支持四川话、东北话等。
这对中国市场太重要了——想象一下用你老家方言做的有声书,那个亲切感。
传统 TTS 最头疼的就是多音字。「行」是 xíng 还是 háng?「长」是 cháng 还是 zhǎng?
GLM-TTS 搞了个 Phoneme-in 机制,你可以通过动态词典强制指定发音。教育、评测这些对准确度要求极高的场景,终于不用再手动校对了。
在6月的时候,我们有深度使用豆包实时端到端语音系统,还基于它为友商搭建一个商业化Agent产品,并开源了核心代码,参考我们之前的文章:2025 AI 语音对话系统,从级联到端到端。
手工川交付某集成语音控制合作项目初始设计架构
手工川计划开源人机交互系统,同时支持级联、端到端、视频、手势识别
以及之前豆包语音 2.0 出来的时候我也测过,那个细节描述控制情绪的玩法确实惊艳。
但 GLM-TTS 的优势在于:开源。
对于想自己部署、二次开发、或者对数据隐私有要求的场景,GLM-TTS 是目前开源领域的最优解。
而且智谱还同时发布了 GLM-ASR(语音识别)和智谱 AI 输入法。TTS + ASR = 完整的语音交互闭环。
特别是那个输入法里的 Vibe Coding 功能——用语音输入代码逻辑、查 Linux 指令、让 AI 帮你写脚本。这不就是我一直在研究的方向吗?
想试的直接戳:
在线体验
开源资源(Apache License)
API 接入
智谱 AI 输入法
测完这一圈,我最大的感受是什么?
是边界感的模糊。
以前我们说 AI 语音,第一反应是「机械」「念课文」「AI 味」。但现在,当 AI 能学会「哎等等这 bug 怎么回事」的语气转折,能在悲伤和愤怒的情绪里游刃有余,能用你的声音念出你都没组织好的话——
AI 和人在声音上的边界,真的在消失。
对于我们这些内容创作者来说,这意味着什么?
有声书可以批量生产了,播客可以用 AI 分身了,技术视频的旁白不用再自己录了。
当然,也意味着「声音」这个曾经最私人的东西,正在变成一种可复制、可编程的数字资产。
这是好事还是坏事?我不知道。
但我知道的是,这个趋势不可逆。
与其焦虑,不如先玩起来。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-11
Qwen3-Omni新升级:声形意合,令出智随!
2025-12-11
硅基流动上线智谱视觉模型 GLM-4.6V
2025-12-11
GLM-TTS技术报告:基于多奖励强化学习的可控发音语音合成
2025-12-11
Qwen3-TTS全面升级:声情并茂,语通八方
2025-12-09
Ming-Flash-Omni 音视图文全模态技术报告解读 —— 一为全,全为一
2025-12-07
阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!
2025-12-06
微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!
2025-12-03
Step-Audio-R1 技术报告解析
2025-09-19
2025-11-10
2025-10-22
2025-09-25
2025-10-31
2025-12-06
2025-09-17
2025-11-03
2025-12-07
2025-11-19
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05