免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

首发实测智谱 GLM-TTS:3秒克隆我的声音,连「哎等等这bug怎么回事」都学会了

发布日期:2025-12-11 15:07:45 浏览次数: 1577
作者:五道口手工川

微信搜一搜,关注“五道口手工川”

推荐语

GLM-TTS 3秒克隆你的声音,连语气词和情绪转折都能完美复刻,AI语音合成进入新纪元!

核心内容:
1. GLM-TTS 语音克隆效果实测:连「哎等等这bug怎么回事」的语气转折都能完美还原
2. 技术亮点:10万小时训练数据实现高效预训练,情感表达超越主流竞品
3. 应用场景:从中文日常对话到英文演讲,展现强大的语音合成能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

TTS 赛道又卷起来了。

今天,智谱正式开源了 GLM-TTS —— 一套工业级语音合成系统。

如果你对「AI 语音」这几个字不感冒,建议留下来看看。

文字说多了没用,语音这东西,得听。

01
先听效果

听完什么感觉?

这是我录了一段话,然后用 GLM-TTS 克隆我的声音后生成的。

如果我不说,你能听出来哪个是 AI 吗?

我专门设计了一段带语气词和情绪转折的文案来测试:

重点来了——那句「哎,等等,这个 bug 怎么回事……哦,路径写错了」,语气转折、停顿、恍然大悟的感觉,全都在

这不是机械地念字,这是在「表演」。

02
我是怎么测的

打开 audio.z.ai,首页长这样:

登录支持邮箱、Google 和 GitHub,界面基于 Open WebUI 构建,挺清爽的。

默认提供三种声音,但重点是——你可以克隆自己的声音

点「创建音色」,支持上传文件或直接录音:

我的录音环境是茶馆,有点小杂音,用的电脑浏览器 + AirPods,能听清但不算特别清晰。

点击克隆,十几秒就完成了:

克隆成功后就在你的音色库里了:

实测下来,确实像

不过有个小 bug:生成的声音里偶尔会有听不到声音的片段。希望后续能修。

03
整点活:
让我念丘吉尔

光测中文不过瘾,我又用克隆后的声音念了段丘吉尔的「至暗时刻」:

We shall not flag or fail. 

We shall go on to the end! 

We shall fight in France. 

We shall fight on the seas and the oceans. 

We shall fight with growing confidence and growing strength in the air. 

效果你们自己感受:

用我的声音念英文演讲词,这个违和感……有点上头。

04
技术上到底强在哪?

聊完体验,说说技术。GLM-TTS 这次有几个点让我印象深刻:

训练效率炸裂

  • 10 万小时训练数据(行业主流商用模型动辄百万小时)
  • 单机 4 天预训练就能达到开源 SOTA
  • 精品音色 LoRA 微调 1 天搞定

什么概念?以前训个能打的 TTS 模型是大厂专属,现在中小团队甚至独立开发者也能玩了。

情感表达吊打竞品

这是最让我惊讶的。

智谱公布了一个评测结果:在 CV3-eval-emotion 情感测试集上,GLM-TTS 在「开心」「悲伤」「愤怒」三个维度都是 SOTA。

阿里 Qwen3-TTS、百度超拟人 TTS、豆包 TTS-2.0 在悲伤和愤怒维度几乎没有有效输出(得分接近 0)。

为什么?

我猜是训练数据的问题。大部分 TTS 数据集里,负面情绪的样本本来就少,或者厂商出于某种考虑刻意回避。但智谱这次用 GRPO 强化学习专门优化了情感表达,把「笑声」都作为奖励维度之一。

GRPO (Group Relative Policy Optimization)

智谱在 TTS 领域引入的强化学习算法,融合了字符错误率、音色相似度、情感表达、笑声副语言四个维度的奖励机制。这是让 AI「会表达」而不只是「会念字」的关键。

对于有声书、游戏配音、短剧这些需要丰富情感的场景,这个突破意义重大。

方言也能克隆

技术报告里提到,Speech Tokenizer 新增了海量方言语料,支持四川话、东北话等。

这对中国市场太重要了——想象一下用你老家方言做的有声书,那个亲切感。

多音字不再翻车

传统 TTS 最头疼的就是多音字。「行」是 xíng 还是 háng?「长」是 cháng 还是 zhǎng?

GLM-TTS 搞了个 Phoneme-in 机制,你可以通过动态词典强制指定发音。教育、评测这些对准确度要求极高的场景,终于不用再手动校对了。

05
和字节比怎么样?

在6月的时候,我们有深度使用豆包实时端到端语音系统,还基于它为友商搭建一个商业化Agent产品,并开源了核心代码,参考我们之前的文章:2025 AI 语音对话系统,从级联到端到端。

手工川交付某集成语音控制合作项目初始设计架构

手工川交付某集成语音控制合作项目初始设计架构

手工川计划开源人机交互系统,同时支持级联、端到端、视频、手势识别

手工川计划开源人机交互系统,同时支持级联、端到端、视频、手势识别

以及之前豆包语音 2.0 出来的时候我也测过,那个细节描述控制情绪的玩法确实惊艳。

但 GLM-TTS 的优势在于:开源

  • 豆包是商用闭源,你只能调 API
  • GLM-TTS 是 Apache License,模型权重、推理代码全开放

对于想自己部署、二次开发、或者对数据隐私有要求的场景,GLM-TTS 是目前开源领域的最优解。

而且智谱还同时发布了 GLM-ASR(语音识别)和智谱 AI 输入法。TTS + ASR = 完整的语音交互闭环。

特别是那个输入法里的 Vibe Coding 功能——用语音输入代码逻辑、查 Linux 指令、让 AI 帮你写脚本。这不就是我一直在研究的方向吗?

06
体验地址

想试的直接戳:

在线体验

  • audio.z.ai[1] —— 上传文本或录音,生成专属声音
  • 智谱清言 APP / 网页版[2] —— 在对话中体验

开源资源(Apache License)

  • GitHub[3]
  • Hugging Face[4]
  • 魔搭社区[5]

API 接入

  • 开放平台文档[6]

智谱 AI 输入法

  • 下载地址[7](Mac/Windows)

07
写在最后

测完这一圈,我最大的感受是什么?

边界感的模糊

以前我们说 AI 语音,第一反应是「机械」「念课文」「AI 味」。但现在,当 AI 能学会「哎等等这 bug 怎么回事」的语气转折,能在悲伤和愤怒的情绪里游刃有余,能用你的声音念出你都没组织好的话——

AI 和人在声音上的边界,真的在消失。

对于我们这些内容创作者来说,这意味着什么?

有声书可以批量生产了,播客可以用 AI 分身了,技术视频的旁白不用再自己录了。

当然,也意味着「声音」这个曾经最私人的东西,正在变成一种可复制、可编程的数字资产。

这是好事还是坏事?我不知道。

但我知道的是,这个趋势不可逆

与其焦虑,不如先玩起来。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询