我要投稿

首发实测智谱 GLM-TTS：3秒克隆我的声音，连「哎等等这bug怎么回事」都学会了

发布日期：2025-12-11 15:07:45 浏览次数： 2221

作者：五道口手工川

微信搜一搜，关注“五道口手工川”

TTS 赛道又卷起来了。

今天，智谱正式开源了 GLM-TTS —— 一套工业级语音合成系统。

如果你对「AI 语音」这几个字不感冒，建议留下来看看。

文字说多了没用，语音这东西，得听。

01
先听效果

听完什么感觉？

这是我录了一段话，然后用 GLM-TTS 克隆我的声音后生成的。

如果我不说，你能听出来哪个是 AI 吗？

我专门设计了一段带语气词和情绪转折的文案来测试：

重点来了——那句「哎，等等，这个 bug 怎么回事……哦，路径写错了」，语气转折、停顿、恍然大悟的感觉，全都在。

这不是机械地念字，这是在「表演」。

02
我是怎么测的

打开 audio.z.ai，首页长这样：

登录支持邮箱、Google 和 GitHub，界面基于 Open WebUI 构建，挺清爽的。

默认提供三种声音，但重点是——你可以克隆自己的声音。

点「创建音色」，支持上传文件或直接录音：

我的录音环境是茶馆，有点小杂音，用的电脑浏览器 + AirPods，能听清但不算特别清晰。

点击克隆，十几秒就完成了：

克隆成功后就在你的音色库里了：

实测下来，确实像。

不过有个小 bug：生成的声音里偶尔会有听不到声音的片段。希望后续能修。

03
整点活：
让我念丘吉尔

光测中文不过瘾，我又用克隆后的声音念了段丘吉尔的「至暗时刻」：

We shall not flag or fail. 

We shall go on to the end! 

We shall fight in France. 

We shall fight on the seas and the oceans. 

We shall fight with growing confidence and growing strength in the air.

效果你们自己感受：

用我的声音念英文演讲词，这个违和感……有点上头。

04
技术上到底强在哪？

聊完体验，说说技术。GLM-TTS 这次有几个点让我印象深刻：

训练效率炸裂

10 万小时训练数据（行业主流商用模型动辄百万小时）
单机 4 天预训练就能达到开源 SOTA
精品音色 LoRA 微调 1 天搞定

什么概念？以前训个能打的 TTS 模型是大厂专属，现在中小团队甚至独立开发者也能玩了。

情感表达吊打竞品

这是最让我惊讶的。

智谱公布了一个评测结果：在 CV3-eval-emotion 情感测试集上，GLM-TTS 在「开心」「悲伤」「愤怒」三个维度都是 SOTA。

而阿里 Qwen3-TTS、百度超拟人 TTS、豆包 TTS-2.0 在悲伤和愤怒维度几乎没有有效输出（得分接近 0）。

为什么？

我猜是训练数据的问题。大部分 TTS 数据集里，负面情绪的样本本来就少，或者厂商出于某种考虑刻意回避。但智谱这次用 GRPO 强化学习专门优化了情感表达，把「笑声」都作为奖励维度之一。

GRPO (Group Relative Policy Optimization)

智谱在 TTS 领域引入的强化学习算法，融合了字符错误率、音色相似度、情感表达、笑声副语言四个维度的奖励机制。这是让 AI「会表达」而不只是「会念字」的关键。

对于有声书、游戏配音、短剧这些需要丰富情感的场景，这个突破意义重大。

方言也能克隆

技术报告里提到，Speech Tokenizer 新增了海量方言语料，支持四川话、东北话等。

这对中国市场太重要了——想象一下用你老家方言做的有声书，那个亲切感。

多音字不再翻车

传统 TTS 最头疼的就是多音字。「行」是 xíng 还是 háng？「长」是 cháng 还是 zhǎng？

GLM-TTS 搞了个 Phoneme-in 机制，你可以通过动态词典强制指定发音。教育、评测这些对准确度要求极高的场景，终于不用再手动校对了。

05
和字节比怎么样？

在6月的时候，我们有深度使用豆包实时端到端语音系统，还基于它为友商搭建一个商业化Agent产品，并开源了核心代码，参考我们之前的文章：2025 AI 语音对话系统，从级联到端到端。

手工川交付某集成语音控制合作项目初始设计架构

手工川计划开源人机交互系统，同时支持级联、端到端、视频、手势识别

以及之前豆包语音 2.0 出来的时候我也测过，那个细节描述控制情绪的玩法确实惊艳。

但 GLM-TTS 的优势在于：开源。

豆包是商用闭源，你只能调 API
GLM-TTS 是 Apache License，模型权重、推理代码全开放

对于想自己部署、二次开发、或者对数据隐私有要求的场景，GLM-TTS 是目前开源领域的最优解。

而且智谱还同时发布了 GLM-ASR（语音识别）和智谱 AI 输入法。TTS + ASR = 完整的语音交互闭环。

特别是那个输入法里的 Vibe Coding 功能——用语音输入代码逻辑、查 Linux 指令、让 AI 帮你写脚本。这不就是我一直在研究的方向吗？

06
体验地址

想试的直接戳：

在线体验

audio.z.ai^[1] —— 上传文本或录音，生成专属声音
智谱清言 APP / 网页版^[2] —— 在对话中体验

开源资源（Apache License）

GitHub^[3]
Hugging Face^[4]
魔搭社区^[5]

API 接入

开放平台文档^[6]

智谱 AI 输入法

下载地址^[7]（Mac/Windows）

07
写在最后

测完这一圈，我最大的感受是什么？

是边界感的模糊。

以前我们说 AI 语音，第一反应是「机械」「念课文」「AI 味」。但现在，当 AI 能学会「哎等等这 bug 怎么回事」的语气转折，能在悲伤和愤怒的情绪里游刃有余，能用你的声音念出你都没组织好的话——

AI 和人在声音上的边界，真的在消失。

对于我们这些内容创作者来说，这意味着什么？

有声书可以批量生产了，播客可以用 AI 分身了，技术视频的旁白不用再自己录了。

当然，也意味着「声音」这个曾经最私人的东西，正在变成一种可复制、可编程的数字资产。

这是好事还是坏事？我不知道。

但我知道的是，这个趋势不可逆。

与其焦虑，不如先玩起来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-12

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-11

Gemini Embedding 2：首个原生五模态 embedding 模型

2026-03-11

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

2026-03-11

谷歌首个原生多模态向量模型发布：Agent 可以用文字搜图片、用图片搜视频了...

2026-03-05

零帧起手 Codex × Figma 双向工作流实操

2026-02-27

NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

2026-02-25

AI真人数字人语音对话性能优化实践总结

2026-02-13

“思考”更深，生成更准｜Seedream 5.0 Lite 发布

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

Seedance 2.0 正式发布

2026-02-12

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

2026-01-27

KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理“知其然，更知其所以然”

2026-01-16

Seedance 2.0上线火山方舟体验中心，API即将开放

2026-02-12

面向业务落地的AI产品评测体系设计与平台实现

2025-12-17

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

首发实测智谱 GLM-TTS：3秒克隆我的声音，连「哎等等这bug怎么回事」都学会了

01先听效果

02我是怎么测的

03整点活：让我念丘吉尔

04技术上到底强在哪？

训练效率炸裂

情感表达吊打竞品

方言也能克隆

多音字不再翻车

05和字节比怎么样？

06体验地址

07写在最后

01
先听效果

02
我是怎么测的

03
整点活：
让我念丘吉尔

04
技术上到底强在哪？

05
和字节比怎么样？

06
体验地址

07
写在最后