我要投稿

OpenClaw 语音功能实战：让 AI 开口说话

发布日期：2026-04-14 08:38:28 浏览次数： 1904

作者：从0到AI

微信搜一搜，关注“从0到AI”

我有个习惯，早上刷手机的时候不太想看文字。

眼睛还没睡醒，脑子也转得慢。如果 AI 能直接把回答念给我听，感觉会顺很多。

后来我在 OpenClaw 里发现了 TTS（文字转语音）功能，顺手配了一下，现在每天早上问它几个问题，它直接用语音回我——挺好用的，分享一下怎么弄。

OpenClaw 的 TTS 是怎么工作的？

OpenClaw 的语音功能，本质上是把 AI 的文字回复转换成音频，然后作为语音消息发出来。

在 Telegram 上，它会直接发一个圆形语音气泡，点击就能播放，跟朋友发语音条的效果一样。在其他平台，会发送一个 MP3 文件。

它支持三个语音服务：

ElevenLabs —— 音质最好，声音非常自然，有情绪感。有付费套餐，但免费额度也够个人用。

OpenAI TTS —— 音质很好，声音清晰稳定。如果你已经有 OpenAI API Key，直接用就行。

Edge TTS —— 微软的神经语音服务，完全免费，不需要 API Key。音质没有前两个好，但胜在零成本，平时用够了。

如果你什么 Key 都没配，OpenClaw 会自动用 Edge TTS 兜底，不会报错，直接就能用。

五分钟配好语音功能

打开 openclaw.json，找到 messages 这个字段，加进去：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always"    }  }}

就这一行配置，保存重启，AI 回复就会自动附带语音了。

auto 有四个值：

off —— 关闭（默认）
always —— 每次回复都发语音
inbound —— 只有你发语音过来，它才用语音回
tagged —— 只有 AI 主动标记了才发语音（适合只在特定场景用语音）

我平时用 always，因为懒。

免费用：Edge TTS 配置

什么都不用，直接开：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge"    }  }}

想指定声音？Edge TTS 有很多中文语音：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge",      "edge": {        "voice": "zh-CN-XiaoxiaoNeural",        "lang": "zh-CN",        "rate": "+5%"      }    }  }}

zh-CN-XiaoxiaoNeural 是女声，声音比较温和自然。还有 zh-CN-YunxiNeural（男声）、zh-CN-XiaohanNeural（女声，风格更活泼）等等。

rate 控制语速，+5% 稍微快一点点，不想听太慢的话可以调到 +10% 到 +20%。

音质要求高：OpenAI TTS

如果你有 OpenAI API Key，音质会好很多：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "model": "gpt-4o-mini-tts",        "voice": "alloy"      }    }  }}

OpenAI 有六个声音：alloy、echo、fable、onyx、nova、shimmer。

我个人比较喜欢 nova，稍微暖一些，听起来不那么机械。

模型用 gpt-4o-mini-tts 就够了，价格比完整版便宜，质量没差太多。

音质要求极高：ElevenLabs

ElevenLabs 的声音是目前最自然的，有情绪变化，听起来更像真人：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "elevenlabs",      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "你的声音ID",        "modelId": "eleven_multilingual_v2"      }    }  }}

voiceId 在 ElevenLabs 后台找，选一个你喜欢的声音复制 ID 填进来。

eleven_multilingual_v2 支持中文，发音挺准的。

ElevenLabs 每月有一定免费额度，个人日常使用基本够用，如果用量大了再考虑付费。

主备切换：用了就不用担心中断

OpenClaw 支持配一个主要服务 + 自动备用：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "voice": "nova"      },      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "your-voice-id"      }    }  }}

OpenAI 出问题，自动切 ElevenLabs；ElevenLabs 也挂了，再切 Edge TTS。

三层备用，基本不会遇到语音功能完全失效的情况。

长文章怎么处理？

有时候 AI 的回复很长，全部转成语音会很大一段，听起来也累。

OpenClaw 有自动摘要功能，超过一定长度的回复，会先生成一个简短摘要，再把摘要转成语音：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "summaryModel": "openai/gpt-4o-mini"    }  }}

默认摘要阈值是 1500 个字符。超过这个长度，OpenClaw 会自动用 summaryModel 先把回复压缩，再发语音。

如果你不想要摘要，就发指令关掉：

ounter(line/tts summary off

用斜杠命令临时控制

不想改配置文件，也可以在聊天里直接控制：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line/tts always       # 开启语音/tts off          # 关闭语音/tts inbound      # 只在我发语音时才回语音/tts status       # 查看当前状态/tts provider openai   # 临时切换语音提供商/tts limit 2000   # 改摘要阈值/tts audio 你好，这是一条测试语音   # 单次生成语音，不影响设置

这些命令是实时生效的，不用重启服务。