2026年4月16日 周五晚上19:30,来了解“从个人单点提效,到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

OpenClaw 语音功能实战:让 AI 开口说话

发布日期:2026-04-14 08:38:28 浏览次数: 1565
作者:从0到AI

微信搜一搜,关注“从0到AI”

推荐语

让AI开口说话,OpenClaw的语音功能让懒人也能享受智能生活!

核心内容:
1. OpenClaw TTS功能的三种语音服务对比
2. 五分钟快速配置语音功能的详细步骤
3. 不同语音触发模式的适用场景解析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

我有个习惯,早上刷手机的时候不太想看文字。

眼睛还没睡醒,脑子也转得慢。如果 AI 能直接把回答念给我听,感觉会顺很多。

后来我在 OpenClaw 里发现了 TTS(文字转语音)功能,顺手配了一下,现在每天早上问它几个问题,它直接用语音回我——挺好用的,分享一下怎么弄。


OpenClaw 的 TTS 是怎么工作的?

OpenClaw 的语音功能,本质上是把 AI 的文字回复转换成音频,然后作为语音消息发出来。

在 Telegram 上,它会直接发一个圆形语音气泡,点击就能播放,跟朋友发语音条的效果一样。在其他平台,会发送一个 MP3 文件。

它支持三个语音服务:

ElevenLabs —— 音质最好,声音非常自然,有情绪感。有付费套餐,但免费额度也够个人用。

OpenAI TTS —— 音质很好,声音清晰稳定。如果你已经有 OpenAI API Key,直接用就行。

Edge TTS —— 微软的神经语音服务,完全免费,不需要 API Key。音质没有前两个好,但胜在零成本,平时用够了。

如果你什么 Key 都没配,OpenClaw 会自动用 Edge TTS 兜底,不会报错,直接就能用。


五分钟配好语音功能

打开 openclaw.json,找到 messages 这个字段,加进去:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always"    }  }}

就这一行配置,保存重启,AI 回复就会自动附带语音了。

auto 有四个值:

  • off —— 关闭(默认)
  • always —— 每次回复都发语音
  • inbound —— 只有你发语音过来,它才用语音回
  • tagged —— 只有 AI 主动标记了才发语音(适合只在特定场景用语音)

我平时用 always,因为懒。


免费用:Edge TTS 配置

什么都不用,直接开:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge"    }  }}

想指定声音?Edge TTS 有很多中文语音:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "edge",      "edge": {        "voice": "zh-CN-XiaoxiaoNeural",        "lang": "zh-CN",        "rate": "+5%"      }    }  }}

zh-CN-XiaoxiaoNeural 是女声,声音比较温和自然。还有 zh-CN-YunxiNeural(男声)、zh-CN-XiaohanNeural(女声,风格更活泼)等等。

rate 控制语速,+5% 稍微快一点点,不想听太慢的话可以调到 +10% 到 +20%


音质要求高:OpenAI TTS

如果你有 OpenAI API Key,音质会好很多:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "model": "gpt-4o-mini-tts",        "voice": "alloy"      }    }  }}

OpenAI 有六个声音:alloyechofableonyxnovashimmer

我个人比较喜欢 nova,稍微暖一些,听起来不那么机械。

模型用 gpt-4o-mini-tts 就够了,价格比完整版便宜,质量没差太多。


音质要求极高:ElevenLabs

ElevenLabs 的声音是目前最自然的,有情绪变化,听起来更像真人:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "elevenlabs",      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "你的声音ID",        "modelId": "eleven_multilingual_v2"      }    }  }}

voiceId 在 ElevenLabs 后台找,选一个你喜欢的声音复制 ID 填进来。

eleven_multilingual_v2 支持中文,发音挺准的。

ElevenLabs 每月有一定免费额度,个人日常使用基本够用,如果用量大了再考虑付费。


主备切换:用了就不用担心中断

OpenClaw 支持配一个主要服务 + 自动备用:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "provider": "openai",      "openai": {        "apiKey": "sk-xxxxxx",        "voice": "nova"      },      "elevenlabs": {        "apiKey": "xxxxxxxx",        "voiceId": "your-voice-id"      }    }  }}

OpenAI 出问题,自动切 ElevenLabs;ElevenLabs 也挂了,再切 Edge TTS。

三层备用,基本不会遇到语音功能完全失效的情况。


长文章怎么处理?

有时候 AI 的回复很长,全部转成语音会很大一段,听起来也累。

OpenClaw 有自动摘要功能,超过一定长度的回复,会先生成一个简短摘要,再把摘要转成语音:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line{  "messages": {    "tts": {      "auto": "always",      "summaryModel": "openai/gpt-4o-mini"    }  }}

默认摘要阈值是 1500 个字符。超过这个长度,OpenClaw 会自动用 summaryModel 先把回复压缩,再发语音。

如果你不想要摘要,就发指令关掉:

ounter(line/tts summary off

用斜杠命令临时控制

不想改配置文件,也可以在聊天里直接控制:

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line/tts always       # 开启语音/tts off          # 关闭语音/tts inbound      # 只在我发语音时才回语音/tts status       # 查看当前状态/tts provider openai   # 临时切换语音提供商/tts limit 2000   # 改摘要阈值/tts audio 你好,这是一条测试语音   # 单次生成语音,不影响设置

这些命令是实时生效的,不用重启服务。


几个实际用法

早上听新闻摘要

配合定时任务,让 AI 每天早上抓几条新闻,整理成摘要,用语音发给你。起床刷牙的时候听,不占手。

问问题不用盯着屏幕

做别的事的时候问 AI,用语音回复,眼睛不用离开手头的事。

语音激活模式

把 auto 设成 inbound,你发语音过来,它就用语音回。完全模拟和人说话的感觉。

只在关键场景用语音

把 auto 设成 tagged,这样大部分回复还是文字,只有 AI 觉得这条回复适合听的时候才发语音,不会所有回复都是音频。


在 Telegram 上的效果

如果你是用 Telegram 连接 OpenClaw,语音功能的体验特别好。

AI 的语音回复会发成圆形的语音气泡,跟朋友发语音条一样。点一下就播放,可以调速,可以拖进度,Telegram 的语音播放器体验做得挺完善的。

如果是其他平台,会收到一个 MP3 音频文件,播放也没问题,就是形式不一样。


小结

OpenClaw 的 TTS 功能配起来很快,核心配置就一行 "auto": "always"

三个语音服务各有侧重:不想花钱用 Edge TTS,追求音质用 OpenAI,想要最自然的声音用 ElevenLabs。配主备切换,基本上不用担心中断。

个人感觉,语音功能最适合两个场景:一是手头忙、不方便盯屏幕的时候;二是早上刚起来、不想费劲看文字的时候。

如果你之前只是用文字跟 AI 聊,可以试试开语音,换个交互方式,感觉还挺不一样的。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询