我要投稿

GPT-4o背后可能的语音技术

发布日期：2024-06-04 06:09:20 浏览次数： 3899

作者：人工智能大讲堂

微信搜一搜，关注“人工智能大讲堂”

如果我不说明这是一段GPT-4o调戏主持人的视频，你是否会认为电话另一端是真人在对话？

GPT-4o在与人类的对话过程中，不仅能理解人的情绪，还能像人一样说话。

总结来说，GPT-4o具有下列语音能力：

具有丰富的语音风格：语速快一点、语调柔和一点、或者用说唱的风格；
可以理解语音以外的信息：喘气声、叹气声；
可以发出非语言声音：笑声；
可以进行自然而即时的互动，不需要唤醒词。

其实，早在GPT-4o以前，GPT3.5手机版就有语音功能，那么它和新版的GPT-4o有什么区别呢？李宏毅教授对GPT-4o背后的语音技术进行了分析，下面是对其分析内容的总结，后台回复cam获取pdf下载链接。

老版本的ChatGPT是先通过语音识别模型（whisper）将语音转换成文本，然后将文本传送给大模型（ChatGPT），最后通过语音合成模型（TTS）将大模型的输出合成语音。

然而，文本作为语音的某种压缩，在语音转换为文本的过程中，情感信息往往无法被保留，导致后面生成的声音显得单调。

为了解决这个问题，有人在此基础上加入了情感分析模块，将情感信息以上下文的形式发给大模型和语音合成模块。

虽然这在一定程度上解决了情感丢失问题，但情感分析、语音识别、语音合成这三个独立的模块，无疑增加了推理负担，这也是为什么老版本会思考片刻才会做出回应的原因，“反应迟钝”在多人对话中显得很不自然。

而GPT-4o是一个端到端的语音模型。

文本语言模型输入、输出都是文本，处理文本时，先要将文本转换成tokens，然后将token ids转换成词嵌入输入到Transformer，最后将Transformer输出的token ids解码成token。

GPT-4o输入、输出都是语音，声波是一种模拟信号，别说是大模型，就算是计算机也没办法直接处理模拟信号，所以很多音频处理软件需要先通过声卡将模拟信号转换成数字信号。

语音版语言模型也需要类似的编解码器，它不仅要将连续的语音转换成离散的tokens，还要将其压缩到隐空间，但文字是人造的，语音是自然生成的，所以没办法像NLP那样构造一个词表，这个过程需要神经音频编解码模型模型来完成。

神经音频编解码模型也并不是什么新玩意，最初用于音频数据压缩传输。下图列出了神经编解码模型的重要时间节点。

编码器负责将语音压缩到离散的隐空间，解码器负责将隐空间信息解压缩成语音信号，这个隐空间类似于词嵌入空间。

将语音信号编码成离散的数字向量后就可以输入到Transformer中了，其它的和大语言模型基本就一样了。

下图是基于神经编解码模型的大语言模型，也就是说GPT-4o很可能就是这个样子的。神经编解码模型是和语言模型一起训练的，而在老版本中，语言模型和三个独立模块都是单独训练的。

和基于文本的大模型一样，基于语音的大模型也需要经过预训练和微调过程。

但鉴于文本资料要比语音资料丰富，所以可能会用文本语言模型的参数去初始化语音版语言模型。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-05

未来对本地运行的私有模型的需求会日益增长 | Sam Altman最新对话实录

2026-02-05

Codex 振臂一呼，众厂商热血响应： Skills 目录即将实现大一统，可惜 Claude Code 没有回应

2026-02-05

OpenCSG 正式发布 OpenClaw × AgenticHub 企业级 OPC 平台

2026-02-05

Claude Code vs. OpenAI Codex为什么更慢的模型，反而更快把事情做完

2026-02-04

Skills使用体验

2026-02-04

AgentScope 正式发布 Skills 支持 - 实现渐进式披露

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部