微信扫码
添加专属顾问
我要投稿
OpenAI最新语音模型API,精准度和功能性全面升级,开启语音识别和合成新纪元。 核心内容: 1. 新音频模型API概览及性能对比 2. 价格明细及不同场景下的应用优势 3. 新增功能亮点:精准语音转文字、声音风格指令、Agents SDK音频支持
OpenAI 今天又发布了一批新功能,这次是三个音频模型API,个人觉得挺实用。
这次发布的API主要分为两类:
gpt-4o-transcribe
(精准版)gpt-4o-mini-transcribe
(轻量版)gpt-4o-mini-tts
(支持自定义声音风格)这些新模型相较之前的Whisper模型,准确率有明显提升,尤其是在有噪音、口音明显或语速变化快的环境下。
下面这张图清晰地展示了最新语音识别模型与过去Whisper模型之间的对比:
从图中可以看到,新的gpt-4o-transcribe
模型在多个语言的词错率(WER)方面表现都更加优秀(词错率越低越好)。
官方也给出了新模型的定价明细,具体如下:
从定价来看,mini
版本明显更便宜,更适合日常小规模使用,而gpt-4o-transcribe
则适合需要更高精准度的专业场景,比如客服中心、会议记录等。
新版gpt-4o-transcribe
针对之前Whisper模型存在的“听错”、“漏听”等问题进行了优化,尤其擅长处理:
对那些日常使用语音识别经常感到“痛苦”的朋友来说,这个更新意义巨大,毕竟识别准确度直接影响使用体验。
传统的TTS(文字转语音)模型虽然可以合成自然的声音,但往往声音风格比较固定。而gpt-4o-mini-tts
首次支持用户通过简单的指令来控制声音表现,比如:
这对开发创意内容、音频书籍、游戏配音,甚至是客户服务机器人,都是极大的提升。
OpenAI还特意提到了,现在他们的Agents SDK已经可以直接支持音频了,也就是说,以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。
比如,你只需要简单调用API,就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。
如果你感兴趣,OpenAI专门做了一个小网站,可以直接在线体验TTS效果(无需写代码):
OpenAI.fm
我自己简单试了一下,声音的表现力和自然程度确实有明显提升,非常值得一试。
另外官方还举办了一个创意音频分享比赛,获奖者还能拿到一个Teenage Engineering OB-4收音机,有兴趣的朋友不妨试试看~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28