我要投稿

OpenAI发布全新语音模型API，语音识别和合成能力大升级！

发布日期：2025-03-21 05:39:27 浏览次数： 2141

作者：宝玉AI

微信搜一搜，关注“宝玉AI”

OpenAI 今天又发布了一批新功能，这次是三个音频模型API，个人觉得挺实用。

OpenAI新一代音频模型性能比较

新音频模型一览

这次发布的API主要分为两类：

1. 语音识别模型（Speech-to-text）：

• gpt-4o-transcribe（精准版）
• gpt-4o-mini-transcribe（轻量版）

2. 文字转语音模型（Text-to-speech）：

• gpt-4o-mini-tts（支持自定义声音风格）

这些新模型相较之前的Whisper模型，准确率有明显提升，尤其是在有噪音、口音明显或语速变化快的环境下。

下面这张图清晰地展示了最新语音识别模型与过去Whisper模型之间的对比：

从图中可以看到，新的gpt-4o-transcribe模型在多个语言的词错率（WER）方面表现都更加优秀（词错率越低越好）。

价格一览（每百万tokens）

官方也给出了新模型的定价明细，具体如下：

模型名称	文本输入价格	文本输出价格	音频输入价格	音频输出价格
gpt-4o-mini-tts	$0.60	-	-	$12.00
gpt-4o-transcribe	$2.50	$10.00	$6.00	-
gpt-4o-mini-transcribe	$1.25	$5.00	$3.00	-

从定价来看，mini版本明显更便宜，更适合日常小规模使用，而gpt-4o-transcribe则适合需要更高精准度的专业场景，比如客服中心、会议记录等。

有哪些新亮点？

1. 语音转文字更精准

新版gpt-4o-transcribe针对之前Whisper模型存在的“听错”、“漏听”等问题进行了优化，尤其擅长处理：

• 带口音的英语或其他语言
• 背景噪音较大的场景（如咖啡厅、户外）
• 讲话速度较快的内容

对那些日常使用语音识别经常感到“痛苦”的朋友来说，这个更新意义巨大，毕竟识别准确度直接影响使用体验。

2. TTS模型支持“声音风格指令”

传统的TTS（文字转语音）模型虽然可以合成自然的声音，但往往声音风格比较固定。而gpt-4o-mini-tts首次支持用户通过简单的指令来控制声音表现，比如：

• “像一个有同理心的客服人员说话”
• “用兴奋的语气讲述故事”
• “模仿播音员的语调朗读新闻”

这对开发创意内容、音频书籍、游戏配音，甚至是客户服务机器人，都是极大的提升。

3. 开发者的福音：Agents SDK支持音频

OpenAI还特意提到了，现在他们的Agents SDK已经可以直接支持音频了，也就是说，以后开发者可以更轻松地搭建一个能“听”和“说”的智能语音助手。

比如，你只需要简单调用API，就能实现智能客服、智能导游、甚至能聊天的虚拟伙伴。

亲测体验（附官方在线Demo）

如果你感兴趣，OpenAI专门做了一个小网站，可以直接在线体验TTS效果（无需写代码）：

OpenAI.fm

我自己简单试了一下，声音的表现力和自然程度确实有明显提升，非常值得一试。

另外官方还举办了一个创意音频分享比赛，获奖者还能拿到一个Teenage Engineering OB-4收音机，有兴趣的朋友不妨试试看~

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-10-31

Opera One升级内置AI 迎来智能助手新纪元

2025-10-31

LangExtract——大模型文本提炼工具

2025-10-31

用户测评｜DeepSeek-OCR，你用了吗？

2025-10-31

从Palantir智能化技术路线看AI时代企业级架构平台的核心战略位置

2025-10-31

OpenAI 公开 Atlas 架构：为 Agent 重新发明浏览器

2025-10-31

Palantir 本体论模式：重塑企业 AI 应用的 “语义根基” 与产业启示

2025-10-31

树莓派这种“玩具级”设备，真能跑大模型吗？

2025-10-30

Cursor 2.0的一些有趣的新特性

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

DeepSeek突然更新V3.1：实测后才发现的亮点与槽点

2025-08-19

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

DeepSeek v3.1 到底有多强？与 Claude Code 一起实测！

2025-08-20

大家都在问

用户测评｜DeepSeek-OCR，你用了吗？

2025-10-31

树莓派这种“玩具级”设备，真能跑大模型吗？

2025-10-31

大模型的Funcation Calling是什么？

2025-10-29

向量搜索已过时，混合搜索都有三大流派了！你看好哪个流派？

2025-10-29

BCG最新报告：企业如何跨越AI价值鸿沟，进入复利增长？

2025-10-28

如何用飞书多维表格快速搭建一个可落地应用？

2025-10-28

当AI学会“听”：声音识别到声音理解，AI到底是怎么听懂的？

2025-10-27

如何让你的内容出现在AI生成的答案中？

2025-10-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB