我要投稿

OpenAI发布语音到语音模型gpt-realtime

发布日期：2025-08-29 15:31:45 浏览次数： 2296

作者：AI帝国

微信搜一搜，关注“AI帝国”

OpenAI正式发布实时API，推出面向生产环境的语音代理解决方案。新发布的gpt-realtime是一个语音到语音模型，原生理解和生成音频，可以表达广泛的情感并在实时对话中无缝切换语言。

核心技术

gpt-realtime是OpenAI SOTA的语音模型。该模型使用高质量语音数据和专门的奖励模型进行训练，在音频质量、智能性、指令遵循和函数调用方面都有显著改进。

在音频质量方面，模型能够生成更高质量的语音，听起来更自然，并能遵循细粒度指令，如"快速专业地说话"或"以法国口音富有同情心地说话"。OpenAI还发布了两个新语音Marin和Cedar，在自然语音方面有最显著的改进。

在智能理解方面，gpt-realtime显示出更高的智能，能更准确地理解原生音频。该模型可以捕捉非语言线索（如笑声），在句子中间切换语言，并调整语调。在Big Bench Audio评估中，gpt-realtime得分82.8%，超过了之前模型的65.6%。

性能表现

在指令遵循方面表现出色。在MultiChallenge音频基准测试中，gpt-realtime得分30.5%，比之前模型的20.6%有显著改进。演示显示了它如何拒绝用户要求的不存在的折扣，体现了出色的指令遵循能力。

在函数调用基准测试中达到了66.5%的准确率，而之前模型仅为49.7%。模型还针对真实世界的客户使用案例进行了调优，改进了异步函数调用功能。

API新功能

实时API现在支持远程MCP服务器、图像输入，以及通过会话发起协议（SIP）进行电话呼叫。图像输入功能让用户可以将图像、照片和截图与音频一起添加到会话中，使用户能够提出"你看到了什么？"等问题。

其他功能包括会话发起协议（SIP）支持，可将应用程序连接到公共电话网络、PBX系统等；可重用提示功能，允许保存和重用包含开发者消息、工具、变量的提示。

定价与可用性

gpt-realtime定价为每百万音频输入token 32美元（缓存输入token 0.40美元），每百万音频输出token 64美元。

与传统的多模型链接管道不同，实时API通过单一模型直接处理和生成音频，减少了延迟，保留了语音中的细微差别，并产生更自然、更有表现力的响应。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-29

软件架构演化简史：从单体到AI原生

2026-05-29

李开复王小川转身，大模型创业上半场结束

2026-05-29

如何把 Codex 用到极致

2026-05-29

全球Harness驾驭工程发展态势、模式演进与落地挑战分析

2026-05-29

刚刚，Claude Opus 4.8 正式发布！

2026-05-28

谷歌放弃 Gemini CLI，转头用 Go 写了个新玩具 Antigravity CLI

2026-05-28

Claude code云端部署 & 魔改sdk实现http流式调用保姆级教程

2026-05-28

“不用AI的CEO，我会亲自干掉他！”亿万富翁马克·库班最新对话：看好Claude，但奥特曼迟早被自己反噬

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部