微信扫码
添加专属顾问
我要投稿
OpenAI最新发布的gpt-realtime语音模型,将人机交互提升到新高度,支持多语言实时切换与情感表达,重新定义语音AI边界。 核心内容: 1. gpt-realtime的核心技术突破:音频质量与智能理解的双重提升 2. 性能表现:在指令遵循和函数调用方面的显著改进 3. 实时API新功能:图像输入、电话呼叫等创新应用场景
OpenAI正式发布实时API,推出面向生产环境的语音代理解决方案。新发布的gpt-realtime是一个语音到语音模型,原生理解和生成音频,可以表达广泛的情感并在实时对话中无缝切换语言。
核心技术
gpt-realtime是OpenAI SOTA的语音模型。该模型使用高质量语音数据和专门的奖励模型进行训练,在音频质量、智能性、指令遵循和函数调用方面都有显著改进。
在音频质量方面,模型能够生成更高质量的语音,听起来更自然,并能遵循细粒度指令,如"快速专业地说话"或"以法国口音富有同情心地说话"。OpenAI还发布了两个新语音Marin和Cedar,在自然语音方面有最显著的改进。
在智能理解方面,gpt-realtime显示出更高的智能,能更准确地理解原生音频。该模型可以捕捉非语言线索(如笑声),在句子中间切换语言,并调整语调。在Big Bench Audio评估中,gpt-realtime得分82.8%,超过了之前模型的65.6%。
性能表现
在指令遵循方面表现出色。在MultiChallenge音频基准测试中,gpt-realtime得分30.5%,比之前模型的20.6%有显著改进。演示显示了它如何拒绝用户要求的不存在的折扣,体现了出色的指令遵循能力。
在函数调用基准测试中达到了66.5%的准确率,而之前模型仅为49.7%。模型还针对真实世界的客户使用案例进行了调优,改进了异步函数调用功能。
API新功能
实时API现在支持远程MCP服务器、图像输入,以及通过会话发起协议(SIP)进行电话呼叫。图像输入功能让用户可以将图像、照片和截图与音频一起添加到会话中,使用户能够提出"你看到了什么?"等问题。
其他功能包括会话发起协议(SIP)支持,可将应用程序连接到公共电话网络、PBX系统等;可重用提示功能,允许保存和重用包含开发者消息、工具、变量的提示。
定价与可用性
gpt-realtime定价为每百万音频输入token 32美元(缓存输入token 0.40美元),每百万音频输出token 64美元。
与传统的多模型链接管道不同,实时API通过单一模型直接处理和生成音频,减少了延迟,保留了语音中的细微差别,并产生更自然、更有表现力的响应。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-29
知识库检索准不准,关键看模型选没选对!一份评测指南请收好
2025-08-29
我如何用Prompt工程将大模型调教成风控专家
2025-08-29
度小满金融大模型技术创新与应用探索
2025-08-29
行业吹牛和产品落地,谁在决定AI未来?产品经理的三层思考框架
2025-08-29
微软AI首个自研模型来了,实测可玩性超强,CEO回应与OpenAI隔阂
2025-08-29
独家|阿里AI再加码,夸克研发全新AI产品“造点”
2025-08-29
大模型推理上半场收官:单实例优化见顶,迈向低时延×长上下文
2025-08-29
OpenAI发布GPT Realtime:语音大模型正式进入Voice Agent时代,可以直接调用接口和工具进行实时语音对话!
2025-08-21
2025-06-01
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25
2025-08-25