微信扫码
添加专属顾问
我要投稿
OpenAI最新发布的gpt-realtime语音模型,将人机交互提升到新高度,支持多语言实时切换与情感表达,重新定义语音AI边界。 核心内容: 1. gpt-realtime的核心技术突破:音频质量与智能理解的双重提升 2. 性能表现:在指令遵循和函数调用方面的显著改进 3. 实时API新功能:图像输入、电话呼叫等创新应用场景
OpenAI正式发布实时API,推出面向生产环境的语音代理解决方案。新发布的gpt-realtime是一个语音到语音模型,原生理解和生成音频,可以表达广泛的情感并在实时对话中无缝切换语言。
核心技术
gpt-realtime是OpenAI SOTA的语音模型。该模型使用高质量语音数据和专门的奖励模型进行训练,在音频质量、智能性、指令遵循和函数调用方面都有显著改进。
在音频质量方面,模型能够生成更高质量的语音,听起来更自然,并能遵循细粒度指令,如"快速专业地说话"或"以法国口音富有同情心地说话"。OpenAI还发布了两个新语音Marin和Cedar,在自然语音方面有最显著的改进。
在智能理解方面,gpt-realtime显示出更高的智能,能更准确地理解原生音频。该模型可以捕捉非语言线索(如笑声),在句子中间切换语言,并调整语调。在Big Bench Audio评估中,gpt-realtime得分82.8%,超过了之前模型的65.6%。
性能表现
在指令遵循方面表现出色。在MultiChallenge音频基准测试中,gpt-realtime得分30.5%,比之前模型的20.6%有显著改进。演示显示了它如何拒绝用户要求的不存在的折扣,体现了出色的指令遵循能力。
在函数调用基准测试中达到了66.5%的准确率,而之前模型仅为49.7%。模型还针对真实世界的客户使用案例进行了调优,改进了异步函数调用功能。
API新功能
实时API现在支持远程MCP服务器、图像输入,以及通过会话发起协议(SIP)进行电话呼叫。图像输入功能让用户可以将图像、照片和截图与音频一起添加到会话中,使用户能够提出"你看到了什么?"等问题。
其他功能包括会话发起协议(SIP)支持,可将应用程序连接到公共电话网络、PBX系统等;可重用提示功能,允许保存和重用包含开发者消息、工具、变量的提示。
定价与可用性
gpt-realtime定价为每百万音频输入token 32美元(缓存输入token 0.40美元),每百万音频输出token 64美元。
与传统的多模型链接管道不同,实时API通过单一模型直接处理和生成音频,减少了延迟,保留了语音中的细微差别,并产生更自然、更有表现力的响应。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-15
谷歌深夜大招!机器人学会看仪表盘干活,成功率飙升300%
2026-04-15
Claude Opus 4.7刚刚曝光!Claude Code一夜重构,7x24小时替你打工
2026-04-15
Claude Code 源码拆解:从启动到多 Agent 扩展层
2026-04-15
Hermes 接入 Kimi K2.6 实测:SOTA 代码能力,但有两个真实痛点
2026-04-15
刚刚!Claude Code 两连发:Routines 让 AI 替你值班,桌面端一个窗口并行跑多任务
2026-04-14
Hermes Agent模型配置小白指南
2026-04-14
AI Agent时代拐点:小米miclaw的静默卡位
2026-04-14
Agent Harness 与记忆的关系
2026-01-24
2026-01-26
2026-01-23
2026-03-31
2026-03-13
2026-01-21
2026-02-03
2026-02-14
2026-02-03
2026-02-03