微信扫码
添加专属顾问
我要投稿
OpenAI最新发布的GPT Realtime语音大模型,将实时语音交互提升至全新高度,支持多语言无缝切换与情感化表达。核心内容: 1. GPT Realtime的核心技术突破与能力特点 2. 模型在语音质量、智能水平与指令遵从方面的显著提升 3. 实际应用场景与未来发展方向
https://www.datalearner.com/blog/1051756412845206
就在几个小时前,OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech(S2S)模型,能通过单个模型与 API完成从音频输入到音频输出的全流程,显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径,解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。
OpenAI 早在 2024 年 10 月就推出过首个 S2S 模型(gpt-4o-realtime-preview-2024-10-01
),随后在 2024-12-17 与 2025-06-03 又有两次预览迭代,但它们均基于 GPT-4o 架构、且仍处于 preview 阶段,反馈包括指令遵从不稳、**跨语种回复混乱(如德语回答英文问题)**等。
本次发布的 GPT Realtime 去除了 “4o” 与 “preview” 标签,更像是重新设计与训练的生产级语音模型。
OpenAI 表示该模型在真实业务场景(客服、个人语音助手、教育等)中与合作伙伴共同对齐后训练,在语音质量、智能水平、指令遵从与函数调用方面有明确提升。
在语音生成上,GPT Realtime 能根据指令调整语速、节奏与风格,支持对话中无缝切换语言,并持续保持人设一致性。除文字内容外,它还能识别笑声、停顿等非语言线索并纳入上下文理解。
在官方演示中,模型能合成富含情绪的语音(如丢失物品的焦虑、找回后的喜悦),听感自然,接近真人情绪表达。
OpenAI 公布了多项评测结果,相比旧版 gpt-4o-realtime-preview
有不同幅度的提升。
如果说过去的语音模型只是“能听会说”,那么全新的 GPT Realtime 正在向“会思考、懂人心”靠近——当它捕捉到电话里的一声轻笑,便能把语气从“干练商务”切换到“温柔共情”;当一句话里突然混入中文或西语,它也能顺畅跟上。
在 Big Bench Audio 推理基准上,GPT Realtime 取得 82.8%:较 2024-12-17 的 65.6% 提高 17.2 个百分点;对比 2025-06-03 的 81.5% 也有小幅上升。在内部测试中,即便是夹杂口音的电话号码或 VIN 码,也比去年的 12 月版本多识别近两成字符。
在多轮对话的指令遵从测试 MultiChallenge(Audio) 上,GPT Realtime 相比 2025-06-03 版本提升近 20%。例如当开发者要求“听到用户说‘订机票’时先确认预算,再调用 search_flights
”,新模型更少出现跳步或漏步。
在函数调用方面,ComplexFuncBench(Audio) 得分 66.5%,较上个版本提升 12%。如“连续查询天气后再根据结果调用日历 API”的链式指令,新版本更少出现函数选错或参数格式错误。
这次最具“地基工程”意义的变化,是 GPT Realtime 正式支持 SIP(会话发起协议)电话接入。这意味着用户不仅能在 App 或网页中与 AI 交互,还能像打普通电话那样,直接拨号接入 AI 服务。 支持 SIP 使模型能“跨越网络鸿沟”:功能机、座机在无数据网络环境下也能使用 AI,既扩大覆盖范围,也让企业能把现有热线、PBX 与 AI 无缝对接。
SIP 是什么?
SIP(Session Initiation Protocol)是一种用于建立和管理语音通话的协议,是传统电话网络与互联网之间的“桥梁”。
与互联网式接入的差别
价值与影响
除了 SIP,OpenAI 也把 Realtime API 的工程能力进一步补齐,让 S2S 模型的潜力真正落地:
与预览版相比,Realtime API 定价下调 20%:语音输入价格由40美元每百万tokens降至32美元,输出价格从80美元降到64美元。 价格下调 + 工程能力完善,意味着 GPT Realtime 的接入门槛显著降低,企业与开发者可以更快把“语音原生”的 AI 体验带到真实业务。
目前 GPT Realtime 接口已开放;官方尚未明确 ChatGPT 网页版是否已切换至该接口。
更多模型信息可参考 DataLearnerAI 的模型卡片:
https://www.datalearner.com/ai-models/pretrained-models/gpt-realtime
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-29
微软AI首个自研模型来了,实测可玩性超强,CEO回应与OpenAI隔阂
2025-08-29
独家|阿里AI再加码,夸克研发全新AI产品“造点”
2025-08-29
大模型推理上半场收官:单实例优化见顶,迈向低时延×长上下文
2025-08-29
从“无能助手”到“智能小伙伴”:MiniMax Agent 亲测体验
2025-08-29
我做 AI 产品经理这几年的经验分享
2025-08-28
Claude Code 也来梦幻联动 Zed了!
2025-08-28
AI 原力注入:AI Infra 知识体系 v2.0
2025-08-28
微软研究院:生成式AI如何重塑职场,你的工作受影响了吗?
2025-08-21
2025-06-01
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25
2025-08-25