免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI发布GPT Realtime:语音大模型正式进入Voice Agent时代,可以直接调用接口和工具进行实时语音对话!

发布日期:2025-08-29 06:31:00 浏览次数: 1561
作者:DataLearner

微信搜一搜,关注“DataLearner”

推荐语

OpenAI最新发布的GPT Realtime语音大模型,将实时语音交互提升至全新高度,支持多语言无缝切换与情感化表达。

核心内容:
1. GPT Realtime的核心技术突破与能力特点
2. 模型在语音质量、智能水平与指令遵从方面的显著提升
3. 实际应用场景与未来发展方向

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
本文原文来自DataLearnerAI官方博客:

https://www.datalearner.com/blog/1051756412845206



就在几个小时前,OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech(S2S)模型,能通过单个模型与 API完成从音频输入到音频输出的全流程,显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径,解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。


GPT Realtime:定位、来历与能力特点

OpenAI 早在 2024 年 10 月就推出过首个 S2S 模型(gpt-4o-realtime-preview-2024-10-01),随后在 2024-12-17 与 2025-06-03 又有两次预览迭代,但它们均基于 GPT-4o 架构、且仍处于 preview 阶段,反馈包括指令遵从不稳、**跨语种回复混乱(如德语回答英文问题)**等。

本次发布的 GPT Realtime 去除了 “4o” 与 “preview” 标签,更像是重新设计与训练的生产级语音模型
OpenAI 表示该模型在真实业务场景(客服、个人语音助手、教育等)中与合作伙伴共同对齐后训练,在语音质量、智能水平、指令遵从与函数调用方面有明确提升。

在语音生成上,GPT Realtime 能根据指令调整语速、节奏与风格,支持对话中无缝切换语言,并持续保持人设一致性。除文字内容外,它还能识别笑声、停顿等非语言线索并纳入上下文理解。

在官方演示中,模型能合成富含情绪的语音(如丢失物品的焦虑、找回后的喜悦),听感自然,接近真人情绪表达。

GPT Realtime的评测结果:推理、指令遵从与函数调用全面攀升

OpenAI 公布了多项评测结果,相比旧版 gpt-4o-realtime-preview 有不同幅度的提升。

如果说过去的语音模型只是“能听会说”,那么全新的 GPT Realtime 正在向“会思考、懂人心”靠近——当它捕捉到电话里的一声轻笑,便能把语气从“干练商务”切换到“温柔共情”;当一句话里突然混入中文或西语,它也能顺畅跟上。

在 Big Bench Audio 推理基准上,GPT Realtime 取得 82.8%:较 2024-12-17 的 65.6% 提高 17.2 个百分点;对比 2025-06-03 的 81.5% 也有小幅上升。在内部测试中,即便是夹杂口音的电话号码或 VIN 码,也比去年的 12 月版本多识别近两成字符



在多轮对话的指令遵从测试 MultiChallenge(Audio) 上,GPT Realtime 相比 2025-06-03 版本提升近 20%。例如当开发者要求“听到用户说‘订机票’时先确认预算,再调用 search_flights”,新模型更少出现跳步漏步



在函数调用方面,ComplexFuncBench(Audio) 得分 66.5%,较上个版本提升 12%。如“连续查询天气后再根据结果调用日历 API”的链式指令,新版本更少出现函数选错或参数格式错误



重大更新:OpenAI支持通过电话接入大模型,功能机也能对话大模型

这次最具“地基工程”意义的变化,是 GPT Realtime 正式支持 SIP(会话发起协议)电话接入。这意味着用户不仅能在 App 或网页中与 AI 交互,还能像打普通电话那样,直接拨号接入 AI 服务。 支持 SIP 使模型能“跨越网络鸿沟”:功能机、座机在无数据网络环境下也能使用 AI,既扩大覆盖范围,也让企业能把现有热线、PBX 与 AI 无缝对接。

SIP 是什么?
SIP(Session Initiation Protocol)是一种用于建立和管理语音通话的协议,是传统电话网络与互联网之间的“桥梁”。

与互联网式接入的差别

  • 互联网方式:需要智能手机与流量/Wi-Fi,支持语音、文字、图片等多模态。
  • SIP 方式:只需能打电话的设备(功能机、座机亦可),不依赖上网条件。

价值与影响

  • 覆盖更广:无网也可拨号接入 GPT Realtime。
  • 企业更易集成:现有热线与座机号码可直接连入,无需新 App。
  • 场景拓展:客服、外呼、通知、身份验证、问卷调查等传统电话场景受益。
  • 全渠道体验:电话与互联网通道打通,AI 服务覆盖更全面。

Realtime API 的其它工程化升级

除了 SIP,OpenAI 也把 Realtime API 的工程能力进一步补齐,让 S2S 模型的潜力真正落地:

  • 异步函数调用(Async Tool Calls):当一次工具调用需要数秒才能返回时,模型不会“卡住”;它会继续对话或提示“正在查询”,减少交互空窗,开发者几乎无需改动集成代码。
  • 实时音频流:支持低延迟的双向语音流;在模型说话时,你可以打断它并发起下一轮对话。
  • 多模态输入:语音输入的同时可上传图片作为线索。
  • 可复用 Prompt:把常用提示词、工具集、示例对话打包成模板,在不同会话间共享。
  • 远端 MCP 工具:通过 MCP 协议调用远端工具资源。
  • 上下文控制:可设定 token 上限、对长对话进行批量截断,兼顾成本与稳定性。

GPT Realtime总结:价格下降,立即可用

与预览版相比,Realtime API 定价下调 20%:语音输入价格由40美元每百万tokens降至32美元,输出价格从80美元降到64美元。 价格下调 + 工程能力完善,意味着 GPT Realtime 的接入门槛显著降低,企业与开发者可以更快把“语音原生”的 AI 体验带到真实业务。

目前 GPT Realtime 接口已开放;官方尚未明确 ChatGPT 网页版是否已切换至该接口。


更多模型信息可参考 DataLearnerAI 的模型卡片:
https://www.datalearner.com/ai-models/pretrained-models/gpt-realtime


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询