我要投稿

OpenAI发布GPT Realtime：语音大模型正式进入Voice Agent时代，可以直接调用接口和工具进行实时语音对话！

发布日期：2025-08-29 06:31:00 浏览次数： 2547

作者：DataLearner

微信搜一搜，关注“DataLearner”

就在几个小时前，OpenAI 发布了全新的 GPT Realtime 大模型。这是一个 Speech-to-Speech（S2S）模型，能通过单个模型与 API完成从音频输入到音频输出的全流程，显著降低交互延迟并充分保留语音细节。 GPT Realtime 以“端到端语音理解—推理—合成”为核心路径，解决了传统“识别—推理—合成”多阶段带来的延迟与风格割裂问题。

GPT Realtime：定位、来历与能力特点

OpenAI 早在 2024 年 10 月就推出过首个 S2S 模型（gpt-4o-realtime-preview-2024-10-01），随后在 2024-12-17 与 2025-06-03 又有两次预览迭代，但它们均基于 GPT-4o 架构、且仍处于 preview 阶段，反馈包括指令遵从不稳、**跨语种回复混乱（如德语回答英文问题）**等。

本次发布的 GPT Realtime 去除了 “4o” 与 “preview” 标签，更像是重新设计与训练的生产级语音模型。
OpenAI 表示该模型在真实业务场景（客服、个人语音助手、教育等）中与合作伙伴共同对齐后训练，在语音质量、智能水平、指令遵从与函数调用方面有明确提升。

在语音生成上，GPT Realtime 能根据指令调整语速、节奏与风格，支持对话中无缝切换语言，并持续保持人设一致性。除文字内容外，它还能识别笑声、停顿等非语言线索并纳入上下文理解。

在官方演示中，模型能合成富含情绪的语音（如丢失物品的焦虑、找回后的喜悦），听感自然，接近真人情绪表达。

GPT Realtime的评测结果：推理、指令遵从与函数调用全面攀升

OpenAI 公布了多项评测结果，相比旧版 gpt-4o-realtime-preview 有不同幅度的提升。

如果说过去的语音模型只是“能听会说”，那么全新的 GPT Realtime 正在向“会思考、懂人心”靠近——当它捕捉到电话里的一声轻笑，便能把语气从“干练商务”切换到“温柔共情”；当一句话里突然混入中文或西语，它也能顺畅跟上。

在 Big Bench Audio 推理基准上，GPT Realtime 取得 82.8%：较 2024-12-17 的 65.6% 提高 17.2 个百分点；对比 2025-06-03 的 81.5% 也有小幅上升。在内部测试中，即便是夹杂口音的电话号码或 VIN 码，也比去年的 12 月版本多识别近两成字符。

在多轮对话的指令遵从测试 MultiChallenge（Audio） 上，GPT Realtime 相比 2025-06-03 版本提升近 20%。例如当开发者要求“听到用户说‘订机票’时先确认预算，再调用 search_flights”，新模型更少出现跳步或漏步。

在函数调用方面，ComplexFuncBench（Audio） 得分 66.5%，较上个版本提升 12%。如“连续查询天气后再根据结果调用日历 API”的链式指令，新版本更少出现函数选错或参数格式错误。

重大更新：OpenAI支持通过电话接入大模型，功能机也能对话大模型

这次最具“地基工程”意义的变化，是 GPT Realtime 正式支持 SIP（会话发起协议）电话接入。这意味着用户不仅能在 App 或网页中与 AI 交互，还能像打普通电话那样，直接拨号接入 AI 服务。 支持 SIP 使模型能“跨越网络鸿沟”：功能机、座机在无数据网络环境下也能使用 AI，既扩大覆盖范围，也让企业能把现有热线、PBX 与 AI 无缝对接。

SIP 是什么？
SIP（Session Initiation Protocol）是一种用于建立和管理语音通话的协议，是传统电话网络与互联网之间的“桥梁”。

与互联网式接入的差别

互联网方式：需要智能手机与流量/Wi-Fi，支持语音、文字、图片等多模态。
SIP 方式：只需能打电话的设备（功能机、座机亦可），不依赖上网条件。

价值与影响

覆盖更广：无网也可拨号接入 GPT Realtime。
企业更易集成：现有热线与座机号码可直接连入，无需新 App。
场景拓展：客服、外呼、通知、身份验证、问卷调查等传统电话场景受益。
全渠道体验：电话与互联网通道打通，AI 服务覆盖更全面。

Realtime API 的其它工程化升级

除了 SIP，OpenAI 也把 Realtime API 的工程能力进一步补齐，让 S2S 模型的潜力真正落地：

异步函数调用（Async Tool Calls）：当一次工具调用需要数秒才能返回时，模型不会“卡住”；它会继续对话或提示“正在查询”，减少交互空窗，开发者几乎无需改动集成代码。
实时音频流：支持低延迟的双向语音流；在模型说话时，你可以打断它并发起下一轮对话。
多模态输入：语音输入的同时可上传图片作为线索。
可复用 Prompt：把常用提示词、工具集、示例对话打包成模板，在不同会话间共享。
远端 MCP 工具：通过 MCP 协议调用远端工具资源。
上下文控制：可设定 token 上限、对长对话进行批量截断，兼顾成本与稳定性。

GPT Realtime总结：价格下降，立即可用

与预览版相比，Realtime API 定价下调 20%：语音输入价格由40美元每百万tokens降至32美元，输出价格从80美元降到64美元。 价格下调 + 工程能力完善，意味着 GPT Realtime 的接入门槛显著降低，企业与开发者可以更快把“语音原生”的 AI 体验带到真实业务。

目前 GPT Realtime 接口已开放；官方尚未明确 ChatGPT 网页版是否已切换至该接口。