免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI gpt-realtime 与 Realtime API 重磅升级,语音智能体迎来生产级时代

发布日期:2025-09-01 22:38:47 浏览次数: 1657
作者:Renee 创业随笔

微信搜一搜,关注“Renee 创业随笔”

推荐语

OpenAI重磅升级语音交互能力,实时API与GPT-Realtime模型带来生产级语音智能体验。

核心内容:
1. Realtime API六大升级亮点:图像输入、远程工具调用、电话系统集成等
2. GPT-Realtime模型三大突破:语音延迟优化、多语言切换、新增音色
3. 语音优先的智能体应用场景:编程助理、AI客服、多模态交互产品

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

这次 Realtime API g和 gpt-realtime 模型 发布,可以理解为 OpenAI 在语音交互上的一次大升级。

  • Realtime API 能力更新


    • 图像输入:支持在对话里直接用图像。
    • 远程 MCP server 支持:让工具调用更灵活,可以接驳外部 MCP 工具。
    • SIP/PBX 支持:能和电话系统集成,适合语音客服场景。
    • Prompt caching:提示缓存,降低重复调用成本(价格低至 $0.40/百万 tokens)。
    • 更好的函数调用:instruction following 和 tool calling 的可靠性增强。
    • WebRTC API 扩展:包括 server websocket 控制和视频支持。
    • 价格下调约 20% :输入约 $32/百万音频 tokens,输出约 $64/百万音频 tokens。

      gpt-realtime 模型升级点


    • 强调 语音到语音(speech-to-speech),低延迟,适合实时对话。
    • 在 BigBench、ComplexFuncBench 等基准上较 GPT-4o-realtime 有显著提升。
    • 语音层面改进:韵律(prosody)、非语言特征(咳嗽、笑声)、多语言切换
    • 新增两种声音:Cedar 和 Marin
  • 社区反响

    • 工程师们认为这是 OpenAI 把 “实时语音” 当作 一等公民接口 来推动。

    • 关注点在于:

      • voice-native agents(以语音为核心的智能体)。
      • MCP over voice(语音直接驱动代码/工具调用)。
      • streaming hooks & session control(实时流式钩子和会话管理)。
    • 应用前景

      • 可以催生 语音优先的编程助理AI 电话助理多模态实时交互产品
      • 定位在“让随时对话的语音接口真正可用”。

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询