微信扫码
添加专属顾问
我要投稿
OpenAI在今天凌晨发布宣布推出Realtime API的公开测试版,所有付费开发者都可以在他们的应用中构建快速的语音对话体验。该API支持六种预设语音,类似于ChatGPT的高级语音模式,使自然的语音对话成为可能。
此外,Chat Completions API也新增了音频输入和输出功能,支持不需要低延迟的用例,开发者可以通过单次API调用,将文本或音频输入GPT-4o,获得文本或音频的响应。
当然Realtime API的价格很高,我在这里总结一下官方的文章给大家一个参考,大家可以借着这个势头去思考自己的产品方向,我也相信OpenAI作为领头羊,会有更多厂商推出廉价的实时语音API,届时大家可以将自己的产品切到更便宜的API以寻求更大的ROI。
独立开发者应用场景
定价
Realtime API的定价很高,Realtime API同时使用文本token和音频toekn。文本输入token的费用为$5/M,输出token为$20/M。音频输入的费用约为每分钟0.06美元,而音频输出的费用约为每分钟0.24美元。Chat Completions API的音频定价与此相同。
安全与隐私
Realtime API采用多层次的安全保护措施,以减轻API滥用的风险,包括自动监测和对标记的模型输入与输出进行人工审查。该API基于与ChatGPT高级语音模式相同的GPT-4o版本,OpenAI对其进行了全面评估,使用了自动化和人工评估相结合的方法,包括根据OpenAI的准备框架进行的评估,详见GPT-4o系统卡。Realtime API还利用了OpenAI为高级语音模式构建的相同音频安全基础设施,测试结果显示,这有效降低了潜在的伤害风险。
如何上手体验
开发者可以在接下来的几天内开始使用Realtime API
Playground:https://platform.openai.com/playground/realtime
OpenAI还与LiveKit和Agora合作,创建了音频组件的客户端库,包括回声消除、重连和声音隔离功能。同时,还与Twilio合作,将Realtime API与Twilio的语音API集成,使开发者能够无缝构建、部署和通过语音呼叫连接AI虚拟代理与客户。通过这些资源,开发者能够高效地开发出创新的语音应用。建议感兴趣的独立开发者去了解一下,可能会有潜在的机会哦。
Realtime API的未来发展方向
多模态支持:Realtime API将首先支持语音,并计划逐步添加视觉和视频等其他模式。
提高速率限制:目前API对于Tier 5开发者限制为约100个并发会话,Tier 1-4的限制更低。OpenAI将逐步提高这些限制,以支持更大规模的部署。
官方SDK支持:OpenAI将把Realtime API的支持集成到OpenAI的Python和Node.js SDK中。
提示缓存:将支持提示缓存功能,以便以折扣价格重新处理先前的对话回合。
扩展模型支持:Realtime API将在未来版本中支持GPT-4o mini。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
OpenAI成立百人团队训练机械臂做家务,今年是否能迎来机器人管家
2026-01-31
AI硬件的宿命:要么“在场”,要么“进抽屉”
2026-01-31
我们测了十几款AI硬件,发现它们死于同一个问题
2026-01-29
LiteRT | 释放极致潜能,构建下一代高性能端侧 AI
2026-01-29
在树莓派CM0上部署 Clawdbot 真的有那么神奇吗?
2026-01-22
英伟达让机器人闪念决策:Fast-ThinkAct如何让AI思考速度快9倍还更聪明?
2026-01-20
AI手机的终极猜想:超级Agent入口|产业深度
2026-01-19
吃灰 AI 眼镜爆改“交警 Copilot”,函数计算AgentRun 实操记录
2025-12-05
2025-12-09
2025-11-09
2025-12-01
2025-12-08
2025-11-17
2025-12-15
2025-12-01
2025-12-03
2026-01-29
2026-01-29
2026-01-22
2026-01-06
2026-01-04
2026-01-02
2025-11-08
2025-10-27
2025-10-24