微信扫码
添加专属顾问
我要投稿
OpenAI新模型,语音文本互转的新选择。 核心内容: 1. OpenAI发布的STT和TTS模型,与Whisper模型的性能和价格对比 2. 新模型在口音、噪音和语速处理上的优势 3. 新增接口功能:时间戳、流式转录和实时API的详细介绍
凌晨 1 点的时候,OpenAI 突然做了三项发布:
剩下的,容我逐个道来。
两款模型:gpt-4o-transcribe 和 gpt-4o-mini-transcribe,比之前的 Whisper 价格更优,性能更好,尤其在处理口音、噪音和不同语速方面表现更佳。
先是价格对比
再是错误率对比(越低越好)
对比自家的 Whisper
对比竞品模型
这俩 endpoint,一个是 transcriptions,另一个是translations,同样可以用于新模型。前者是纯转文字,简单调用起来是这样:
from openai import OpenAI
client = OpenAI()
audio_file = open("/path/to/file/audio.mp3", "rb")
transcription = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)
print(transcription.text)后者是转文字+翻译(仅限翻译成英文),调用大概这样。
from openai import OpenAI
client = OpenAI()
audio_file = open("/path/to/file/speech.mp3", "rb")
transcription = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="text"
)
print(transcription.text)剩下的,是一些接口参数更新:
详细文档:
https://platform.openai.com/docs/guides/speech-to-text
模型名称是 gpt-4o-mini-tts 可控性很强的 TTS:
中文示例
英文示例
我个人感觉效果不是很好(但可以 roll 点音色);
长度方面,最大支持 2000 token 的内容;
价格方面,是 $0.015/min,示例代码如下:
import asyncio
from openai import AsyncOpenAI
from openai.helpers import LocalAudioPlayer
openai = AsyncOpenAI()
input = """大家好,我是练习时长两年半的个人练习生,你坤坤,喜欢唱、跳、Rap和篮球,music~\n\n在今后的节目中,有我很多作词,作曲,编舞的原创作品,期待的话多多投票吧!"""
instructions = """用娇滴滴的语气,萝莉音"""
asyncdefmain() -> None:
asyncwith openai.audio.speech.with_streaming_response.create(
model="gpt-4o-mini-tts",
voice="alloy",
input=input,
instructions=instructions,
response_format="pcm",
) as response:
await LocalAudioPlayer().play(response)
if __name__ == "__main__":
asyncio.run(main())详细文档:
https://platform.openai.com/docs/guides/text-to-speech
这是一个调试语音的 PlayGround,挺好玩的
还可以在右上角,一键导出代码
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-10
刚刚,100 美金的 ChatGPT 来了
2026-04-09
技术教科书:顶级开发团队设计的Harness工程项目源码什么样
2026-04-09
Anthropic 官方 Harness 发布:全面解读 Managed Agents
2026-04-09
SDD-RIPER 团队落地指南:如何让整个团队在一周内跑通大模型编程
2026-04-09
Claude Managed Agents 公测发布!Agent 开发成本直降 500 倍
2026-04-09
Anthropic 今天发了一个新产品,可能会让一批做 AI 智能体基础设施的团队失业
2026-04-09
京东美团封杀外部AI,是在自废武功
2026-04-09
Meta 发布全新大模型:Muse Spark
2026-01-24
2026-01-10
2026-01-26
2026-01-23
2026-03-31
2026-01-14
2026-03-13
2026-01-21
2026-02-03
2026-02-03
2026-04-07
2026-04-01
2026-03-31
2026-03-31
2026-03-22
2026-03-22
2026-03-21
2026-03-20