我要投稿

Qwen3新成员：阿里发布语音识别模型Qwen3-ASR，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

发布日期：2025-09-09 04:59:12 浏览次数： 2517

作者：DataLearner

微信搜一搜，关注“DataLearner”

本文原文来自DataLearnerAI官方博客：

https://www.datalearner.com/blog/1051757358602096

阿里发布了全新的语音识别大模型Qwen3-ASR-Flash，该模型是Qwen3系列模型中首个语音识别大模型，中英文语音识别错误率低于GPT-4o-transcribe和Gemini 2.5 Pro。不过，该模型目前仅通过API提供，不开源！

Qwen3-ASR-Flash模型的特点

Qwen3-ASR-Flash模型来源于Qwen3-Omni模型。没错，就是还未发布的全模态大模型Qwen3-Omni。2025年3月27日，阿里开源了旗下的首个端到端全模特大模型Qwen2.5-Omni-7B，该模型支持文本、图像、音频、视频（无音频轨）的多模态输入与实时生成能力，可同步输出文本与自然语音的流式响应（详情参考：https://www.datalearner.com/ai-models/pretrained-models/Qwen2_5-Omni-7B ）。而此次官方的信息透露，Qwen3-Omni模型也训练好了，只是不确定是否还会开源~

本次发布的Qwen3-ASR-Flash模型是基于Qwen3-Omni构建的专注于语音识别的模型。按照3月份开源的模型，我们可以合理猜测Qwen3-ASR-Flash模型很大概率是7B规模的版本。

Qwen3-ASR-Flash模型的主要特点包括：

一个模型支持11种语言的识别（中英西法阿等）；
支持在语音输入基础上，提供prompt的输入来增强识别语音结果；
支持识别歌声中的语音；
支持带着噪音的语音识别（吵架、汽车、背景音等）;
支持非语音片段的识别：即可以忽略语音中静默片段和背景噪音等

Qwen3-ASR-Flash模型支持Prompt增强

Qwen3-ASR-Flash模型最大的特点是支持基于文本+语音的输入，文本即Prompt。

按照官方的描述，语音识别中有一个很难解决的问题是专有名词的识别。例如，一些特殊的地名、人名等专有名词，语音识别模型几乎很难识别准确。这种情况下，只要你在语音识别的同时，给模型一些关键词。模型就能准确的识别。

换言之，Qwen3-ASR-Flash 支持无需预处理上下文信息即可实现定制化语音识别结果。用户只需提供任何形式的“背景文本”，模型就能自动理解并据此调整识别结果（即“有偏转写”或“上下文引导识别”），从而更准确地识别特定词汇、术语或语境内容。

支持的背景文本格式如下：

✅ 简单关键词列表：
["Qwen", "通义千问", "ASR", "Flash模型"]

✅ 完整段落或长文档：
“本次会议将讨论Qwen3-ASR-Flash在医疗和金融场景中的落地应用，重点包括方言识别鲁棒性和热词绑定能力。”

✅ 混合格式：
关键词 + 段落
["热词：科创板、北交所"] + “近期资本市场改革加速，北交所流动性提升明显…”

✅ 无意义/无关文本（不影响识别）：
“香蕉在跳舞，月亮吃火锅” ← 模型会忽略这类内容，不影响正常语音识别。

简单说：你想让模型“偏向”识别什么，就直接把相关文字“喂”给它 —— 不管多乱、多长、多杂，它都能聪明地抓住重点，还不被干扰。

例如，假设我们有一个场景如下：
某段音频正确识别结果应该为“投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bulge Bracket，BB …”。

那么，在不使用上下文增强的时候，识别结果如下：

投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bird Rock，BB ...

部分投行公司名称识别有误，例如 “Bird Rock” 正确应为 “Bulge Bracket”。

但是，如果使用上下文增强（即将文字关键词和音频一起输入），那么对投行公司名称识别正确。

投行圈内部的那些黑话，你了解哪些？首先，外资九大投行，Bulge Bracket，BB ...”

这种带Prompt的语音识别模型在实际中应用价值很多，举例如下：

专业领域优化：医疗、法律、金融等术语可通过提供术语表显著提升识别准确率。
品牌/产品名绑定：输入公司名、产品名，避免被误识别为同音常见词。
灵活易用：无需工程化预处理，业务人员可直接上传原始材料，降低使用门槛。

Qwen3-ASR-Flash模型的识别错误率低于GPT-4o和Gemini 2.5 Pro！

官方公布了Qwen3-ASR-Flash模型在不同语种上的语音识别错误率。下图展示了Qwen3-ASR-Flash模型在不同评测集上的测试结果：

如图所示，Qwen3-ASR-Flash模型在公开测试和内部测试中均表现出色，尤其在中文、带口音中文、英语及多语言场景下误差率显著低于主流竞品（如 Gemini-2.5-Pro、GPT4o-Transcribe、Paraformer-v2 和 Doubao-ASR）。其在复杂语音识别任务（如重口音、混合语言、歌曲识别）中也展现出强鲁棒性，整体性能领先。尽管在部分特定场景（如多语言支持）存在局限，但综合表现突出，体现了其在通用语音识别领域的强大能力。

以“Chinese”和“Chinese Accent”两类任务为例，Qwen3-ASR-Flash 的错误率分别为 3.97% 和 3.48%（公开测试），远低于其他模型（如 GPT4o-Transcribe 达 15.72% 和 17.07%）。这表明该模型对中文语音的建模能力强，尤其在处理方言或非标准发音时具备优异表现，适合中国本地化应用场景。