我要投稿

懂方言，通诗词，精通30国语言，阿里发布语音识别大模型Fun-ASR1.5

发布日期：2026-04-20 14:23:08 浏览次数： 1884

作者：千问大模型

微信搜一搜，关注“千问大模型”

你是否遇到过这样的尴尬：对着智能音箱说方言，它一脸茫然；开跨国会议时，要在多个翻译工具间来回切换；录音转文字后，还得花半小时手动加标点、改日期……这些语音识别的“最后一公里”难题，正在被阿里Fun-ASR1.5逐一攻克。

作为端到端语音识别大模型的新一代版本，实现单模型高精度识别30种语言，覆盖中文七大方言体系及二十余种地方口音，并强化古诗词诵读的专项识别。它不仅“听得更全、听得更准”，更能“写得更规范”，让语音转写从能用走向好用。

听得更全

30种语言，一个模型无缝切换

作为单一模型，Fun-ASR1.5可精准识别欧洲、东亚、东南亚、南亚及中东主流语种，覆盖中、英、日、韩、法、德、西、葡、俄、阿拉伯语等 30 种语言。

韩语

ASR结果：저는 이 주제에 따라 한 말씀 드리자면, 사실 저희도 이전에 비슷한 상황을 겪은 적이 있습니다.

马来语

ASR结果：Kejayaan projek ini tidak dapat dipisahkan daripada usaha pasukan, terutamanya kerja keras siang malam oleh jabatan penyelidikan dan pembangunan.

西班牙语

ASR结果：La diversidad cultural es un tesoro invaluable para la sociedad humana, y debemos respetar y proteger todas las tradiciones culturales.

更重要的是，在一些“高难度”的跨语言切换（Code-Switching）场景下，它也能应对自如。

比如，同一段对话里夹杂多种语言，模型也能准确识别，无需提前告诉它接下来要说哪种语言。Fun-ASR1.5现在可以做到无需预设语种标签，就自动识别并切换，保证转写的准确性。

英日codeswitch

ASR结果：We've all had that experience of finally visiting a place we've dreamed about for years,only to find that it doesn't quite live up to our expectations.There's even a term for this in one of the most visited cities in the world,Paris Syndrome.何年も前から行きたかった場所をやっと訪れてみたら、思っていたほどではなかったという経験は誰しもあることだと思います。

这种灵活的多语言能力，源于模型的架构和训练创新。MoE（混合专家）架构让模型内部可以分工协作，听到特定语言时仅激活相关部分进行处理，因而更为灵活高效。同时，在训练阶段分级、分阶段地使用精准数据，也让模型能更好地应对真实世界中的复杂语音情况。

图说：Fun-ASR1.5在开源多语言测试集中获得多项SOTA。

听得更准

数十万小时数据，驱动“听得懂乡音”

在中文本土化方面，基于数十万小时真实方言语音数据的“喂养”，Fun-ASR1.5的平均字错误率（CER）相比上一版本下降 56.2%。

上海话

ASR结果：现在发展了蛮快个现在伊拉用户算大户唻

客家话

ASR结果：呃，那些吃的不就这样的土笋冻啊，我觉得不好吃。

粤语

ASR结果：诶，其实可能有时候觉得去超市都几远下噶。

闽南话

ASR识别结果：但是一个人若是两三两百箍一百外箍安无算贵吧，吼自助餐啊，啊你也有肉咯也有菜咯也有水果咯也有甜点咯，啥物计有咯。

不仅听得懂，还能“写得地道”，Fun-ASR1.5可原汁原味还原方言，如上海话的“侬”、苏州话“倷”（均指“你”），为下游模型处理方言文字提供了准确的基础语料。

图说：Fun-ASR1.5在工业方言测试集中获得多项SOTA。

新增“古诗词”技能点，让千年韵律被听懂

不同于现代口语，文言语法特殊、典故生僻字繁多，具有不少挑战：

文言语法简练，省略主谓宾；
押韵严格，节奏固定（如五言、七言律诗）；
多用典故、异体字、古今异义词；
诵读时存在拖腔、停顿、吟咏等非自然语流特征。

Fun-ASR1.5对中文古诗词识别进行专项优化。研究团队构建了先秦至近代的古诗词语音-文本对齐语料库，涵盖《诗经》《楚辞》、李白杜甫诗集、苏轼辛弃疾词作等经典文本的真人诵读录音。

在内部评测集中，Fun-ASR1.5对古诗词的字符级准确率达到 97%，可应用于国学在线课程和有声诗词，助力文化传承。

ASR结果：蓬山此去无多路，青鸟殷勤为探看。

ASR结果：子夏曰，博学而笃志，切问而近思，仁在其中矣。

写得更规范

从“能听清”到“看得懂”

语音识别的终极价值在于生成可直接使用的文本。Fun-ASR1.5在后处理环节重点优化了两项能力：

1. 标点预测更加智能

模型基于上下文语义自动插入逗号、句号、问号、感叹号等标点，使转写结果接近书面表达。例如：

输入语音：“今天天气怎么样啊我想出去走走但又怕下雨”

输出文本：“今天天气怎么样啊？我想出去走走，但又怕下雨。”

2. 文本归一化（ITN）表现进一步提升

将口语中的非标准表达自动转换为规范格式：

数字：“三千五百六十二” → “3562”
日期：“二零二六年三月二十九号” → “2026年3月29日”
金额：“五万八千块” → “58000元”
电话：“幺三八零零幺三八零零零” → “13800138000”

这些改进大幅降低了会议纪要、新闻采访整理、法律笔录等场景的后期人工校对和编辑成本。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-04

ContextBucket：Agent 的"无限"记忆与工作区底座

2026-06-04

写给 Codex 小白用户的全网最详细教程：从 0 到 1，把它真正用起来

2026-06-03

Kimi Work Beta 版邀你体验：你的工作，分我一半

2026-06-03

实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

2026-06-03

Agent 越能干，你越不敢放手？ANOLISA给它穿上全套防护

2026-06-03

《审慎部署智能体AI服务》指南

2026-06-03

OpenClaw 和 Hermes 没凉，浅层使用先退场了

2026-06-03

Anthropic突然上线全新CLI：一行命令操控Claude全部API

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

2026年国内如何注册 Claude 账号教程

2026-03-13

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

大家都在问

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部