微信扫码
添加专属顾问
我要投稿
阿里开源两大端侧AI模型,实现跨语种音色克隆与说唱识别,为开发者带来高效本地化解决方案。 核心内容: 1. Fun-CosyVoice3 0.5B TTS模型:支持9种语言18种方言的零样本语音克隆,延迟低至150毫秒 2. Fun-ASR-Nano 0.8B ASR模型:优化远场高噪声识别,支持31种语言和7种中文方言 3. 两大模型协同实现本地"听+说"闭环,特别强化音乐背景下的语音识别能力
2025年眼看就要接近尾声了,AI 圈的风向也正在悄悄发生变化。
大家不再一味追求千亿参数的「巨无霸」模型,而是开始卷端侧模型。
阿里 FunAudioLLM 团队显然深谙此道。这次他们发布的 Fun-CosyVoice3 0.5B 和 Fun-ASR-Nano 0.8B,简直就是为本地党和开发者量身定制的年终大礼。
TTS、ASR 双线程开源,而且它们不是“实验模型”,而是能直接落地用的工程级版本。
先说结论,这两个模型不是各玩各的,而是明显冲着一个目标去的:
在本地,把“听 + 说”这件事真正跑顺。
先说 TTS,这一版 CosyVoice 的关键词只有一个:
“输入即发声”
CosyVoice3 的升级将延迟直接砍半,是真正的“输入即发声”。
具备表现如下:
大白话就是:AI 说话更快、更稳,也更不容易读错。
而且支持双向流式合成:文本一边进,声音一边出,不用等整段文本生成完成。
更狠的是支持跨语种音色复刻。
也就是说:用一段普通话录音,就能生成粤语/日语/英语等语言的同一音色。
如果说 TTS 决定「像不像人」,那 ASR 决定的是:你到底能不能听懂人。
Fun-ASR-Nano 是一款基于数千万小时真实语音数据训练的端到端语音识别大模型。它支持低延迟实时转写,并涵盖 31 种语言识别功能。
虽然是 Fun-ASR 的轻量化版本,但这次更新明显不是“阉割版”。
这些升级点,不得不说是非常懂中国真实语音环境的。
把 Fun-ASR-Nano、Fun-CosyVoice3 放在一起,其实能看出阿里的野心:
不是做 Demo,而是做“语音底座”。
你可以很自然地搭出:本地语音助手、隐私优先的会议系统、实时翻译 + 语音播报、多语言语音 Agent ...
而且全部可私有化部署。
把拟人化语音交互的门槛降到了地板上。无论你是想给自己做一个语音工具,还是想为公司产品增加语音能力,这套开源方案都是目前性价比最高、功能最全的选择之一。
特别是那个零样本跨语种克隆和说唱识别,真的建议大家部署下来玩一玩,绝对会让你惊掉下巴。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-16
26.1%的AI编程技能有漏洞:NVIDIA开源 SkillSpector 能扫出什么?
2026-06-12
当 AI Coding Agent 成为基础设施:我们为什么要开源 LoongSuite Pilot
2026-06-09
CPU 跑得比 Whisper GPU还快的开源语音识别,本地部署
2026-06-09
别再问我什么是爱马仕!
2026-06-09
Open Design:开源界的 Claude Design 替代品,61.7K Star,21+ Agent 都能跑,本地第一
2026-06-08
我开源了 PPT-Library:让历史 PPT 变成 AI 可复用资产
2026-06-08
knowledge-work-plugins:Anthropic 官方开源的知识工作插件集,19,000+Star
2026-06-08
从搜索、点击、表单填写到复杂网页操作,让 AI 像人一样使用浏览器
2026-03-30
2026-04-09
2026-04-03
2026-03-23
2026-04-01
2026-03-31
2026-03-30
2026-04-18
2026-04-18
2026-03-20
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01