微信扫码
添加专属顾问
我要投稿
阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高,FunAudioLLM是一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型:SenseVoice和CosyVoice
SenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言
SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型,用于快速语音理解;SenseVoice-Large 是一种编码器-解码器语音基础模型,用于更准确的语音理解,支持更多的语言
CosyVoice则擅长自然语音生成,具备多语言、音色和情感控制能力,能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能
CosyVoice 包含一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于 ODE 的扩散模型(流匹配),用于从生成的语音标记重建梅尔频谱;以及一个基于 HiFTNet 的声码器,用于合成波形。 虚线内的模块在特定的模型使用中是可选的,如跨语言、SFT 推断等
相关的SenseVoice和CosyVoice模型已在Modelscope和Huggingface上开源,其训练、推理和微调代码也已在GitHub上发布。通过将这些模型与LLMs结合,FunAudioLLM推动了语音交互技术的前沿,应用场景包括语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述
实际表现
S2ST:语音到语音翻译
通过整合 SenseVoice、LLMs 和 CosyVoice,可以毫不费力地实现语音到语音的翻译 (Speech-to-Speech Translation),下面的例子是中文到英文,日语,韩语
情感语音聊天
通过整合 SenseVoice、LLMs 和 CosyVoice,开发一款情感语音聊天应用。在下面的例子中,用户和助理的内容都是由 CosyVoice 合成的
交互式播客
通过整合 SenseVoice(一个基于 LLM 的多代理系统,具有实时世界知识)和 CosyVoice,可以创建一个实时交互式播客
富有表现力的有声读物
通过 LLM 的分析能力来构建和识别书籍中的情感,并将其与 CosyVoice 相结合,可以实现具有更强表现力的有声读物
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-04
你以为AI理解了,其实没有
2025-06-04
Ollama发布更新,支持带工具调用的流式响应
2025-06-04
对话傅盛:Agent杀死了传统图形界面
2025-06-04
大模型是如何会“思考”的?—— 对 Lilian Weng《Why We Think》的非技术向阅读笔记
2025-06-04
大模型稀疏化技术原理:DoubleSparse
2025-06-04
企业级人工智能 | 你的企业怎么上智能体
2025-06-04
Fellou2.0 后,这个世界第一款浏览器Agent 变好用了吗?
2025-06-04
6大MCP服务器,让AI开发者从“青铜”秒变“王者”
2024-08-13
2024-06-13
2024-08-21
2024-07-31
2024-09-23
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20
2025-06-04
2025-06-04
2025-06-03
2025-06-02
2025-05-31
2025-05-29
2025-05-29
2025-05-29