微信扫码
添加专属顾问
我要投稿
阿里发布超强语音处理模型FunAudioLLM,语音方向卷起来了,成熟度非常高,FunAudioLLM是一个旨在增强人与大语言模型 (LLMs) 之间自然语音交互的框架。其核心包括两个创新模型:SenseVoice和CosyVoice
SenseVoice专注于高精度的多语言语音识别、情感识别和音频事件检测,具备极低的延迟,支持超过50种语言
SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括 ASR、LID、SER 和 AED。SenseVoice-Small 是一种仅编码器的语音基础模型,用于快速语音理解;SenseVoice-Large 是一种编码器-解码器语音基础模型,用于更准确的语音理解,支持更多的语言
CosyVoice则擅长自然语音生成,具备多语言、音色和情感控制能力,能够实现多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟随功能
CosyVoice 包含一个自回归变换器,用于为输入文本生成相应的语音标记;一个基于 ODE 的扩散模型(流匹配),用于从生成的语音标记重建梅尔频谱;以及一个基于 HiFTNet 的声码器,用于合成波形。 虚线内的模块在特定的模型使用中是可选的,如跨语言、SFT 推断等
相关的SenseVoice和CosyVoice模型已在Modelscope和Huggingface上开源,其训练、推理和微调代码也已在GitHub上发布。通过将这些模型与LLMs结合,FunAudioLLM推动了语音交互技术的前沿,应用场景包括语音翻译、情感语音聊天、互动播客和富有表现力的有声读物叙述
实际表现
S2ST:语音到语音翻译
通过整合 SenseVoice、LLMs 和 CosyVoice,可以毫不费力地实现语音到语音的翻译 (Speech-to-Speech Translation),下面的例子是中文到英文,日语,韩语
情感语音聊天
通过整合 SenseVoice、LLMs 和 CosyVoice,开发一款情感语音聊天应用。在下面的例子中,用户和助理的内容都是由 CosyVoice 合成的
交互式播客
通过整合 SenseVoice(一个基于 LLM 的多代理系统,具有实时世界知识)和 CosyVoice,可以创建一个实时交互式播客
富有表现力的有声读物
通过 LLM 的分析能力来构建和识别书籍中的情感,并将其与 CosyVoice 相结合,可以实现具有更强表现力的有声读物
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-14
AI时代如何为企业和个人赋能
2025-06-14
没吃透 Function Calling?难怪你不理解 AI Agent 为何非来不可!
2025-06-14
浅尝一下微软的AutoGen框架
2025-06-14
基于大模型的智能运营 | 智能体式编排,业务流程管理的新阶段
2025-06-14
从Manus爆火看Agent AI的技术演进与市场变革——AI Agent全景研报
2025-06-14
张鹏对谈李广密:Agent 的真问题与真机会,究竟藏在哪里?
2025-06-14
为什么说Maus是未来任务型AI系统的代表?
2025-06-14
AI agent如何进化为天网
2025-05-29
2025-03-20
2025-03-21
2025-04-11
2025-03-20
2025-03-19
2025-03-20
2025-03-19
2025-03-19
2025-03-19
2025-06-14
2025-06-14
2025-06-13
2025-06-13
2025-06-13
2025-06-13
2025-06-12
2025-06-12