微信扫码
添加专属顾问
我要投稿
3秒极速克隆声音!CosyVoice3一键包带来革命性语音合成体验,延迟降低50%,支持18种方言和9种情感控制。 核心内容: 1. CosyVoice3的核心升级:延迟降低50%、中英混说错误率下降56.4% 2. 一键包操作指南:3秒极速克隆和自然语言控制功能 3. 支持多语言、方言及情感控制,接近人类录音水平
终于把 CosyVoice3 这个一键包给搞出来了!(见文末)
前两天阿里通义突然就开源了一个语音合成模型,一个语音识别模型。
这两个模型可玩性很高!其中的语音合成模型 CosyVoice,我在很久之前就介绍过,很厉害,也制作过一键包。
下面让马老板亲自给大家介绍一下这个模型:
然后来听一段悄悄话:
很显然 CosyVoice3 会比之前的版本强很多,具体有哪些方面的提升,可以看下面的介绍。
Fun-CosyVoice3 大模型完成多项关键升级:
注意,这个是在之前的 3.0 的基础上升级的部分。而 3.0 又在 2.0 上做了很多升级。
CosyVoice3 的介绍就说这么多。下面就说一下一键运行包怎么用。
整体来说很简单,模型,软件和依赖都已经全部打包在里面了。只要你硬件没问题,运行起来应该很轻松。
具体方法如下。
首先下载软件包。
然后在本地解压,解压之后点击 启动.bat。
启动之后会自动调用浏览器,并打开主界面。
主界面上有两种推理模式,我们首先来演示 3 秒极速克隆。
按下图操作即可:
1️⃣ 输入要合成内容
2️⃣ 选择 3 秒极速复刻
3️⃣ 上传参考声音(或直接录制自己的声音)
4️⃣ 点击生成音频。
稍等片刻,根据参考声音合成的音频就做好了。做好之后会自动播放。
点击右下角可以下载!
自然语言控制,就是指令控制。可以通过指令来控制声音克隆的效果。
软件预设了各种指令文本,只要点击下拉选择即可。
可以说方言,可以用不同的语气,也可以调整语速。
其他操作和上面的 3 秒克隆一致。
输入并选择好之后,点击生成音频就可以了。
从我的测试来看,声音克隆效果非常好。但是指令控制还比较弱,会影响相似度。可能闭源的 1.5B 模型会好一些。
这么说应该很容易理解吧!理解不了我也没办法咯
获取软件的方式:给公众号发送“CosyVoice”即可获得全套软件!
收工!此处可以适当点赞!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-21
警惕!每天用AI的人,大脑正在变“懒”:MIT实验证实思考退化危机
2025-12-21
AI写代码,越改越错?前OpenAI首席科学家:我们高估了它的理解
2025-12-21
Claude赢麻了?OpenAI Codex正式支持Skills,GitHub连夜上车!
2025-12-21
别卷万亿参数了。Google 这个只有 270M 的“袖珍”模型,才是 2025 年的真杀器
2025-12-20
神级更新!Gemini 直连 NotebookLM,这才是真正的第二大脑。
2025-12-20
AI接管输入法
2025-12-20
平均每个月亏3亿!从智谱招股书,我看到了大模型竞争的残酷现实
2025-12-20
我们可能搞错了 AI 的方向:未来不属于生成式 AI
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-02
2025-10-18
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11
2025-12-09
2025-12-08