我要投稿

23.5k Star！OpenVoice：这款AI工具能够精准模仿你的声音并说出任何语言！

发布日期：2024-06-23 06:07:07 浏览次数： 3971

作者：AI进修生

微信搜一搜，关注“AI进修生”

从一小段音频中复制声音并生成多种语言的语音。它不仅支持精准的音色克隆，还可以灵活控制语音风格，如情感和口音，确保声音输出自然流畅。

体验地址：

https://app.myshell.ai/zh/web3/chat

准确的音色克隆

OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。

灵活的语音风格控制

OpenVoice 可以对语音风格（例如情感和口音）以及其他风格参数（包括节奏、停顿和语调）进行精细控制。在这里，我们演示了对生成声音的情感和口音的控制。

零样本跨语言语音克隆

参考语音和生成的语音可以是海量说话人多语言数据集之外的任何语言。在下面的例子中，我们使用“U”来表示未见过的语言。

如何使用

以下涉及到的链接无法跳转，请参考如下原教程文档链接

https://github.com/myshell-ai/OpenVoice/blob/main/docs/USAGE.md

Linux安装

本节仅供熟悉Linux、Python和PyTorch的开发人员和研究人员使用。克隆此存储库，并运行

conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .

无论您使用V1还是V2，上述安装过程都是相同的。

OpenVoice V1

从这里下载检查点，并将其解压缩到checkpoints文件夹中。

1. 灵活的语音风格控制。 请参阅demo_part1.ipynb以了解OpenVoice如何实现对克隆声音的灵活风格控制的示例用法。

2. 跨语言语音克隆。 请参阅demo_part2.ipynb以了解在MSML训练集中看到或未看到的语言的示例。

3. Gradio演示。 我们在这里提供了一个简约的本地gradio演示。如果用户在使用gradio演示时遇到问题，我们强烈建议用户查看demo_part1.ipynb、demo_part2.ipynb和QnA。使用python -m openvoice_app --share启动本地gradio演示。

OpenVoice V2

从这里下载检查点，并将其解压缩到checkpoints_v2文件夹中。

安装MeloTTS：

pip install git+https://github.com/myshell-ai/MeloTTS.git
python -m unidic download

演示用法。 请参阅demo_part3.ipynb以了解OpenVoice V2的示例用法。现在它原生支持英语、西班牙语、法语、中文、日语和韩语。

更多配音相关

下面两个灰色的，一个是微软最新的神经网络配音网页资源，一个是实时配音：唯有入梦rvc。

获取：

链接：https://pan.baidu.com/s/16aG3_cZPVjvkkd-QWuKmOw?pwd=1234 提取码：1234

除此以外这个视频介绍了使用 GPT4语音api的教程：

https://www.bilibili.com/video/BV1P64y1E72W/

— 完 —

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-27

一个神奇的视频生成 Skills，实测，狂喜

2026-04-26

你的一人公司品牌部，带着Image-2模型的lovart中文版来了

2026-04-22

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

2026-04-22

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-21

PaddleOCR 3.5 发布：Web 端直用、文档一键转 Markdown，生态交互新体验

2026-04-21

用Claude Code剪视频，自动去口癖、加字幕、调色，完全免费开源

2026-04-15

刚刚，李飞飞最新成果发布，手机也能跑亿级粒子的 3D 世界了｜附体验地址

2026-04-09

豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

零帧起手 Codex × Figma 双向工作流实操

2026-03-05

Seedance 2.0 正式发布

2026-02-12

NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

2026-02-27

Seedance 2.0上线火山方舟体验中心，API即将开放

2026-02-12

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

2026-03-11

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

2026-04-02

GLM-OCR技术细节全公开

2026-03-18

Qwen-Image-2.0: 字字清晰，张张细腻

2026-02-10

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw