微信扫码
添加专属顾问
我要投稿
微软开源VibeVoice TTS模型,突破90分钟超长语音合成与4人自然对话的技术瓶颈! 核心内容: 1. VibeVoice模型的核心创新与性能突破 2. 两大系列模型的具体参数与应用场景 3. 开源部署方案与在线体验方式
在文本转语音(TTS)领域,生成长篇、多说话人的高质量音频(如播客)一直是技术挑战。
传统TTS模型如ElevenLabs或CosyVoice受限于短序列生成(1-2分钟)或1-2位说话人,难以应对复杂对话场景。
微软最新开源的 VibeVoice TTS 模型,可一次生成90分钟连续语音,支持4个不同说话人,超越了以往许多模型通常仅支持1-2位说话者的限制。
其核心创新在于使用连续语音分词器(声学和语义)在超低帧率7.5 Hz下运行。可高效地保留音频保真度,同时显著提升处理长序列的计算效率。
提供了两个主要系列模型:
VibeVoice-1.5B:15亿参数模型,具有64K上下文长度,能够生成约90分钟的音频VibeVoice-7B-Preview:70亿参数模型,具有32K上下文长度,能够生成约45分钟的音频GitHub:https://github.com/microsoft/VibeVoice
微软官方上线了 VibeVoice 的Demo版本,可直接在线体验。(需魔法)
Demo:https://86636c494bbddc69c7.gradio.live
有硬件条件的也可以在本地部署:
前置要求:
部署方案 1:使用 Docker(推荐)
推荐使用 NVIDIA 深度学习容器来管理 CUDA 环境:
# 启动 Docker 容器
sudo docker run --privileged --net=host --ipc=host --ulimit memlock=-1:-1 --ulimit stack=-1:-1 --gpus all --rm -it nvcr.io/nvidia/pytorch:24.07-py3
# 如果不包含 flash attention,请手动安装
# pip install flash-attn --no-build-isolation部署方案 2:源码安装
# 克隆仓库
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice/
# 安装软件包
pip install -e .实际用法
用法 1:启动 Gradio 演示
apt update && apt install ffmpeg -y # for demo
# For 1.5B model
python demo/gradio_demo.py --model_path microsoft/VibeVoice-1.5B --share
# For 7B model
python demo/gradio_demo.py --model_path WestZhang/VibeVoice-Large-pt --share该方式将启动网页服务,需要下载 VibeVoice 模型并准备好语音样本。它会自动扫描 demo/voices 目录中的语音文件,并从 demo/text_examples 加载示例脚本。
用法 2:直接从文件中进行推理
# We provide some LLM generated example scripts under demo/text_examples/ for demo
# 单说话人
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/1p_abs.txt --speaker_names Alice
# 多说话人
python demo/inference_from_file.py --model_path WestZhang/VibeVoice-Large-pt --txt_path demo/text_examples/2p_music.txt --speaker_names Alice YunfanVibeVoice 是一个前沿框架,专为从文本生成富有表现力、长篇幅、多说话人的对话音频而设计。
由微软开发的这一创新系统解决了传统文本转语音(TTS)系统中的重大挑战,特别是在可扩展性、说话人一致性以及对话中的自然轮换方面。
尤其适合需要长时连续音频的场景。对于开发者和内容创作者来说,这无疑是一个极具潜力的开源工具
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-02
FireRed-OCR 开源发布:端到端方案新SOTA!小红书提出低成本文档识别训练范式
2026-03-02
137K 行代码、零 clippy 警告:这个开源项目凭什么让 AI Agent 领域炸锅?
2026-03-01
别总盯着 Claude Cowork 了,OpenWork 开源版来了,功能直接拉满!Windows 客户端
2026-02-28
Claw 的普及,打开了 AI 社交的叙事空间
2026-02-28
构建比官方更顺手的 Codex,Skills 自动化同步上游
2026-02-27
Kimi-K2.5在RTX 6000 PROx8私有化部署教程
2026-02-26
AI Agent系列|深入解析Function Calling、MCP和Skills的本质差异与最佳实践
2026-02-25
【本地部署实测】2万+开源手机智能辅助项目:电脑端一键搭建Open-AutoGLM,ADB+WiFi无线连接,让手机按你的意思全自动操作
2026-01-27
2026-01-30
2026-01-29
2026-01-12
2025-12-22
2026-01-27
2026-01-28
2026-01-21
2025-12-10
2025-12-23
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16