我要投稿

Microsoft 推出用于更长对话式 AI 音频的 VibeVoice 且开源

发布日期：2025-09-17 16:02:01 浏览次数： 2025

作者：AI音频时代

微信搜一搜，关注“AI音频时代”

微软发布了 VibeVoice，这是一个新的开源人工智能（AI）模型，用户可以利用它来创建播客和其他音频内容，这是对谷歌流行的 NotebookLM 的一种回应。

但两者之间存在显著差异。微软的文本转语音模型可以生成四种声音，并且能够制作长达 90 分钟的播客质量语音。而 NotebookLM 只能生成两种声音。

此外，VibeVoice 可以阅读和组织文本，而 NotebookLM 则是处理文档并将其转换为两人播客。根据技术公司 Hugging Face 的说法，用户还可以查询并获取文档摘要。这意味着 VibeVoice 并不试图理解文本，而是将其以可听的方式呈现，其目的是取代录音棚。

VibeVoice 是语音 AI 技术的最新产品，该领域一直吸引着风险投资资金。根据市场研究公司 CB Insights 的数据，2024 年，语音 AI 初创公司筹集了 21 亿美元的资金，比前一年增长了八倍。语音购物的兴趣也在增加：PYMNTS Intelligence 的一份报告显示，30.4% 的 Z 世代消费者每周都会通过语音购物，其次是千禧一代。在所有年龄段中，平均有 17.9% 的消费者使用语音购物。

VibeVoice 拥有 15 亿个参数，对于一个能够支持多说话者对话的模型来说，这个规模相对较小。它是使用阿里巴巴开源的 Qwen2.5 进行训练的，这是一个大型语言模型，有助于在对话中协调自然的轮流发言和上下文感知的语音模式。

微软声称，这意味着 VibeVoice 可以在四种声音之间产生流畅的对话，同时在更长的对话中保持每种声音的独特特征。

如何使用 VibeVoice

VibeVoice 的潜在研究应用包括以下方面：

播客和培训内容的原型设计

创作者可以利用多种 AI 声音生成模拟播客、小组讨论或培训模块。与其聘请四位配音演员来测试对话流程，用户可以在几分钟内使用文本创建一个合成版本。

无障碍和教育

教育材料、教科书或研究论文可以被转换为具有不同旁白的长篇音频。这可以帮助那些通过听觉学习效果更好的人，或者使晦涩的材料更具吸引力。

游戏和媒体开发

游戏开发者或讲故事的人可以利用 VibeVoice 来设计角色之间的对话。因为它可以处理四个说话者，所以你可以安排一场完整的游戏中对话，而无需进行录音会话。

鉴于深度伪造的风险，微软表示，VibeVoice 的防护措施包括确保每个音频文件都包含免责声明（例如“本段由 AI 生成”）和隐藏的数字水印。

它禁止模仿、虚假信息以及实时语音转换等实时深度伪造用途，例如在通话中的语音转换。目前，它仅支持英语和中文语音。该模型仅用于研究，而非商业部署。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-29

海外著名投资人的内部 AI 工具，才是真干货

2026-04-28

实测了 DeepSeek V4 后，我的评价是...

2026-04-26

Linux基金会背书 Goose：全能型本地 AI Agent 杀手，一键接管你的所有工作流！

2026-04-26

今天起，DeepSeek V4成OpenClaw默认模型！

2026-04-26

初识OpenSpec

2026-04-25

DeepSeek V4报告太详尽了！484天换代之路全公开

2026-04-24

阿里云 AI 网关支持 DeepSeek V4

2026-04-24

一手实测 DeepSeek V4，代码能力真的很强

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

全网都在猜DeepSeek V4的发布时间，但国产模型激战还有一条暗线

2026-02-14

1700人收藏！港大开源 ClawWork：开局 10 美元，AI 靠打工 7 小时狂赚 1 万刀！

2026-02-18

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

2026-02-22

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

大家都在问

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部