2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

32.4k Star!微软开源语音AI全家桶,一次搞定TTS和ASR,还是ICLR Oral

发布日期:2026-04-01 12:06:06 浏览次数: 2579
作者:何三笔记

微信搜一搜,关注“何三笔记”

推荐语

微软开源语音AI全家桶VibeVoice,32.4k Star项目引爆开发者社区,TTS+ASR双杀还获ICLR顶会认可!

核心内容:
1. VibeVoice三大核心模型解析:ASR-7B长音频处理、TTS-1.5B多说话人合成、Realtime-0.5B低延迟流式合成
2. 突破性能力:60分钟音频单次转录/90分钟多说话人合成/300ms实时响应
3. 开发生态:HuggingFace集成+中文支持+热词定制,但TTS模型暂因伦理问题受限

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

语音AI领域,微软又扔了个重磅炸弹。

VibeVoice,GitHub 32.4k Star,3.6k Fork。MIT 协议开源。一套模型家族,同时覆盖 TTS(文本转语音)和 ASR(语音识别),而且其中 TTS 论文直接被 ICLR 2026 接收为 Oral。

这是什么概念?语音合成领域顶会 Oral,微软直接把代码开源了。


vibevoice_cover


我花了一些时间研究这个项目,今天把它的核心架构、三个模型的能力边界、以及实际能怎么用,聊清楚。

三兄弟:一个家族,三种能力

VibeVoice 不是一个单体模型,而是由三个模型组成的家族:

  • VibeVoice-ASR-7B:语音转文字
  • VibeVoice-TTS-1.5B:文本转语音
  • VibeVoice-Realtime-0.5B:实时流式语音合成


vibevoice_01


三个模型各有分工,覆盖了语音 AI 的核心场景。先逐个拆开看。

ASR:一口气吃下60分钟音频

传统 ASR 有个老问题——长音频处理得切片。

你丢进去一段一小时的开会录音,它先切成 30 秒一段,每段分别识别,最后拼起来。问题就出在拼接上:跨段说话人跟踪丢了、全局语义断了、时间戳对不上了。

VibeVoice-ASR 的思路很直接:不切

它用 64K Token 的上下文窗口,一次接收完整 60 分钟音频,单次 pass 直接输出结构化转录结果。输出包含三个维度:

  • Who:谁在说话(说话人识别/日志化)
  • When:什么时间说的(时间戳)
  • When:说的什么内容(文字转录)

更实用的是支持自定义热词。你可以告诉模型特定的专有名词、人名、术语,识别准确率在专业领域会有明显提升。50 多种语言原生支持,中文没问题。

另外,这个模型已经被 Hugging Face Transformers v5.3.0 正式集成了。也就是说你可以像用任何 HF 模型一样,几行代码直接调用。

TTS:90分钟,4个人,一次合成

这个是重头戏。

VibeVoice-TTS 能一次性合成最长 90 分钟的语音,单说话人或最多 4 个说话人的对话都行。而且全程保持说话人一致性和语义连贯性。

90 分钟是什么概念?基本上一整期播客、一场完整的讲座、一部有声书的几个章节——一次性搞定,不需要分段再拼。

多说话人支持也是个亮点。4 个人的对话场景,每人声音特征独立,轮流发言自然连贯。对播客制作者、有声内容创作者来说,这个能力直接就能落地用。

支持的特性也不少:中英双语、跨语种合成、情感表达,甚至能做即兴演唱。

不过有个事得说一下——TTS 代码之前短暂开源后又关闭了。微软发现被用于不符合项目声明的场景,出于 AI 负责任使用的原则做了处理。目前只有 ASR 和 Realtime 模型完全可用。

Realtime:300ms 首包延迟的流式 TTS

0.5B 参数,轻量级,部署友好。

这个模型主打实时场景:流式文本输入,一边生成文本一边合成语音。首包可听延迟大约 300ms,长语音能跑大约 10 分钟。

支持九种语言的多语言音色,还有 11 种不同风格的英文声音。对于需要集成实时语音能力的应用——比如语音助手、实时翻译、对话系统——这个模型的尺寸和延迟表现都比较合适。

Google Colab 上有现成的 Demo,可以直接跑。

底层技术:为什么能做到这么长?

VibeVoice 的核心技术贡献,总结下来就两点。


vibevoice_02


第一,7.5Hz 超低帧率的连续语音 Tokenizer。

传统的语音离散化方案,帧率通常很高(比如 50Hz),意味着每秒要生成 50 个 token。处理长音频时,token 序列长度爆炸,计算量扛不住。

VibeVoice 用了声学和语义两套连续 Tokenizer,帧率压到 7.5Hz——每秒只生成 7.5 个 token。音质没明显损失,但计算量降了一个数量级。这才让 60 分钟(90 分钟)长序列的处理变得可行。

第二,Next-Token Diffusion 框架。

架构上分成两部分:一个 LLM 主干理解文本上下文和对话流程,一个扩散头负责生成高保真的声学细节。

LLM 部分用的是 Qwen2.5 1.5B,相当于给它一个"懂语言的大脑"来理解文本。然后扩散头把语义理解转化为精确的声学特征。两个模块协同,既保证了语义准确性,又保证了语音自然度。

简单说就是:LLM 负责"懂",扩散头负责"好听"。

能怎么用?

实际落地的场景,我想到几个:

会议记录自动化。丢进去一小时的会议录音,出来就是结构化的转录——谁在什么时候说了什么。自带时间戳和说话人标注,比手动做纪要快太多。

播客/有声书制作。用 TTS 模型合成多说话人的长篇音频,单次跑完 90 分钟。虽然 TTS 代码目前关闭了,但 Realtime 模型可以流式跑,适合短到中等长度的场景。

语音助手后端。Realtime 模型 300ms 首包延迟 + 流式输入,配合 ASR 模型做语音识别,基本就是一个完整的语音交互后端。

代码集成门槛很低。ASR 已经进了 Hugging Face Transformers,标准的 pipeline 调用就行。vLLM 推理加速也支持,进一步降低部署成本。

几个需要注意的点

项目明确标注了仅供研究和开发用途,不建议直接在商业或生产环境中使用。

高保真合成语音有被滥用的风险——深度伪造、诈骗、虚假信息传播这些老问题。微软在 README 里专门强调了这一点。

TTS 部分代码目前不可用,这是个硬伤。整个家族里最能打的功能暂时用不了,只能通过 Hugging Face 页面的 Demo 体验效果。社区在呼吁微软重新开放,但短期内估计不会。

ASR 模型 7B 参数量不算小,本地跑需要一定的 GPU 资源。不过有 vLLM 加速和 finetuning 代码,对有基础设施的团队来说问题不大。

说点什么

语音 AI 这两年发展很快,但大多数开源项目要么只做 TTS,要么只做 ASR,能同时覆盖两端、还做到长序列处理的项目不多。VibeVoice 把两头都做到了 60-90 分钟级别,技术上确实有突破。

32.4k Star 说明社区认可度很高。ICLR 2026 Oral 论文的含金量也在。

唯一遗憾是 TTS 代码关了。如果微软后续能找到合适的开源策略重新开放,这个项目的价值会再上一个台阶。

对语音 AI 方向感兴趣的开发者,建议先从 ASR 模型和 Realtime 模型入手,跑一跑 Hugging Face 和 Colab 的 Demo,感受一下效果。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅