支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Google 开源全球首个实时音乐大模型

发布日期:2025-07-01 12:19:48 浏览次数: 1523
作者:AI深思维

微信搜一搜,关注“AI深思维”

推荐语

谷歌DeepMind开源全球首个实时音乐生成大模型Magenta RT,创作速度比播放还快60%,让AI音乐创作进入实时交互时代。

核心内容:
1. Magenta RT的技术突破:分块流式生成、跨模态控制和8亿参数大模型
2. 音乐生成原理:从音频编码到自回归模型生成的全流程
3. 三种体验方式:Colab演示、本地部署和Hugging Face在线体验

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
谷歌 DeepMind开源 MAgenta RealTime(Magenta RT),这是全球首个支持实时交互的音乐生成大模型。

Magenta RT 有多牛?

Magenta RealTime 是全球首个开源的实时音乐生成大模型,它实现了 “创作快于播放”,在免费 Colab 平台上,生成 2 秒音乐仅需 1.25 秒,速度比实时播放快 60%。

它采用分块流式生成技术,把音乐切成 2 秒的小片段连续生成,每个片段都会参考前 10 秒的音乐背景,以保证旋律连贯演进。其跨模态控制能力,让用户能用文字描述或直接哼一段旋律,AI 就会自动理解意图。

它还采用了 SpectroStream 音频压缩器、拥有 8 亿参数大模型,并通过硬件加速优化提升了生成速度。

Magenta RT 是如何生成音乐的?

Magenta RealTime 通过以下方式生成音乐:

首先,它利用 SpectroStream 音频编码器对音乐进行编码,将 48kHz 立体声高保真音频转化为离散音频标记。

然后,它基于 MusicCoCa 嵌入技术,将文本提示或参考音频实时映射到语义空间,作为风格嵌入。

接着,基于 Transformer 的自回归模型根据前 10 秒的粗糙音频标记和风格嵌入,生成下一个 2 秒的细粒度音频标记。

最后,通过 SpectroStream 音频解码器将生成的音频标记还原为高保真音频。

该模型以 2 秒音频块为单位持续生成,每个片段动态融合前 10 秒的上下文音频,确保旋律连贯演进。

怎么体验Magenta RT?

目前有多种方式可以体验 Magenta RealTime:

一是通过官方的 Colab 演示,无需本地部署,直接在浏览器中运行即可。

二是本地部署,可从 GitHub 安装,支持 CPU、GPU、TPU 多种部署方式。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询