我要投稿

Google 开源全球首个实时音乐大模型

发布日期：2025-07-01 12:19:48 浏览次数： 1773

作者：AI深思维

微信搜一搜，关注“AI深思维”

谷歌 DeepMind开源 MAgenta RealTime（Magenta RT），这是全球首个支持实时交互的音乐生成大模型。

Magenta RT 有多牛？

Magenta RealTime 是全球首个开源的实时音乐生成大模型，它实现了 “创作快于播放”，在免费 Colab 平台上，生成 2 秒音乐仅需 1.25 秒，速度比实时播放快 60%。

它采用分块流式生成技术，把音乐切成 2 秒的小片段连续生成，每个片段都会参考前 10 秒的音乐背景，以保证旋律连贯演进。其跨模态控制能力，让用户能用文字描述或直接哼一段旋律，AI 就会自动理解意图。

它还采用了 SpectroStream 音频压缩器、拥有 8 亿参数大模型，并通过硬件加速优化提升了生成速度。

Magenta RT 是如何生成音乐的？

Magenta RealTime 通过以下方式生成音乐：

首先，它利用 SpectroStream 音频编码器对音乐进行编码，将 48kHz 立体声高保真音频转化为离散音频标记。

然后，它基于 MusicCoCa 嵌入技术，将文本提示或参考音频实时映射到语义空间，作为风格嵌入。

接着，基于 Transformer 的自回归模型根据前 10 秒的粗糙音频标记和风格嵌入，生成下一个 2 秒的细粒度音频标记。

最后，通过 SpectroStream 音频解码器将生成的音频标记还原为高保真音频。

该模型以 2 秒音频块为单位持续生成，每个片段动态融合前 10 秒的上下文音频，确保旋律连贯演进。

怎么体验Magenta RT？

目前有多种方式可以体验 Magenta RealTime：

一是通过官方的 Colab 演示，无需本地部署，直接在浏览器中运行即可。

二是本地部署，可从 GitHub 安装，支持 CPU、GPU、TPU 多种部署方式。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-09-29

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

DeepSeek-V3.2-Exp开源，附论文细节解读！

2025-09-29

独家 | 帆软首次掀起盖头，万字访谈揭密BI巨头的出海之路

2025-09-29

2 分钟搞定官方文档没写的隐藏功能？99%的人还没掌握这种AI学习法！

2025-09-27

一招搞定知识库的文档分级分类，Dify可以这么做

2025-09-27

N8N全面解析：优势、短板与适用场景

2025-09-24

云栖大会阿里掀桌子了！Qwen3-Max、VL、Omini、Agent ... 统统发布！

2025-09-24

阿里发布Qwen3-VL：开源多模态登顶 SOTA

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

实测Qwen3-Coder，这就是目前最强的开源编程模型

2025-07-23

DeepSeek V3.1 Base / Instruct 发布

2025-08-20

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

Qwen3-Coder开源：面向世界的智能编程引擎

2025-07-23

有点东西！Qwen开源会写中文的生图模型Qwen-Image

2025-08-05

Kimi K2详测，Claude国产平替有了

2025-07-14

DeepSeek-V3.1-Base来了！MoE架构+128K上下文，性能再进化

2025-08-20

GLM-4.5 发布，六大主流模型混战测评，谁能一键生成“ 真·可用 ”的应用？

2025-07-29

Kimi K2 详测｜超强代码和Agent 能力！内附Claude Code邪修教程

2025-07-12

手把手教你本地部署！京东JoyAgent全攻略：从零拥有一个企业级的AI Agent

2025-07-31

大家都在问

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

Dify Pre-release版本来了，Dify2.0时代不远了，看看有哪些进步？

2025-09-09

Claude不让用，有哪些国产模型能迎头赶上？

2025-09-08

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

苹果深夜开源FastVLM：速度飙升85倍，0.5B小模型要逼疯谁？

2025-09-01

Coze开源了，为什么AI产品经理还是不会用？

2025-08-16

“入口”新变局：OpenAI开源模型+“口袋里的设备”，企业管理会发生变化吗？

2025-08-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB