AI知识库 AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


微软用于音乐理解和大型语言模型生成AI音乐智能体-Muzic
发布日期:2024-06-11 13:08:40 浏览次数: 1598

Dingyao Yu1,2, Kaitao Song2, Peiling Lu2, Tianyu He2 Xu Tan2, Wei Ye1∗, Shikun Zhang1∗, Jiang Bian2 

Peking University1, Microsoft Research Asia2 {yudingyao,wye,zhangsk}@pku.edu.cn, {kaitaosong, peil, tianyuhe,xuta,jiabia}@microsoft.com https://github.com/microsoft/muzic

摘要

人工智能赋能的音乐处理是一个多样化的领域,包含数十项任务,从生成任务(例如音色合成)到理解任务(例如音乐分类)。对于开发者和业余爱好者来说,很难掌握所有这些任务来满足他们在音乐处理方面的要求,特别是考虑到各种任务之间音乐数据表示和跨平台模型适用性的巨大差异。因此,有必要建立一个系统来组织和整合这些任务,从而帮助从业者自动分析他们的需求,并调用合适的工具作为解决方案来满足他们的需求。受大型语言模型(LLM)最近在任务自动化方面取得成功的启发,我们开发了一个名为MusicAgent的系统,该系统集成了许多与音乐相关的工具和自主工作流程,以满足用户的需求。更具体地说,我们构建了 1) 从不同来源收集工具的工具集,包括 Hugging Face、GitHub 和 Web API 等。 2) 由 LLM(例如 ChatGPT)授权的自主工作流程来组织这些工具并自动将用户请求分解为多个子任务并调用相应的音乐工具。该系统的主要目标是将用户从错综复杂的人工智能音乐工具中解放出来,使他们能够专注于创意方面。通过让用户自由地轻松组合工具,该系统提供了无缝和丰富的音乐体验。该代码可在 GitHub1 上找到,并附有一个简短的教学视频2。

1  前言

人工智能赋能的音乐处理是一个多方面和复杂的领域,涵盖广泛的范围

*Corresponding Author:   Wei Ye, wye@pku.edu.cn;

Shikun Zhang, zhangsk@pku.edu.cn

1https://github.com/microsoft/muzic/tree/main/ musicagent

2https://youtu.be/tpNynjdcBqA

 1MusicAgent 收集了丰富的音乐相关任务和多样化的工具来源,将它们与 LLM 有效集成,以熟练处理复杂的音乐任务。由于它涉及广泛的任务,掌握这个领域是一项具有挑战性的工作。一般来说,音乐领域包括各种生成和理解任务,例如歌曲创作(Sheng et al. 2021;Ju et al. 2021)、音乐生成(Agostinelli et al. 2023;Dai 等人,2021 ;Lu 等人,2023 ;Lv 等人,2023 年)、音频转录(Benetos 等人,2018 ;Foscarin et al.2020)、音乐检索(Wu et al. 2023b)等。具体来说,音乐是一种复杂的艺术形式,它将各种不同的元素(例如和弦和节奏)交织在一起,以创造充满活力和复杂的内容。

以前的作品在协作完成复杂的音乐任务时经常遇到挑战,主要是由于音乐功能设计的差异和跨平台的变化。因此,如何根据不同专业水平的用户的要求,构建一个系统来自动完成与音乐相关的任务,仍然是一个值得探索的诱人方向。

最近,大型语言模型 LLM 因其在解决自然语言处理 NLP 任务方面的出色表现而引起了相当大的关注(Brown et al. 2020;欧阳等人,2022 ;Zhang 等人,2022b;Chowdhery 等人,2022 ;Zeng 等人,2022 ;Touvron 等人,2023 年)。LLM 的巨大潜力也激发并直接促进了许多新兴技术(例如,情境学习(Xie et al. 2021;Min 等人,2022 年)、指导调优(Longpre 等人,2023 ;Wang et al. 2022)和思维链提示(Wei et al. 2022;Kojima et al. 2022)),这也进一步提升了 LLM 的能力。基于这些LLM能力,许多研究人员将LLM的范围扩展到各种主题。他们借用了 LLM 作为控制器的想法来编排各种特定领域的专家模型来解决复杂的 AI 任务,例如 HuggingGPTShen et al. 2023)、AutoGPT 和其他特定模态模型(Chen et al.2022;Wu 等人,2023a;Huang 等人,2023 年)。这些成功也激励我们探索开发一种能够协助完成各种音乐相关任务的系统的可能性。

与其他模式不同,将 LLM 与音乐相结合会带来以下特点和挑战:

1.工具多样性:一方面,与音乐相关的任务表现出广泛的多样性,另一方面,这些任务的相应工具可能并不总是驻留在同一个平台上。这些工具可以是 GitHub 等开源社区中可用的参数化模型,以软件和应用程序的形式呈现,甚至可以通过 Web API 托管某些检索任务。在进行全面的音乐工作流程时,考虑所有这些因素至关重要。

2.协同:音乐工具之间的协作也受到两个因素的制约。 首先,音乐领域任务的多样性导致缺乏明确的输入输出模式标准。其次,即使模态相同,音乐格式也可能不同,例如,符号音乐和音频音乐之间。

为了解决这些问题,我们推出了MusicAgent,这是一个旨在应对挑战的专家系统。受 HuggingGPT Shen et al. 2023 等最新工作的启发,MusicAgent 是一个利用 LLM 作为控制器和大量专家工具的强大功能来完成用户指令的框架,如图 1 所示。对于工具集,除了利用 Hugging Face 提供的模型外,我们还进一步集成了来自不同来源的各种方法,包括来自 GitHub  Web API 的代码。为了实现不同工具之间的协作,MusicAgent 在各种任务中强制执行标准化的输入输出格式,以促进工具之间的无缝协作。作为一个与音乐相关的系统,所有样本都经过修剪以适合单个音频片段,从而促进了样本之间的基本音乐操作。有关集成其他工具的更多系统详细信息和指南,请参阅第 3 节。

总体而言,MusicAgent 提供了几个重要贡献:

可访问性:MusicAgent 消除了掌握复杂 AI 音乐工具的需要。通过利用 LLM 作为任务规划器,系统为每个与音乐相关的任务动态选择最合适的方法,使更广泛的受众可以使用音乐处理。

统一性MusicAgent 通过统一数据格式(例如文本、MIDIABC 符号、音频)弥合了来自不同来源的工具之间的差距。该系统可实现不同平台上工具之间的无缝协作。

模块化MusicAgent 具有高度可扩展性,允许用户通过实现新功能、集成 GitHub 项目和合并 Hugging Face 模型来轻松扩展其功能。

2 相关工作

2.1人工智能能的音乐处理

音乐的产生和理解是多方面的任务,包括各种子任务。在音乐生成领域,这些任务涉及旋律生成(Yu et al.2020;Zhang 等人,2022a;Yu 等人,2022 年)、音频生成(Donahue 等人,2018 年)、歌唱声音合成(任 等人,2020 ;Lu et al. 2020)和混音。相比之下,音乐理解包括音轨分离(Défossez 等人,2019 年)、音频识别、乐谱转录(Bittner 等人,2022 年)、音频。

 2MusicAgent 由四个核心组件组成:任务规划器、工具选择器、任务执行器和响应生成器。其中,任务规划器、工具选择器和响应生成器基于语言模型 LLM 构建。当用户发出请求时,MusicAgent 会分解请求并将其组织成子任务。然后,系统为每个任务选择最合适的工具。所选工具将处理输入并填充预期输出。随后,LLM组织输出,最终形成全面而高效的输出音乐处理系统。

分类(Choi et al. 2017;Zeng et al. 2021)和音乐检索(Wu et al. 2023b。除了这些多样化和复杂的音乐相关任务外,传统音乐处理的另一个重大挑战是每个任务的输入和输出格式存在很大差异。这些任务和数据格式的多样性也阻碍了音乐处理的统一,这使得我们很难开发出用于解决不同音乐任务的副驾驶。因此,在本文中,我们将讨论如何设计一个统一音乐数据格式的副驾驶,并结合这些工具,利用大型语言模型自动完成任务。

2.2大型语言模型

由于大型语言模型 LLM 的出现,自然语言处理 NLP 领域正在经历革命性的转变。这些模型(Brown 等人,2020 ;Touvron et al. 2023)在翻译、对话建模和代码完成等各种语言任务中表现出强大的性能,使其成为 NLP 的焦点。

基于这些优点,LLM 已被应用于许多应用程序。最近,一个新趋势是使用 LLM 来构建用于任务自动化的自主代理,就像 AutoGPT  HuggingGPT 一样(Shen et al. 2023)。在这些工作中,他们将利用 LLM 作为控制器来自动分析用户请求,然后调用适当的工具来解决任务。尽管在视觉(Chen et al. 2022)或言语(Huang et al. 2023)方面有一些成功的试验,但由于其任务和数据的多样性和复杂性,构建用于音乐处理的自主代理仍然具有挑战性。因此,我们提出了一个名为MusicAgent的系统,它集成了各种功能来处理多个与音乐相关的任务,以完成来自不同用户(包括新手和专业人士)的请求。

 1MusicAgent 中的任务和相关示例工具的概述。

任务      输入      输出      任务类型     示例工具

文本到符号音乐文本符号音乐 生成 MuseCoco 歌词到旋律文本符号音乐 生成 ROC 唱歌-语音合成-文本音频 生成 HiFiSinger 文本转音频 生成音频LDM 音色传输音频 生成 DDSP 伴奏符号音乐 符号音乐 生成 GetMusic 音乐分类 音频文本 了解 Wav2vec2 音乐分离音频 音频 了解 Demucs 歌词识别音频文本 了解 Whisper-large-zh 乐谱转录音频文本 了解基本音高艺术家/音轨搜索文本音频 辅助Spotify API 歌词生成文本文本 辅助 ChatGPT

3  MusicAgent音乐智能体

MusicAgent是一个综合系统,它通过集成其他数据源、依赖工具和任务专业化来增强大型语言模型 LLM)的功能,并使其适应音乐领域。如图 2 所示,MusicAgent 设计了一个 LLM 授权的自主工作流程,其中包括三个关键技能:任务规划器、工具选择器和响应生成器。这些技能与构成任务执行器的音乐相关工具被集成在一起,从而形成了一个能够执行各种应用程序的多功能系统。在本节中,我们将深入研究该系统的不同方面,探索其功能和对音乐处理领域的贡献。

3.1 任务和工具集合

 1 全面概述了当前 MusicAgent 中收集的音乐相关任务和代表性工具。我们根据图 3 所示的音乐处理流程组织了任务集。除了生成和理解任务外,收集的任务主要分为三组:

 3MusicAgent 在音乐生成和理解的框架内收集任务和工具。

它包括各种任务,包括单模态任务和模态转移任务,例如通过歌唱语音合成将乐谱转换为音频。

生成任务:此类别包括文本到音乐、歌词到旋律、歌唱-语音-合成、音色传递、伴奏等。这些任务使协作音乐生成成为可能,从简单的描述开始。

理解任务:音乐分类、音乐分离、歌词识别、和音乐转录属于这一类.

 4LLM 后端负责以下步骤:任务规划器接受用户请求并生成解析的任务队列,工具选择器选择合适的工具,响应生成器收集工具输出并组织响应。

。结合这些任务可以将音乐转换为符号表示并分析各种音乐特征。

辅助任务:此类别包括 Web 搜索和各种音频处理工具包。网络搜索包括使用 Google API 的文本搜索,以及通过 Spotify API 进行的音乐搜索。这些任务主要提供丰富的数据源,并对音频/MIDI/文本数据执行基本操作,作为辅助功能。

此外,图 3 说明了系统中三种主要数据格式的使用情况:

i)文本,包括歌词、流派或与音乐相关的任何其他属性。

ii)ii 乐谱,表示为 MIDI 文件,描述乐谱的乐谱。

iii)iii 音频,包含音乐的声音。

3.2 自主工作流程

MusicAgent系统由两部分组成:自主工作流程和插件自主工作流是 LLM 的核心交互组件,如图 2 所示,它包含三个技能:任务规划器、工具选择器和响应生成器,所有这些都由 LLM 支持。图 4 进一步演示了这些组件如何和谐地协同工作。

任务规划器:任务规划器在将用户指令转换为结构化信息方面起着关键作用,因为大多数现有的音乐工具只接受专门的输入。任务规划器处理的用户输入将构成整个工作流的骨干,包括确定每个子任务及其相应的输入输出格式,以及子任务之间的依赖关系,从而创建依赖关系图。利用上下文学习,MusicAgent 展示了出色的任务分解性能。我们在提示中提供了任务计划器描述、支持的任务和信息结构,以及几个与音乐任务相关的分解示例。用户的交互历史和当前输入将替换提示中相应位置的内容。通过利用语义内核(Microsoft2023),用户可以以文本格式插入所需的任务流,从而提高任务规划的有效性。工具选择器:工具选择器从与特定子任务相关的开源工具中选择最合适的工具。每个工具都与其独特的属性相关联,例如文本描述、下载次数、星级等。通过将这些工具属性与用户输入相结合,LLM 会显示工具的 ID 和相应的推理,以说明它认为最合适的选择。用户可以灵活地调整工具属性,并确定 LLM 如何解释这些属性。例如,用户可以强调下载次数以满足不同的要求。响应生成器:响应生成器从子任务的执行中收集所有中间结果,并最终将它们编译成一个连贯的响应。图 5 中的示例演示了 LLM 如何组织任务和结果以生成答案。

3.3 插件

当子任务的所有依赖任务都已完成,并且所有输入都已实例化后,LLM 后端将任务传递给任务执行器,该工具从输入中选择必要的参数。此外,该工具需要标识任务类型,因为一个工具可以处理多个任务。

MusicAgent将模型参数存储在 CPU 上,并且仅在使用时将它们加载到 GPU 中。这种方法对于GPU内存有限的用户特别有利,因为它优化了资源利用率,并确保了任务的顺利执行,而不会使GPU内存过重。

4  系统使用

在本节中,我们将提供有关如何有效使用 MusicAgent 工具包的全面指南。

4.1 Code 用例

用户可以灵活地运行此系统,方法是按照 GitHub 上的说明操作,或者将其作为模块集成到他们的代码中,或者通过命令行使用它进行更高级的用法,从而实现自定义工具的合并。如清单 1 所示,用户可以为每个子任务添加自定义任务类型、更新工具属性和设计提示,从而增强对特定任务的支持。需要注意的是,在历史记录中嵌入提示是临时操作,如果上下文超出限制,则存在重叠的可能性。对于永久存储,建议直接在代码中包含提示。

## 1.从代理导入 MusicAgent music_agent = MusicAgentCONFIG_PATH 初始化代理

## 2.添加自定义任务和工具

music_agent.task_map[MY_TASK].append

MY_TOOL music_agent.pipelines.append

MY_TOOL_CLASS # 更新提示 music_agent._init_task_context() music_agent._init_tool_context()

## 3.更新工具的信息 music_agent.update_tool_attributes

MY_TOOL {“stars”..“likes”..}music_agent._init_tool_context()

## 4.更新提示

#以任务规划器为例

#有被覆盖的风险 music_agent.task_context[“history”] +=

我的自定义提示

## 5.与代理聊天

music_agent.chat生成␣a␣歌曲...”

Listing 1: Code usage of MusicAgent

4.2 Demo 用例

除了命令行使用外,我们还为用户提供了一个 Gradio 演示,其中需要 OpenAI 令牌。在 Gradio 演示中,用户可以直接上传音频并直观地观察系统生成的所有中间结果,如图 6 所示。此外,尽管 MusicAgent 包含内置的上下文截断,但用户仍然可以清除界面中的所有 LLM 交互历史记录以刷新代理。

5  结论

在本文中,我们介绍了MusicAgent,这是音乐领域中LLM驱动的自治代理。我们的系统可以被视为辅助工具,帮助开发人员或受众自动分析用户请求并选择合适的工具作为解决方案。此外,我们的框架直接集成了来自各种来源的众多音乐相关工具(例如,Hugging FaceGitHubWeb 搜索等)。我们还调整了自主工作流程,以实现更好的音乐任务兼容性,并允许用户扩展其工具集。未来,我们还进一步设想将更多与音乐相关的功能集成到MusicAgent中。

致谢

我们感谢所有匿名审稿人和Microsoft Research Asia机器学习小组的成员,感谢他们在开发该系统时做出的宝贵贡献和有见地的建议。

6  引用参考

安德里亚·阿戈斯蒂内利、蒂莫·登克、扎兰·博尔索斯、杰西·恩格尔,毛罗·    韦尔泽蒂,安托万·  卡永,Qingqing Huang Aren Jansen Adam Roberts Marco Tagliasacchi et al. 2023.Musiclm:从文本生成音乐。arXiv 预印本 arXiv2301.11325

埃马努伊·贝内托斯、西蒙·迪克森、段志尧和塞巴斯蒂安·埃沃特。2018. 自动音乐转录:概述。IEEE信号处理杂志,361):20–30

雷切尔·比特纳、胡安·何塞·博世、大卫·鲁宾斯坦、加布里埃尔·梅塞格-布罗卡尔和塞巴斯蒂安·埃沃特。2022.

用于复调音符转录和多音高估计的轻量级乐器无关模型。IEEE声学、语音和信号处理国际会议(ICASSP)论文集,新加坡。

汤姆·布朗、本杰明·曼、尼克·莱德、梅兰妮·苏比亚、贾里德·卡普兰、普拉富拉·达里瓦尔、阿尔文德尼拉坎坦、普拉纳夫·希亚姆、吉里什·沙斯特里、阿曼达

Askell等人,2020 年。语言模型是少数学习者。神经信息处理系统进展,331877–1901

陈军、韩郭、一开、李博阳和穆罕默德·埃尔霍西尼。2022. Visualgpt:对图像字幕的预训练语言模型进行数据高效适配。在 IEEE/CVF 计算机视觉和模式识别会议论文集,第 18030–18040 页。

Keunwoo ChoiGyörgy FazekasMark Sandler  Kyunghyun Cho2017. 用于音乐分类的卷积递归神经网络.2017IEEE声学、语音和信号处理国际会议(ICASSP),第2392-2396页。IEEE的。

阿坎沙·乔杜里、沙兰·纳朗、雅各布·德夫林、马滕·博斯马、高拉夫·米什拉、亚当·罗伯茨、Paul BarhamHyung Won ChungCharles SuttonSebastian Gehrmann 等人,2022 年。Palm:使用路径扩展语言建模。arXiv 预印本 arXiv2204.02311

戴淑琪、金泽宇、塞尔索·戈麦斯和罗杰·丹能伯格。2021. 通过分层音乐结构表示实现可控的深沉旋律生成.arXiv 预印本 arXiv2109.00663

亚历山大·德福斯、尼古拉斯·乌苏尼尔、莱昂·博图和弗朗西斯·巴赫。2019. Demucs:用于重新混合额外未标记数据的音乐源的深度提取器。arXiv 预印本 arXiv1909.01174

克里斯·多纳休、朱利安·麦考利和米勒·帕克特。2018. 对抗性音频合成。arXiv 预印本 arXiv1802.04208

弗朗切斯科·福斯卡林、安德鲁·麦克劳德、菲利普·里戈、弗洛伦特·雅克马尔和酒井雅彦。2020. Asap:钢琴转录的对齐乐谱和演奏数据集。国际音乐信息检索学会会议,CONF,第534-541页。

黄荣杰, 李明泽, 杨东超, 石家彤, 张宣凯, 叶振辉, 吴宇宁, 洪志清, 黄佳伟, 刘景林, et al. 2023.

Audiogpt:理解和生成语音、音乐、声音和说话的头部。arXiv 预印本 arXiv2304.12995

鞠泽谦, 卢佩玲, 谭徐, 王锐, 张晨,吴松若瑶, 张克军, 李向阳, 秦涛, 刘铁岩.2021. Telemelody:使用基于模板的两阶段方法生成歌词旋律。arXiv 预印本 arXiv2109.09617

Takeshi KojimaShixiang Shane GuMachel ReidYutaka Matsuo  Yusuke Iwasawa2022. 大型语言模型是零样本推理器。神经信息处理系统进展,3522199– 22213

谢恩·朗普雷、侯乐、涂武、阿尔伯特·韦伯森、亨元郑、郑毅、丹尼周、郭五乐、巴雷特·佐夫、杰森·魏等 2023.果馅饼集合:设计有效指令调整的数据和方法。arXiv 预印本 arXiv2301.13688

卢佩玲, 吴杰, 栾健, 徐坦, 李周.2020. 小冰星:一种高质量、集成的歌声合成系统。arXiv 预印本 arXiv2006.06261

卢佩玲、徐欣、康晨飞、俞伯涛、邢成义、谭徐潭、江扁。2023. Musecoco:从文本中生成象征性音乐。arXiv 预印本 arXiv2306.00110

吕昂, 谭徐, 卢佩玲, 叶伟, 张世坤,江扁和睿燕。2023. Getmusic:使用统一的表示和传播框架生成任何音乐曲目。arXiv 预印本 arXiv2305.10841

Microsoft2023. 语义内核.https://githubcom/microsoft/semantic-kernel 中。

Sewon MinXinxi LyuAri HoltzmanMikel ArtetxeMike LewisHannaneh Hajishirzi  Luke Zettlemoyer2022. 重新思考演示的作用:是什么让情境学习起作用?arXiv 预印本 arXiv2202.12837

欧阳龙, 杰弗里·吴, 江徐, 迪奥戈·阿尔梅达, 卡罗尔·温赖特, 帕梅拉·米什金, 张冲, 桑迪尼·阿加瓦尔,卡塔琳娜·斯拉玛, 亚历克斯·雷, et al. 2022.训练语言模型遵循人类反馈的指令。神经信息处理系统进展,3527730–27744

Yi任, Xu Tan Tao Qin Jian Luan  Zhao and Tie-Yan Liu.2020. Deepsinger:使用从网络挖掘的数据进行歌唱语音合成。第26ACM SIGKDD知识发现与数据挖掘国际会议论文集,第1979-1989页。

森永良, 宋凯涛, 谭素, 李东升,卢伟明和庄月婷。2023. Hugginggpt:在 huggingface 中与 chatgpt 及其朋友一起解决 ai 任务。arXiv 预印本 arXiv2303.17580

盛忠豪、宋凯涛、徐坦、易任、魏烨、张世坤、秦陶。2021. Songmass:具有预训练和对齐约束的自动歌曲创作。在AAAI人工智能会议论文集,第35卷,第13798-13805页。

雨果·图夫龙、蒂博·拉夫里尔、戈蒂埃·伊萨卡尔、泽维尔·马丁内特、玛丽-安妮·拉肖、蒂莫西·拉克鲁瓦、Baptiste RozièreNaman GoyalEric HambroFaisal Azhar 等人,2023 年。Llama:开放高效的基础语言模型。arXiv 预印本 arXiv2302.13971

Yizhong WangSwaroop MishraPegah AlipoormolabashiYeganeh KordiAmirreza MirzaeiAnjana ArunkumarArjun AshokArut Selvan DhanasekaranAtharva NaikDavid Stap 等人,2022 年。Super-naturalinstructions:通过对 1600+ nlp 任务的声明性指令进行泛化。arXiv 预印本 arXiv2204.07705

杰森·魏, 王学志, 戴尔·舒尔曼斯, 马丁·博斯马, 夏飞, 池志伟, 国五乐, 丹尼周, et al. 2022.思维链提示在大型语言模型中引发推理。神经信息处理系统进展,3524824–24837

吴晨飞, 尹胜明, 齐伟珍, 王晓东, 唐泽成, 段楠.2023aVisual chatgpt:使用可视化基础模型进行对话、绘图和编辑。arXiv 预印本 arXiv2303.04671

Shangda Wu Dingyao Yu Xu Tan and Maosong Sun. 2023b. Clamp Contrastive language-music pretraining for cross-modal symbolic music information retrieval.arXiv 预印本 arXiv2304.11029

Sang Michael XieAditi RaghunathanPercy Liang  Tengyu 马。2021. 情境学习作为隐式贝叶斯推理的解释.arXiv 预印本 arXiv2111.02080

俞柏涛, 卢佩玲, 王瑞, 胡伟, 徐坦, 魏烨, 张世坤, 秦涛, 刘铁岩.2022. Museformer:对音乐生成具有细粒度和粗粒度关注的变形金刚。神经信息处理系统进展,351376–1388

Yi YuFlorian HarscoëtSimon CanalesGurunath Reddy MSuhua TangJun 江。2020.

歌词条件神经旋律生成。多媒体建模:第 26 届国际会议,MMM 2020,韩国大田,2020  1  5 日至 8 日,论文集,第 II 部分 26,第 709-714 页。斯普林格。

曾斛涵, 刘晓, 杜正晓, 王子涵,赖涵宇, 丁明, 杨卓毅, 徐一帆, 郑文迪, 夏晓, et al. 2022.Glm-130b:一个开放的双语预训练模型。arXiv 预印本 arXiv2210.02414

曾明亮, 谭徐, 王瑞, 鞠泽倩, 秦涛, 刘铁岩.2021. Musicbert:通过大规模预训练对符号音乐的理解。arXiv 预印本 arXiv2106.05630

张晨, 张禄钦, 吴松若瑶, 谭徐,秦涛, 刘铁岩, 张克君.2022a. Relyme:通过结合歌词-旋律关系来改善歌词到旋律的生成。第30ACM国际多媒体会议论文集,第1047-1056页。

Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li  Victoria Lin et al. 2022b. 选项:开放预训练的转换器语言模型。arXiv 预印本 arXiv2205.01068

附录一面向用户和智能体的示例 Q&A

Figure 5:面向用户和智能体的示例 Q&A

Figure 6: Gradio Demomstration.

附录二 Muzic代码项目实例

Muzic是一个关于人工智能音乐的研究项目,通过深度学习和人工智能来理解和生成音乐。Muzic 发音为[ˈmjuːzeik]。除了图片版的标志(见上文),Muzic还有一个视频版的标志(你可以点击这里观看)。Muzic是由   Microsoft亚洲研究院的一些研究人员 发起的,也由外部合作者贡献。
我们在下图中总结了Muzic项目的范围:

Muzic目前的工作 包括:

1.音乐理解

符号音乐理解:MusicBERT

自动歌词转录:PDAugment

对比语言-音乐预训练:CLaMP

2.音乐生成

1)歌曲创作

歌词到旋律和旋律到歌词:SongMASS

歌词生成:DeepRapper

歌词到旋律的生成:TeleMelodyReLyMeRe-creation of Creations ROC

2)音乐形式/结构生成

音乐形式生成:MeloForm

/空结构建模:Museformer

3)多轨生成

伴奏生成:PopMAG

任何曲目音乐生成:GETMusic

4)文本到音乐生成:MuseCoco

5)歌唱声音合成:HiFiSinger

3.AI智能体

1)音乐智能体

您可以在此页面上找到我们的系统生成的一些音乐样本:https://ai-muzic.github.io/

新功能有哪些?

1.CLaMP  ISMIR 2023 上获得了最佳学生论文奖!

2.我们发布了 MusicAgent,这是一款使用大型语言模型进行多功能音乐处理的 AI 代理。

3.我们发布了 MuseCoco,这是一款音乐创作副驾驶,可以从文本生成符号音乐。

4.我们发布了 GETMusic,这是一款多功能音乐 copliot,具有通用表示和扩散框架,可以生成任何音乐曲目。

5.我们发布了第一个跨模态符号 MIR 模型:CLaMP

6.我们发布了两项关于音乐结构建模的新研究成果:MeloForm  Museformer

7.我们在 ACM Multimedia 2021  提供了有关 AI 音乐创作的教程

依赖需求

操作系统是Linux。我们在 Ubuntu 16.04.6 LTSCUDA 10  Python 3.6.12 上进行了测试。运行 Muzic 的要求列在 requirements.txt 中。若要安装要求,请运行:

pip install -r requirements.txt

我们发布了几个研究工作的代码:  MusicBERTPDAugmentCLaMPDeepRapperSongMASSTeleMelodyReLyMeRe-creation of Creations ROCMeloFormMuseformerGETMusicMuseCoco  MusicAgent.您可以在相应的文件夹中找到 README,以获取有关如何使用的详细说明。

附录引用参考

如果你发现Muzic项目对你的工作有用,你可以引用这些论文如下:

  • [1] MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training, Mingliang Zeng, Xu Tan, Rui Wang, Zeqian Ju, Tao Qin, Tie-Yan Liu, ACL 2021.

  • [2] PDAugment: Data Augmentation by Pitch and Duration Adjustments for Automatic Lyrics Transcription, Chen Zhang, Jiaxing Yu, Luchin Chang, Xu Tan, Jiawei Chen, Tao Qin, Kejun Zhang, ISMIR 2022.

  • [3] DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, Lanqing Xue, Kaitao Song, Duocai Wu, Xu Tan, Nevin L. Zhang, Tao Qin, Wei-Qiang Zhang, Tie-Yan Liu, ACL 2021.

  • [4] SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint, Zhonghao Sheng, Kaitao Song, Xu Tan, Yi Ren, Wei Ye, Shikun Zhang, Tao Qin, AAAI 2021.

  • [5] TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage Method, Zeqian Ju, Peiling Lu, Xu Tan, Rui Wang, Chen Zhang, Songruoyao Wu, Kejun Zhang, Xiangyang Li, Tao Qin, Tie-Yan Liu, EMNLP 2022.

  • [6] ReLyMe: Improving Lyric-to-Melody Generation by Incorporating Lyric-Melody Relationships, Chen Zhang, LuChin Chang, Songruoyao Wu, Xu Tan, Tao Qin, Tie-Yan Liu, Kejun Zhang, ACM Multimedia 2022.

  • [7] Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation, Ang Lv, Xu Tan, Tao Qin, Tie-Yan Liu, Rui Yan, arXiv 2022.

  • [8] MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks, Peiling Lu, Xu Tan, Botao Yu, Tao Qin, Sheng Zhao, Tie-Yan Liu, ISMIR 2022.

  • [9] Museformer: Transformer with Fine- and Coarse-Grained Attention for Music Generation, Botao Yu, Peiling Lu, Rui Wang, Wei Hu, Xu Tan, Wei Ye, Shikun Zhang, Tao Qin, Tie-Yan Liu, NeurIPS 2022.

  • [10] PopMAG: Pop Music Accompaniment Generation, Yi Ren, Jinzheng He, Xu Tan, Tao Qin, Zhou Zhao, Tie-Yan Liu, ACM Multimedia 2020.

  • [11] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis, Jiawei Chen, Xu Tan, Jian Luan, Tao Qin, Tie-Yan Liu, arXiv 2020.

  • [12] CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval, Shangda Wu, Dingyao Yu, Xu Tan, Maosong Sun, ISMIR 2023, Best Student Paper Award.

  • [13] GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework, Ang Lv, Xu Tan, Peiling Lu, Wei Ye, Shikun Zhang, Jiang Bian, Rui Yan, arXiv 2023.

  • [14] MuseCoco: Generating Symbolic Music from Text, Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan, Jiang Bian, arXiv 2023.

  • [15] MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models, Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian, EMNLP 2023 Demo.

贡献

本项目欢迎贡献和建议。大多数贡献都要求您同意贡献者许可协议 CLA),声明您有权并且确实授予我们使用您的贡献的权利。有关详细信息,请访问 https://cla.opensource.microsoft.com

当您提交拉取请求时,CLA 机器人将自动确定您是否需要提供 CLA 并适当地修饰 PR(例如,状态检查、评论)。只需按照机器人提供的说明进行操作即可。您只需使用我们的 CLA 在所有存储库中执行此操作一次。

该项目采用了 Microsoft 开源行为准则。有关更多信息,请参阅行为准则常见问题解答 ,或 如有任何其他问题或意见,请联系 opencode@microsoft.com

53AI,大模型落地应用首选服务商

定位:开箱即用的大模型落地应用平台

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

年轻人!来一起搞AI吗?

如果你看见AI对商业世界的变革,欢迎来和我们一起探索~

岗位:销售经理

查看详情

岗位:项目经理

查看详情

岗位:产品经理

查看详情

岗位:测试工程师

查看详情

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询