免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Step-Audio-EditX:用大语言模型“雕琢”声音,开启音频编辑新视界!

发布日期:2025-11-11 09:29:43 浏览次数: 1537
作者:小兵的AI视界

微信搜一搜,关注“小兵的AI视界”

推荐语

Step-Audio-EditX开创音频编辑新纪元,用AI大模型实现情感、风格和方言的精准控制,让声音创作更自由!

核心内容:
1. 全球首个开源LLM音频编辑大模型的核心功能解析
2. 双码本音频分词器与大边距合成数据驱动的技术突破
3. 从零样本TTS到多轮迭代编辑的音频创作新范式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
在人工智能技术飞速发展的今天,音频处理领域也迎来了重大突破。Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型,凭借其强大的功能和创新的技术架构,为音频创作和编辑带来了全新的可能性


一、项目概述


Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。



二、核心功能


(一)情感编辑


Step-Audio-EditX支持对音频进行情感编辑,涵盖愤怒、开心、悲伤等多种情感标签。用户可以通过简单的指令对音频的情感进行增强或减弱,甚至可以进行多次迭代编辑,以达到理想的强度。


(二)风格编辑


该模型能够对说话风格进行编辑,如撒娇、耳语、老人等风格。用户可以根据需要对音频进行风格叠加或微调,使语音更具表现力。


(三)副语言插入


Step-Audio-EditX还可以插入呼吸、笑声、叹气等10类自然副语言token增强音频的自然度和情感表达。


(四)零样本TTS


无需目标人物的语音样本,Step-Audio-EditX即可克隆出音色。此外,用户还可以通过在文本前添加方言标签(如“\[四川话\]”“\[粤语\]”)直接切换方言。



三、技术揭秘


(一)双码本音频分词器


Step-Audio-EditX采用双码本音频分词器,将音频转换为离散token序列。其中,语言码本采样率为16.7 Hz,包含1024项;语义码本采样率为25 Hz,包含4096项。这种分词方式保留了音频的情感、韵律和语义信息,为后续的LLM处理提供了基础。


(二)音频LLM


音频LLMStep-Audio-EditX的核心组件之一,它以文本LLM为基础进行热启动,参数量为3B。该LLM能够处理文本和音频token的输入,并生成目标token序列。通过大边距数据的训练,音频LLM能够实现情感和风格的解耦。


(三)音频解码器


音频解码器由流匹配模块和BigVGANv2声码器组成。流匹配模块基于DiT骨干网络,生成Mel频谱图;BigVGANv2声码器则将Mel频谱图转换为音频波形。该解码器在20万小时的高质量语音数据上进行训练,确保了发音的准确性和音色的一致性。


(四)大边距合成数据驱动


Step-Audio-EditX的训练数据完全基于大边距合成数据。通过生成“同文本、异属性”的音频对,模型能够在训练过程中专注于学习情感和风格的变化,从而实现属性解耦和迭代控制。


(五)两阶段后训练策略


1. 监督微调(SFT使用大边距合成数据对模型进行微调,使其具备零样本TTS和多样化音频编辑能力。


2. 强化学习(PPO采用PPO算法,结合人类标注和LLM-as-a-Judge生成的偏好数据,进一步提升模型在高难度编辑任务中的表现力。



四、性能表现


Doubao-Seed-TTS-2.0MiniMax-speech-2.6-hd等闭源模型对比,Step-Audio-EditX在零样本克隆和情感控制方面均优于这些模型。特别是在情感编辑迭代后,其效果甚至超过了闭源模型的原生情感控制功能


五、快速使用


(一)下载安装


1. 克隆项目:

git clone https://github.com/stepfun-ai/Step-Audio-EditX.git

2. 创建并激活Python环境:

conda create -n stepaudioedit python=3.10conda activate stepaudioeditpip install -r requirements.txt

3. 下载模型权重:


访问Hugging Face仓库(<https://huggingface.co/stepfun-ai/Step-Audio-EditX>)下载Step-Audio-TokenizerStep-Audio-EditX模型。

git lfs installgit clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizergit clone https://huggingface.co/stepfun-ai/Step-Audio-EditX

(二)启动运行


以下是docker运行示例:

build dockerdocker build . -t step-audio-editxrun dockerdocker run --rm --gpus all \-v /your/code/path:/app \-v /your/model/path:/model \-p 7860:7860 \step-audio-editx

(三)Web Demo


用户可以通过以下方式体验Step-Audio-EditXWeb Demo,(GPU至少32GB以上)

python app.py --model-path /path/to/models

然后访问`localhost:7860`


六、应用场景


(一)有声内容升级


Step-Audio-EditX可以快速为有声书、播客、新闻朗读等添加情感或风格,无需重新录音即可生成多版本音频,提升听众的沉浸感。


(二)视频与广告配音


在短视频、动画、广告片等场景中,Step-Audio-EditX能够零样本克隆角色音色,并通过迭代编辑添加多种风格,实现低成本、多角色、多情绪的自动配音


(三)游戏/虚拟偶像


对于NPC、虚拟主播、VTuber等虚拟角色Step-Audio-EditX可以实时插入笑声、呼吸、叹气等副语言,打造更鲜活、更具互动性的角色语音


(四)智能客服与语音助手


智能客服机器人和语音助手可以利用Step-Audio-EditX将平淡的语音答复转换为热情或安抚的语气,改善用户体验。同时,该模型还支持方言标签,满足地域化服务需求。


(五)教育/语言学习


在线课程和语言学习应用可以利用Step-Audio-EditX生成适龄读音或切换方言,帮助学生更好地跟读模仿,降低教师录音成本。


(六)会议记录与无障碍


对于含有噪声或过长停顿的会议录音,Step-Audio-EditX可以进行降噪和静音修剪编辑,再根据需求调整语速或添加情感,生成清晰、易读的会议纪要音频。


七、结语


Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型,凭借其强大的功能和创新的技术架构,为音频创作和编辑带来了全新的可能性。无论是在有声内容创作、视频配音,还是智能客服等领域,Step-Audio-EditX都展现出了巨大的应用潜力。随着技术的不断发展,我们期待Step-Audio-EditX在未来能够为音频处理领域带来更多惊喜。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询