微信扫码
添加专属顾问
我要投稿
Step-Audio-EditX开创音频编辑新纪元,用AI大模型实现情感、风格和方言的精准控制,让声音创作更自由! 核心内容: 1. 全球首个开源LLM音频编辑大模型的核心功能解析 2. 双码本音频分词器与大边距合成数据驱动的技术突破 3. 从零样本TTS到多轮迭代编辑的音频创作新范式
Step-Audio-EditX是由阶跃星辰开发的开源音频编辑大模型,它基于3B参数的LLM架构,专注于音频的情感、说话风格和副语言编辑。该模型不仅支持零样本TTS(文本到语音合成),还能够通过迭代编辑实现情感和风格的细粒度控制。其核心创新在于仅使用大边距合成数据进行训练,无需额外的编码器或适配器,即可实现音频属性的解耦和迭代控制。
Step-Audio-EditX支持对音频进行情感编辑,涵盖愤怒、开心、悲伤等多种情感标签。用户可以通过简单的指令对音频的情感进行增强或减弱,甚至可以进行多次迭代编辑,以达到理想的强度。
该模型能够对说话风格进行编辑,如撒娇、耳语、老人等风格。用户可以根据需要对音频进行风格叠加或微调,使语音更具表现力。
Step-Audio-EditX还可以插入呼吸、笑声、叹气等10类自然副语言token,增强音频的自然度和情感表达。
无需目标人物的语音样本,Step-Audio-EditX即可克隆出音色。此外,用户还可以通过在文本前添加方言标签(如“\[四川话\]”“\[粤语\]”)直接切换方言。
Step-Audio-EditX采用双码本音频分词器,将音频转换为离散token序列。其中,语言码本采样率为16.7 Hz,包含1024项;语义码本采样率为25 Hz,包含4096项。这种分词方式保留了音频的情感、韵律和语义信息,为后续的LLM处理提供了基础。
音频LLM是Step-Audio-EditX的核心组件之一,它以文本LLM为基础进行热启动,参数量为3B。该LLM能够处理文本和音频token的输入,并生成目标token序列。通过大边距数据的训练,音频LLM能够实现情感和风格的解耦。
音频解码器由流匹配模块和BigVGANv2声码器组成。流匹配模块基于DiT骨干网络,生成Mel频谱图;BigVGANv2声码器则将Mel频谱图转换为音频波形。该解码器在20万小时的高质量语音数据上进行训练,确保了发音的准确性和音色的一致性。
Step-Audio-EditX的训练数据完全基于大边距合成数据。通过生成“同文本、异属性”的音频对,模型能够在训练过程中专注于学习情感和风格的变化,从而实现属性解耦和迭代控制。
1. 监督微调(SFT):使用大边距合成数据对模型进行微调,使其具备零样本TTS和多样化音频编辑能力。
2. 强化学习(PPO):采用PPO算法,结合人类标注和LLM-as-a-Judge生成的偏好数据,进一步提升模型在高难度编辑任务中的表现力。
与Doubao-Seed-TTS-2.0和MiniMax-speech-2.6-hd等闭源模型对比,Step-Audio-EditX在零样本克隆和情感控制方面均优于这些模型。特别是在情感编辑迭代后,其效果甚至超过了闭源模型的原生情感控制功能
1. 克隆项目:
git clone https://github.com/stepfun-ai/Step-Audio-EditX.git
2. 创建并激活Python环境:
conda create -n stepaudioedit python=3.10conda activate stepaudioeditpip install -r requirements.txt
3. 下载模型权重:
访问Hugging Face仓库(<https://huggingface.co/stepfun-ai/Step-Audio-EditX>)下载Step-Audio-Tokenizer和Step-Audio-EditX模型。
git lfs installgit clone https://huggingface.co/stepfun-ai/Step-Audio-Tokenizergit clone https://huggingface.co/stepfun-ai/Step-Audio-EditX
以下是docker运行示例:
build dockerdocker build . -t step-audio-editxrun dockerdocker run --rm --gpus all \-v /your/code/path:/app \-v /your/model/path:/model \-p 7860:7860 \step-audio-editx
用户可以通过以下方式体验Step-Audio-EditX的Web Demo,(GPU至少32GB以上)
python app.py --model-path /path/to/models
然后访问`localhost:7860`。
Step-Audio-EditX可以快速为有声书、播客、新闻朗读等添加情感或风格,无需重新录音即可生成多版本音频,提升听众的沉浸感。
在短视频、动画、广告片等场景中,Step-Audio-EditX能够零样本克隆角色音色,并通过迭代编辑添加多种风格,实现低成本、多角色、多情绪的自动配音。
对于NPC、虚拟主播、VTuber等虚拟角色,Step-Audio-EditX可以实时插入笑声、呼吸、叹气等副语言,打造更鲜活、更具互动性的角色语音。
智能客服机器人和语音助手可以利用Step-Audio-EditX将平淡的语音答复转换为热情或安抚的语气,改善用户体验。同时,该模型还支持方言标签,满足地域化服务需求。
在线课程和语言学习应用可以利用Step-Audio-EditX生成适龄读音或切换方言,帮助学生更好地跟读模仿,降低教师录音成本。
对于含有噪声或过长停顿的会议录音,Step-Audio-EditX可以进行降噪和静音修剪编辑,再根据需求调整语速或添加情感,生成清晰、易读的会议纪要音频。
Step-Audio-EditX作为全球首个开源的LLM音频编辑大模型,凭借其强大的功能和创新的技术架构,为音频创作和编辑带来了全新的可能性。无论是在有声内容创作、视频配音,还是智能客服等领域,Step-Audio-EditX都展现出了巨大的应用潜力。随着技术的不断发展,我们期待Step-Audio-EditX在未来能够为音频处理领域带来更多惊喜。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-11
Aiops探索:基于 Dify + Kubernetes MCP Server 的智能运维实践
2025-11-11
Vibe Coding 何必只在桌面 IDE,多端智能体协同的思考与设计
2025-11-11
只用 Claude Skills,打造专属 AI 伴侣|附完整教程
2025-11-10
开源安全审核模型终极PK:Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者?
2025-11-10
代码采纳率如何提升至50%?AI 自动编写单元测试实践总结
2025-11-10
成本降到 2% 的 Agent 方案:把工具调用搬进执行环境
2025-11-08
GitHub 53k Stars!百度开源的OCR神器,支持80+语言,准确率碾压商业方案!
2025-11-08
别只盯着 DeepSeek,重复输入提示词啦!Kimi 王炸发布 K2 推理模型,能力强大,还支持常用语
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-10-27
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09