微信扫码
添加专属顾问
我要投稿
美团开源LongCat-Audio-Codec,突破语音编解码技术瓶颈,为实时交互场景提供高效解决方案。核心内容: 1. 语音大语言模型落地的关键挑战与痛点 2. LongCat-Audio-Codec的创新架构与三大设计突破 3. 开源工具链在语义建模、声学重建和流式合成上的应用价值
语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 “听不懂” 语音,车载助手 “说” 得像机器人,实时翻译延迟卡半秒。深究根源,全在 “语音 Token 化”:作为拆分语音为 Speech LLM “离散单元” 的关键步骤,传统方案始终没平衡好 —— 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 “死结”。
针对 Speech LLM 落地中的音频处理难题,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。
开源平台:
Github:https://github.com/meituan-longcat/LongCat-Audio-Codec
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Audio-Codec
LongCat-Audio-Codec 模型架构图
LongCat-Audio-Codec 的核心竞争力源于三大创新设计:
设计一:
语义 - 声学双 Token 并行提取机制:兼顾理解与生成
为解决语义空间干扰声学空间导致的重构质量不佳的问题,LongCat-Audio-Codec 采用 “级联训练 - 并行推理” 的创新设计:
语义Token:首先基于双向 Transformer 架构,聚焦语音内容的核心信息,基于 CTC 微调后的 ASR 模型提取纯粹的语义信息,为 Speech LLM 的语义理解提供支撑;
声学令牌:随后基于已有语义信息,结合改进的量化技术,在大码本空间下补充韵律、音色等副语言特征的声学 Token,解决非语义信息覆盖不足的问题。
同时,该方案支持声学码本的动态配置,可以在保证语义能力一致的情况下,根据下游任务调整码本层数。如下游任务是少音色场景,则可以选择单个声学码本来减少 Speech LLM 的学习压力;如果下游任务是多音色场景,则可以选择全部声学码本来提供丰富的说话人支持。
设计二:
低延迟流式解码器:兼顾实时与质量
低延时流式处理能力是 Speech LLM 实时交互场景(如车载语音助手、实时翻译)的核心需求,其关键指标为端到端延迟(End-to-End Latency)。传统解码架构没有专为流式场景设计,易导致实时交互延迟高(如实时翻译卡半秒),LongCat-Audio-Codec 通过低延迟流式解码器解决这一问题。其解码器采用帧级增量处理模式,通过控制对未来语音 Token 的依赖,将解码延迟控制在百毫秒级。该架构显著提升了 Speech LLM 的交互实时性,满足工业级实时响应标准。
设计三:
超低比特率高保真与集成超分辨率设计:兼顾压缩效率与音质
为解决 “低比特率音质劣化”和“超分辨率需额外模型” 问题,LongCat-Audio-Codec 采用协同优化设计:
超低比特率:比特率是衡量音频压缩效率的核心指标, 依托模型优化与三阶段训练机制,通过降低信息量,从而在保证 Speech LLM 能够从海量数据中学习到语音的本质同时,降低 Speech LLM 的训练难度,也为 Speech LLM 的规模化落地提供了支撑。
集成超分辨率:LongCat-Audio-Codec 将超分辨率思想嵌入解码器,通过神经网络对重建音频进行频域补全。该集成设计不仅进一步提高了核心内容的压缩率,更通过提升输出音频的采样率,增强了语音的自然度与细节表现力。
低比特率下的可懂性与音质优势
在测试中,LongCat-Audio-Codec 在低比特率区间(0.43-0.87kbps)关键指标优于同类方案:对比其他携带语义的编解码器,LongCat-Audio-Codec 在各比特率区间均表现最优。
0.85-2kbps 区间(4 个码本,0.87kbps):词错误率(WER,越低表示语音可懂性越高)仅 1.48,语音质量感知评估(PESQ,越高表示主观音质越好)达 2.30,短时客观可懂性(STOI,越高表示语音信息保留越完整)达 0.921,说话人相似度(SECS)0.942,兼顾可懂性与音色一致性;
0.65-0.85kbps 区间(3 个码本,0.65kbps):WER 1.70,STOI 0.900,优于同类低比特率方案;
<0.65kbps 区间(2 个码本,0.43kbps):WER 2.10,STOI 0.839,在极端低比特率下仍保持高可懂性,适合资源受限场景。
比特率与性能的灵活适配
当前架构支持在保证语义理解能力的情况下灵活调整码本数量(2-4 个),LongCat-Audio-Codec 可以实现比特率从 0.43kbps 到 0.87kbps 的渐进式优化,且指标同步提升:
WER 从 2.10 降至 1.48,STOI 从 0.839 升至 0.921,语音可懂度显著提高;
总基音误差(GPE)从 3.69 降至 1.65,PESQ 从 1.47 升至 2.30(增幅 56.5%),说话人相似度从 0.862 升至 0.942,语音重构相似度进一步提高。
多阶段训练策略适配多样化场景
LongCat-Audio-Codec 设计了多阶段的训练策略,来兼容压缩率和音质的需求。其中 Stage1 用于满足高压缩率下的重构需求,Stage2 用于满足高音质合成需求,Stage3 用于满足个性化定制需求:
经过 Stage2 优化后,LongCat-Audio-Codec 在音质上表现突出,无参考音质指标 SIGMOS 3.35,NISQA 4.33,甚至超过 LibriTTS clean 数据集(SIGMOS 3.24、NISQA 4.09)录音水平:
经过 Stage3 优化后,有限集说话人相似度(SIM)从 0.717 升至 0.938,证明在当前架构下,使用最低码率(0.43kbps)下也可满足说话人定制需求。
作为工业级语音大模型(Speech LLM)的专用语音 Token 解决方案,LongCat-Audio-Codec 以三大核心创新打破了语音大模型落地的关键瓶颈:通过 “语义 - 声学双 Token 并行提取” 破解 “懂却说不清” 的平衡难题,以 “低延迟流式解码” 解决 “说得清却不实时” 的交互痛点,靠 “超低比特率高保真 + 集成超分辨率” 兼顾压缩效率与音质细节,真正让语音大模型既 “听懂” 语义,又能够“说清” 。
LongCat-Audio-Codec 的开源发布,给语音大模型领域带来三重关键价值:
其一,降低技术门槛:为缺乏专用语音处理模块的研究团队提供一站式 Token生成器(Tokenizer)与 Token还原器(DeTokenizer)工具链,缓解语音大模型领域架构碎片化、上手难度高的问题,开发者可基于开源代码快速开发自己的语音大模型;
其二,丰富应用场景:具备灵活码本、轻量化、低延迟解码方案,适用更多的应用场景;
其三,完善技术生态:与美团此前发布的 LongCat 系列模型形成协同,从语音Token处理到语音大模型全链路能力,为构建全栈式语音智能系统奠定基础。
作为开源的语音大模型专用语音编解码器,LongCat-Audio-Codec 的技术路线不仅为当前语音大模型落地提供了高效适配的解决方案,更给语音-语言跨模态研究提供了新的参考范式。
未来,LongCat 团队还将在多语言语音处理、长音频建模等方向持续优化,期待为行业带来更多突破,也欢迎更多开发者关注与参与共建。
LongCat-Audio-Codec 现已全面开源,欢迎访问项目主页获取更多信息:
Github:https://github.com/meituan-longcat/LongCat-Audio-Codec
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Audio-Codec
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-17
阿里开源通义DeepResearch:智能体训练全流程揭秘
2025-10-16
从搭企业 AI SaaS 到做个人设计助手,我为什么敢说:现在做 Agent,大家都在同一起跑线
2025-10-16
从3个核心问题,全面看懂通义DeepResearch
2025-10-16
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了
2025-10-15
AI驱动的开源攻击框架:HexStrike-AI
2025-10-15
腾讯优图开源语义模型Youtu-Embedding,加速企业级RAG落地
2025-10-15
时隔 9 年,黄仁勋再次给马斯克送货上门,跳票大半年的 AI 个人超算终于来了
2025-10-14
Ring-1T,心流之境,顿悟所生
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-08-20
2025-07-29
2025-07-31
2025-07-29
2025-08-26
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16