微信扫码
添加专属顾问
我要投稿
Ming-Flash-Omni突破多模态AI界限,以统一架构实现视觉、语音、文本的全能理解与生成,效率与性能双领先。核心内容: 1. 基于稀疏MoE架构的统一多模态设计 2. 在语音识别、图像生成等任务刷新多项SOTA 3. 百亿参数规模下仅激活6.1B参数的高效推理
Ming-Flash-Omni 是一个基于稀疏混合专家(MoE)架构的统一多模态大模型,在视觉、语音、图像、文本全模态上同时实现领先的理解与生成能力,以 100B 总参数、仅 6.1B 激活参数的高效设计,刷新多项 SOTA 记录。
在通往通用人工智能(AGI)的道路上,人类智能的一个关键特征是多模态信息的统一处理能力:我们能看图说话、听音识义、依文作画。然而,当前多数多模态大模型仍采用“感知-生成分离”的设计,导致理解与生成目标割裂、控制粒度粗糙、系统复杂度高。
蚂蚁集团 Inclusion AI 团队近期推出了 Ming-Flash-Omni 预览版, 并同步公开了 Ming-Flash-Omni 背后的技术报告。作为 Ming-Lite-Omni 的升级版,Ming-Flash-Omni 基于稀疏 MoE 架构,在一个统一模型中高效融合视觉、语音、语言三大模态的理解与生成能力。Ming-Flash-Omni 不仅在多项权威基准上刷新 SOTA,更通过架构创新与训练范式重构,为构建高效、可控、可扩展的多模态 AGI 提供了新路径。
技术报告: https://arxiv.org/abs/2510.24821
【Ming-Flash-Omni 预览版下载及体验地址】
GitHub: https://github.com/inclusionAI/Ming
Hugging Face: https://huggingface.co/inclusionAI/Ming-flash-omni-Preview
ModelScope: https://www.modelscope.cn/models/inclusionAI/Ming-flash-omni-Preview
核心摘要亮点
Ming-Flash-Omni 由蚂蚁集团 Inclusion AI 团队推出,是 Ming-Omni 往千亿级 Scaling 的初步探索。它不仅是“能看、能听、会说、会画”的全能 AI,更在以下方向取得突破性进展:
统一架构:单一模型能够同时处理理解(如 OCR、视频问答)与生成(如 TTS、文生图、图像编辑),实现全模态能力集中化部署。
极致效率:基于 Ling-Flash-2.0 的稀疏 MoE 架构,推理时仅激活 6.1B 参数,兼顾百亿级容量与低延迟响应。
语音识别:在全部 12 项 ContextASR 基准上达到 SOTA,显著提升上下文感知与方言识别能力(覆盖 15 种中文方言)。
图像生成:支持高保真文本渲染、身份一致性编辑,并首次引入 生成式分割(Generative Segmentation),实现像素级语义控制。
模型结构
Ming-Flash-Omni 采用 “感知-生成”两阶段统一架构,核心基于 Ling-Flash-2.0(100B 总参数,6.1B/Token 激活)的稀疏 Mixture-of-Experts(MoE)语言模型。
整个架构如图所示:多模态输入 → 统一 MoE 主干 → 并行生成视觉/语音输出,实现“一脑多能”。
Ming-Flash-Omni 的核心由三大组件构成——多模态编码器、稀疏 MoE 主干与专用生成头,共同支撑其高效、精准的多模态理解与生成能力。
1、多模态编码器:模态特化,时序增强
视觉编码器:视觉编码器原生支持高分辨率图像与视频输入,并引入 VideoRoPE 位置编码,有效建模长视频中的时序动态与帧间依赖关系。
音频编码器:采用Whisper Encoder提取音频表示,在原始 Whisper 权重基础上,进一步在 70 万小时高质量语音数据上进行加训,显著提升对中文语音、口音及上下文语义的建模能力,最大限度保留原始音频的丰富信息,同时具备声学和语义特征。
2、统一主干: Ling-Flash-2.0 稀疏 MoE
1)总参数规模达 100B,推理时每 token 仅激活 6.1B 参数,实现大容量与低延迟的平衡;
2)采用双平衡机制稳定 MoE 训练:
结合辅助负载均衡损失(auxiliary load-balancing loss)与 路由器偏置动态更新(per-router bias update),有效缓解专家负载不均问题,提升收敛稳定性;
3)配备模态专属路由机制(Modality-Specific Routers):
分别设计 V-Router(视觉)、A-Router(音频)、T-Router(文本),根据模态动态分配 token 至最适配的专家子网络。
3、生成头:轻量高效,任务专用
1)语音生成头:
采用预训练音频头,输入为 LLM 生成的文本 token + 下采样 VAE latent,输出用于 flow-matching 的条件信号;
2)图像生成头:
采用轻量 DiT解码器,支持文本->图像、图像编辑;
创新引入 Refiner 模块,将高层语义 token 转化为像素级掩码,实现referring expression segmentation(如“分割图中的红色汽车”),为生成式分割与精细编辑提供空间控制基础。
训练策略
Ming-Flash-Omni 采用 “感知 → 生成”两阶段解耦训练范式,在保证模型稳定性的同时,最大化理解与生成能力的协同增益。
1、感知阶段(冻结所有生成头)
1)预训练:在大规模图文音视频语料上学习跨模态对齐表示;
2)指令微调(SFT):提升模型对多模态指令的理解与响应能力;
3)Coherent RL 对齐:
首先采用 D-GRPO(Dynamic GRPO),在具备可验证答案的任务(如数学推理、OCR、事实问答)上,通过动态采样与任务奖励机制强化正确推理链;
随后引入 U-DPO(Unified DPO),在人类偏好数据上进行对齐,并额外加入指令微调辅助损失,有效缓解 DPO 训练中的指令遵循退化问题,提升输出风格一致性与任务遵从性。
2、生成阶段(冻结感知主干)
1)图像生成
基于 Flow Matching 目标预训练轻量 DiT 解码器,实现高质量文生图;
为支持图像编辑,将参考图像的 VAE 潜变量与去噪过程中的噪声 latent 拼接,作为条件输入,强制生成结果与原图在结构和语义上保持一致;
引入 ByteT5 词级 caption 编码器,将细粒度文本描述注入生成过程,显著增强文本条件密度与语义对齐精度。
2)语音生成
复用提前预训练好的连续声学生成模型(基于VAE-GAN的统一语音 tokenizer + flow-matching 声码器),未进行任何微调或端到端联合训练,既保障了TTS的高保真度,又显著降低训练成本与复杂度。
工程优化
与传统大语言模型(LLM)相比,多模态基础模型的训练面临两大核心工程挑战:
数据异构性:训练过程中需动态切换文本、图像、音频、视频等多种模态,其输入张量在序列长度、分辨率、采样率等方面差异巨大,导致 batch 内样本长度高度不均,引发严重的显存碎片与计算负载不均衡;
模型异构性:除主干 Transformer 外,还需集成视觉编码器(如 ViT)、音频编码器(如 Whisper-style CNN/Transformer)等异构子模块。这些轻量但计算密集的编码器若并行策略不当,极易在流水线并行中产生空泡(pipeline bubble),拖累整体吞吐。
为应对上述挑战,Ming-Flash-Omni 基于 Megatron-LM 框架进行了深度定制,引入两项关键优化:
序列打包(Sequence Packing):将多个变长的图文音视频样本密集拼接至固定长度的训练序列中,显著提升 GPU 显存利用率与计算密度,实测 GPU 利用率提升 40%+;
灵活编码器分片(Flexible Encoder Sharding):支持视觉/音频编码器在数据并行(DP)、张量并行(TP)、流水线并行(PP)三个维度自由切分,实现与主干 MoE 模型的负载均衡协同,有效消除 pipeline bubble。
得益于上述优化,Ming-Flash-Omni 的整体训练吞吐较基线 Megatron-LM 提升 2 倍以上,成功支撑百亿参数稀疏 MoE 模型在大规模多模态数据上的高效、稳定收敛。
评估结果
我们在 50+ 公开与内部基准上对 Ming-Flash-Omni 预览版进行了系统性评测,覆盖视觉、语音、视频、多模态交互四大维度。评估结果表明,其不仅在单项任务上刷新纪录,更在统一架构下实现理解与生成能力的协同领先。
视觉理解:在 OCR、多图推理、视频时序理解等任务上达到主流 Omni 模型水平;
图像生成:在图像生成 GenEval 基准上取得 0.90 的高分, 为当前非强化学习方法中的最佳结果,尤其在位置与颜色等细粒度控制上优势明显;
图像编辑与分割: 编辑一致性与生成式分割性能大幅超越同类统一模型,支持高保真身份保留、文本渲染及像素级语义操控;
语音理解:在全部 12 项 ContextASR 基准上达到SOTA,上下文感知与命名实体识别能力显著优于现有 Omni 模型。
未来展望
当前开源的 Ming-Flash-Omni 预览版是我们在全模态模型上往千亿级 Model Scaling 的初步探索,其在全模态模型中整体展现出领先水准,但在部分 VL 能力上相比业界领先的专用 VL 大模型仍存在一定差距,我们仍在持续探索全模态 omni 模型的效果上限,Ming-Flash-Omni 正式版会很快跟大家见面。
点击【阅读原文】,查看完整技术报告
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-07
阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!
2025-12-06
微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!
2025-12-03
Step-Audio-R1 技术报告解析
2025-11-20
Gemini多模态Prompt:风水堪舆大宗师(玄清道人)
2025-11-19
Sam Altman 祝贺 Gemini 3 是“阴阳怪气”?我写了个 Prompt 破案了...
2025-11-19
Gemini 3 多模态Prompt:手相宗师 - 玄师
2025-11-11
一场极卷的大模型PoC,吓退了大厂一大堆!
2025-11-10
谁是OCR王者?MinerU、PaddleOCR、DeepSeek-OCR 实测对比,集成一个多模态PDF解析系统
2025-09-19
2025-11-10
2025-10-22
2025-09-25
2025-10-31
2025-09-17
2025-12-06
2025-11-03
2025-11-11
2025-11-19
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05