我要投稿

Qwen-lmage-Layered：图片分层指哪改哪

发布日期：2025-12-23 04:43:41 浏览次数： 1839

作者：通义千问Qwen

微信搜一搜，关注“通义千问Qwen”

我们很高兴推出全新图像生成模型Qwen-lmage-Layered，新模型采用自研创新架构，可将图片“拆解”成多个图层。这种分层表示赋予了图像内在的可编辑性：每个图层都可以独立操作，而不会影响其他内容。同时，这种分层结构天然支持高保真的基本编辑操作，例如缩放、移动和重新着色。通过将不同元素物理地隔离到不同的图层中，我们的方法实现了高保真的编辑效果。

Qwen-lmage-Layered

技术报告:

https://arxiv.org/abs/2512.15603

Github:
https://github.com/QwenLM/Qwen-Image-Layered

ModelScope:
https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face:

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo:
https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered

新思路：从像素预测到图片解耦

目前随着AI生成图片技术发展，AI图片编辑大致可分为两大方法：全局编辑和基于掩码的局部编辑。

全局编辑方法：通过对整张图像进行重新生成来实现整体性修改，然而，由于生成模型本身固有的随机性，这些方法无法确保未编辑区域的一致性。

掩码的局部编辑：通过将修改限制在指定的掩码范围内，从而有效保持全局一致性。尽管这种方法直观易懂，但它在处理遮挡和模糊边界时存在困难，难以精确界定实际的编辑区域。

我们提出了一种全新的思路：将图像分解为语义上解耦的RGBA图层，通过将图片自动“剥洋葱”，每一层都拥有独立的颜色（RGB）和透明度（Alpha）。每个图层均可独立修改而不会影响其他图层，从而从根本上确保各次编辑之间的一致性。

模型亮点

RGBA-VAE：传统的 VAE 只懂红绿蓝，我们研发了全新的 RGBA-VAE，让 RGB 图像和带透明度的 RGBA 图层在同一个潜空间内“对话” ，解决了图层之间分布不均、边界模糊的顽疾。
VLD-MMDiT：现实世界的图层数是不确定的。VLD-MMDiT 架构能够一次性处理 3 层、10 层甚至更多图层，且层与层之间通过注意力机制协同，不再需要低效的递归拆解。
多阶段进化：模型并非生而知之。它经历了从“生成单图”到“生成多层”，最后进化到“拆解任意 RGB 图像”的循序渐进过程，将强大的生成基因转化成了精准的理解力。

分层分解的应⽤

给定⼀张图像，Qwen-Image-Layered 可将其分解为若⼲个 RGBA 图层：

分解完成后，编辑操作仅作⽤于⽬标图层，将其与其他内容物理隔离，从根本上确保了编辑的⼀致性。

例如，我们可以对第⼀个图层重新着⾊，⽽保持其余内容不变：

我们也可以将第⼆个图层中的⼥孩替换为男孩:

在下⾯的例⼦中，我们将⽂字内容修改为 “Qwen-Image”

此外，分层结构天然⽀持各种基本操作。例如，我们可以⼲净地删除不需要的物体：

我们也可以轻松的对物体进⾏缩放⽽不引⼊形变和失真：

在完成图层分解后，我们还能在画布内⾃由移动物体：

灵活且可迭代的分解

Qwen-Image-Layered 并不限于固定的图层数量，模型⽀持可变数量的图层分解。例如，我们可以根据需要将同⼀张图像分解为 3 层或 8 层：

此外，分解过程还可以递归进⾏：任意⼀个图层本⾝都可以被进⼀步分解，从⽽实现⽆限层级的细化分解。

结语

Qwen-Image-Layered 将静态图⽚转化为结构化的、可灵活编辑的多层结构。通过将图像重新构想为可组合的图层，我们希望提供直观、精准且鲁棒的编辑能⼒。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-10

对话离哲：企业AI告别「对话玩具」，多模态记忆是分水岭

2026-02-10

Qwen-Image-2.0: 字字清晰，张张细腻

2026-02-03

多模态文档智能解析最新开源进展：GLM-OCR方法概述

2026-02-02

月之暗面Kimi正式发布官方编程工具：Kimi Code

2026-01-30

用AI做深度用户访谈，获蓝驰、高瓴、王慧文投资

2026-01-29

DeepSeek-OCR 2重磅发布:让AI像人一样读懂复杂文档

2026-01-28

LingBot-Depth 正式开源：让机器人“看清”物理世界

2026-01-28

一文带你读懂DeepSeek-OCR 2的细节！附实测！

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

2025-12-06

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

2025-12-07

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

Gemini 3 多模态Prompt：手相宗师 - 玄师

2025-11-19

GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

2025-12-11

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

2026-01-27

大家都在问

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部