免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚,Qwen-Image图像编辑版本开源了!

发布日期:2025-08-19 12:04:47 浏览次数: 1519
作者:AI小小将

微信搜一搜,关注“AI小小将”

推荐语

Qwen-Image-Edit开源了!这款强大的图像编辑模型不仅能精准修改局部元素,还能保持整体语义一致,甚至支持中英文文字编辑。

核心内容:
1. Qwen-Image-Edit的独特功能:局部编辑与视觉语义编辑
2. 模型架构解析:语义与外观双重建模
3. 在基准测试中的优异表现与实际应用案例

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


蓝色字关注“AI小小将”



Qwen-Image 的图像编辑版本 Qwen-Image-Edit 已正式开源。Qwen-Image-Edit是在之前开源20B的 Qwen-Image 模型进一步训练的单图编辑模型,不仅支持局部编辑(比如元素的添加、删除、修改,要求图片其他区域完全不变),而且支持视觉语义编辑(如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致)。更重要的是它成功将Qwen-Image的独特的文本渲染能力延展至图像编辑领域,同时支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。


  • 模型地址:https://huggingface.co/Qwen/Qwen-Image-Edit


在架构设计上,Qwen-Image-Edit 会将输入图像同时送入 Qwen2.5-VL 和 VAE Encoder 进行编码:

  • 由 Qwen2.5-VL 提取的视觉特征与文本特征拼接,用于实现视觉语义控制
  • 由 VAE Encoder 提取的图像 tokens 与 noisy tokens 拼接,用于实现视觉外观控制


通过这种语义与外观的双重建模方式,Qwen-Image-Edit 能够在编辑过程中兼顾图像的整体语义一致性与局部外观保真度,从而实现更强大的图像编辑能力。



为了兼顾不同任务中输入模态的差异,Qwen-Image-Edit 和 Qwen-Image 采用了不同的系统提示词设计,如下图所示,其中<|user_image|>填入输入图像,而<|user_text|>填入用户文本。



另外,为了让模型能够区分输入图像和生成图像,位置编码 MSRoPE 除了用于定位单张图像中图像块的高度和宽度维度之外 还引入了一个额外的帧维度,输入图片的编码为1,而生成图片的编码为0。


Qwen-Image-Edit 在图像编辑的基准测试集 GEdit-Bench 和  ImgEdit 上,超过大部分图像编辑模型比如FLUX.1 Kontext [Pro] 和 BAGEL 等,性能和OpenAI的 GPT Image 1 [High] 相当:



接下来我们来具体看看Qwen-Image-Edit的具体应用示例。


首先,Qwen-Image-Edit可以实现局部外观编辑,这是常见的图像编辑需求,要求在编辑过程中保持图像的部分区域完全不变,实现元素的增、删、改。Qwen-Image-Edit可以在保持原图的基础上,实现非常细节的增、删、改:



而且还可以应用在人物背景调整、服装更换等场景:



Qwen-Image-Edit的一大亮点在于其准确的的文字编辑能力,同时支持中英文子编辑,而且可以直接对中文海报中细小的文字进行精准调整:



Qwen-Image-Edit可以支持多轮编辑,下面展示它可以逐步修正Qwen-Image生成的书法作品中的错误:



在这幅作品中,有不少汉字存在生成错误。我们可以借助Qwen-Image-Edit,逐步修复它们。例如,可以在原图中用方框标注出需要修改的区域,指示Qwen-Image-Edit针对这些部分进行修正。这里,我们希望红框内正确地写出“稽”字,蓝色区域正确地写出“亭”字。



但实际操作中,“稽”字较为生僻,模型未能一次性完成修改。“稽”的右下角应为“旨”而非“日”。此时,我们可以进一步用红框圈出“日”的部分,让Qwen-Image-Edit对该细节进行微调,将其改为“旨”。



通过这种链式、逐步的编辑方式,我们可以持续修正错字,直至获得理想的最终效果:



最后,我们还可以将修正好的书法作品装裱到客厅的白墙上:



Qwen-Image-Edit的另外一大亮点在于其强大的语义编辑能力。所谓语义编辑,是指在保持原始图像视觉语义不变的前提下,对图像内容进行修改。下面展示以Qwen的吉祥物卡皮巴拉为例的原创IP编辑:



Qwen-Image-Edit可以实现很好的视角转换:不仅能够实现物体的90度旋转,还可以完成180度旋转,让我们直接看到物体的背面:



风格迁移是语义编辑的一个典型应用场景。Qwen-Image-Edit可以轻松将输入图像其转换为吉卜力等多种风格:






如果觉得文章不错,欢迎点赞转发

进群,请公众号回复“进群”!




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询