微信扫码
添加专属顾问
我要投稿
通义千问开源全新文生图模型Qwen-Image,20B参数规模带来惊艳的文本渲染与图像编辑能力!核心内容: 1. Qwen-Image在复杂文本渲染上的突破性表现,支持多语言高保真输出 2. 通过多任务训练实现卓越的图像编辑一致性 3. 在多个基准测试中取得SOTA成绩,展现全面领先的生成能力
我们很高兴开源 Qwen-Image,一个20B的MMDiT模型。这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。
Qwen-Image的主要特性包括:
卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。
如需体验 Qwen-Image,欢迎访问 QwenChat(chat.qwen.ai) 并选择“图像生成”功能。同时该模型已在魔搭社区与 Hugging Face 开源,欢迎体验。
相关链接:
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced
性能表现
我们在多个公开基准上对Qwen-Image进行了全面评估,包括用于通用图像生成的GenEval、DPG和OneIG-Bench,以及用于图像编辑的GEdit、ImgEdit和GSO。Qwen-Image在所有基准测试中均取得了最先进的性能,展现出其在图像生成与图像编辑方面的强大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的结果表明,Qwen-Image在文本渲染方面表现尤为出色,特别是在中文文本渲染上,大幅领先现有的最先进模型。这凸显了Qwen-Image作为先进图像生成模型的独特地位,兼具广泛的通用能力与卓越的文本渲染精度。
示例展示
Qwen-Image的突出能力之一是能够在不同场景中实现高保真的文本渲染。
中文渲染 case1
我们来看下面这个中文渲染的case:
宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。
模型不仅仅准确展示了宫崎骏的动漫风格,店铺的牌匾“云存储”,“云计算”,“云模型”,包括酒缸上的“千问”,都随着构图的景深,被真实准确的渲染。并且保留了人物姿势、神态刻画。
中文渲染 case2
让我们再看一个中文渲染的case:
一副典雅庄重的对联悬挂于厅堂之中,房间是个安静古典的中式布置,桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”, 横批“智启通义”,字体飘逸,中间挂在一着一副中国风的画作,内容是岳阳楼。
模型准确了绘制了左右联和横批,并且使用了书法效果,并在中间准确的生成了岳阳楼。桌子上放着的青花瓷也看着非常真实。
英文渲染 case1
那么,模型在英文上的能力如何呢?
让我们来看一个英文渲染的case:
Bookstore window display. A sign displays "New Arrivals This Week". Below, a shelf tag with the text "Best-Selling Novels Here". To the side, a colorful poster advertises "Author Meet And Greet on Saturday" with a central portrait of the author. There are four books on the bookshelf, namely "The light between worlds" "When stars are scattered" "The slient patient" "The night circus"
在这个样例中,模型不仅仅准确输出了"New Arrivals This Week", 而且还把四本书的封面文字"The light between worlds" "When stars are scattered" "The slient patient" "The night circus"准确的生成了出来。
英文渲染 case2
让我们来看一个更复杂的英文渲染的case:
在这个case中,模型需要生成6个子模块,每个部分都有各自的图标、标题和对应的介绍文本。Qwen-Image完成了排版。
更小文字 case
那如果是更小的文字呢?让我们来测试一个:
A man in a suit is standing in front of the window, looking at the bright moon outside the window. The man is holding a yellowed paper with handwritten words on it: "A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by." There is a cute cat on the windowsill.
在这个case中,纸张不足整个画面的十分之一,而且段落文字也比较长,模型还是准确的生成了纸张地上的文字。
更多文字 case
那如果是更多的文字呢?让我们试一个更难的case:
一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "一、Qwen-Image的技术路线: 探索视觉生成基础模型的极限,开创理解与生成一体化的未来。二、Qwen-Image的模型特色:1、复杂文字渲染。支持中英渲染、自动布局; 2、精准图像编辑。支持文字编辑、物体增减、风格变换。三、Qwen-Image的未来愿景:赋能专业内容创作、助力生成式AI发展。"
可以看到模型完完整整的在玻璃板生成了完整的手写体段落。
中英双语 case
那如果是中英双语呢?对于同样的场景,我们试试这样的prompt:
一个穿着"QWEN"标志的T恤的中国美女正拿着黑色的马克笔面相镜头微笑。她身后的玻璃板上手写体写着 "Meet Qwen-Image -- a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑"
可以看到,模型在双语间也可以随时切换。
海报 case
Qwen-Image的文字能力使得其可以轻松的制作一些海报,比如
既然可以制作海报,当然我们也可以直接制作PPT啦,我们看一个中文制作PPT的case:
中文PPT case
其实,除了文本处理,Qwen-Image 也会在通用图像生成方面也表现出色,支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示,成为艺术家、设计师和故事创作者的多功能工具。
在图像编辑方面,Qwen-Image支持风格迁移、增删改、细节增强、文字编辑,人物姿态调整等多种操作。这让普通用户也能轻松实现专业级的图像编辑。这些我们在技术报告中会详细描述。
未来展望
综上,我们希望Qwen-Image能够进一步推动在图像生成领域的发展,降低视觉内容创作的技术门槛,激发更多创新应用的可能。同时,我们也期待社区的积极参与与反馈,共同构建开放、透明、可持续发展的生成式AI生态。
关注我,掌握千问大模型最新动态
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-05
继Coze开源后,火山引擎又一大动作!重磅推出豆包新模型+PromptPilot
2025-08-04
OpenCSG :企业级AI落地的全新选择,凭什么脱颖而出?
2025-08-04
Coze Studio开发本地微信消息发送插件全流程实战
2025-08-04
阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件
2025-08-04
【开源初探】基于 Qwen2.5VL的文档解析工具:docext
2025-08-04
coze-studio v0.2.1版本全面更新解析及实战应用指南
2025-08-04
Coze开源体验如何?手把手教你电脑上安装开源版Coze Studio,并和dify深度对比
2025-08-03
Github4.4k star!这个开源AI项目让我从996打工人变身效率怪兽
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-27
2025-07-12
2025-05-29
2025-07-29
2025-07-29
2025-08-04
2025-08-03
2025-08-02
2025-08-02
2025-07-31
2025-07-31
2025-07-31
2025-07-30