我要投稿

昆仑万维搞了个小模型，很美很强，还开源

发布日期：2025-08-13 10:03:27 浏览次数： 3591

作者：沃垠AI

微信搜一搜，关注“沃垠AI”

GPT-5发布后，你知道大家吐槽最多的是什么吗？

“还我GPT-4o！”

因为那个支持图像理解、生成和编辑的4o，真的很让人喜欢，一直是生图界的热门模型。

后来，又陆续有了FLUX-Kontext、BAGEL等开源模型，但他们都参数太大，不仅理解、生成和编辑能力强耦合，推理速度也慢，计算资源消耗高，普通人根本玩不转。

今天，昆仑万维开源了个“小而美”的模型——Skywork UniPic 2.0，在单一模型中融合了图像理解、生成和编辑的能力，实现了“高效、高质、统一”的多模态一体化模型。

生图部分的参数量只有2B，部署门槛超低（一张RTX4090绰绰有余），但理解、生成与编辑能力丝毫不差，完全可以媲美其他大尺寸的顶尖模型。

一手测评

我参与了他们的内测，简单说说我的一些感受和case。

跟4o类似，Skywork UniPic 2.0在一个模型中融合了图像理解、文本生成图像（T2I）和图像编辑的能力，是一个「多模态一体化模型」。

UniPic 2.0既可以像VLM一样理解图像、像T2I模型一样生成图片，还可以像美图工具一样一键实现风格转绘/吉卜力化的编辑功能。

虽然参数只有2B，但是能力超强。无论是生图效果还是编辑效果，UniPic 2.0都超过了12B的Flux、19B的UniWorld-V1和14B的Bagel。

下面，给大家看一些我实测的case。

1）图片理解

去年，我去泸沽湖玩，拍了一些照片，考考它这是哪里。

全球湖泊那么多，光看图还是很难猜的，但这个模型一下子就猜出来了，是云南丽江的泸沽湖。

再来一张，而且我还特意把图片的Exif信息（就是照片的属性信息和拍摄数据，可以理解为照片的身份证）去掉了，防止模型背参数。

虽然没有准确找出这是哪里（其实我拍的时候也不知道是哪里，只是在川西路边随手拍的），但是列举的地方还是挺对的，大体在川西一带。

抽象的图呢，看看它能不能理解。

也还不错，给出了多层解构。

这是GPT-5发布后的一张梗图，考考它。

“这张图反映了人们对AI发展的乐观预期与现实进展之间的差距，以及AI技术发展的真实情况”，理解准确。

定位大象和狮子的坐标，以JSON格式报告坐标框。

不错，定位准确。这个能力在现实中有着广阔的应用场景，比如安全与质量检查、高空遥感监测分析等。

[    {"bbox_2d": [148, 30, 227, 156], "label": "elephant"},    {"bbox_2d": [79, 58, 148, 156], "label": "lion"}]

2）图像生成

文生图，算是生图模型的基础能力了。要测，我们就测一些高难度的。以下，是一些有难度的Prompt。

（1）空间飞船超图

a detailed sketch of a space shuttle, rendered in the intricate, technical style reminiscent of Leonardo da Vinci's famous drawings. The shuttle is depicted with numerous annotations and measurements, showcasing its complex design and structure. The paper on which it is drawn has an aged, yellowed appearance, adding to the historical feel of the artwork.

详细的空间飞船草图，以复杂、技术性的风格呈现，让人联想到达芬奇著名绘画的细节。飞船上标注了众多注释和尺寸，展示了其复杂的设计和结构。绘制该图的纸张呈现出陈1日、泛黄的外观，增添了艺术作品的历史感。

（2）复古旅游海报

A 1950s-style vintage tourism poster promoting a trip to the Moon, featuring a retro rocket ship with mid-century design lines, elegantly dressed tourists waving from the launch pad, hand-painted stars and a gradient blue lunar sky. CMYK print texture, visible halftone dots, retro color palette.

一张 1950 年代复古旅游海报，宣传去月球旅行，画面中央是一艘中世纪设计线条的复古火箭，穿着优雅服饰的游客在发射台挥手。背景是手绘的星空与渐变的蓝色月球天空。CMYK 印刷质感，可见网点，复古配色。

（3）光线城市

Lines formed by the flow of luminous particles and non-luminous particles create the silhouette of urban architecture, panoramic views, suspended on the holographic interface, microcosm, blurred lens, ray tracing, high-definition images, master's work

由发光粒子和不发光粒子流动形成的线形成城市建筑轮廓，全景图，悬浮在全息界面上，微观世界，镜头模糊，光线追踪，高清图片，大师作品

（4）巨鲸

A giant whale floating above a golden desert, its back covered with glowing cherry blossom trees, beneath a twilight sky blending auroras and stardust. Ultra-detailed surrealism, HDR rendering, hyper-real textures, atmospheric lighting.
一条巨大的鲸鱼漂浮在金色沙漠上方，背上覆盖着发光的樱花树，天空是融合了极光与星尘的暮色。超细致超现实主义风格，HDR 渲染，逼真质感，氛围光效。

（5）透明水晶的小狐狸

Macro photography of an intricate small fox sculpted from translucent crystal, curled up reading a book under a glowing, magical mushroom. The background is a deep night in an enchanted forest with luminous spores and dust motes floating in the air. Low-angle shot, the mushroom emits a soft, ethereal blue and purple light, illuminating the complex facets of the fox's crystal body, serene and mystical atmosphere. 

微距摄影，一只由半透明水晶雕琢而成的精致小狐狸，正蜷缩在发光的魔法蘑菇下看书。背景是深夜的魔法森林，空气中漂浮着发光的孢子和尘埃。视角从低角度仰视，蘑菇散发出柔和的蓝紫色光芒，照亮了狐狸水晶身体的复杂纹理，营造出一种宁静而神秘的氛围。

（6）赛博朋克武士

Cinematic photo, a cyborg samurai in futuristic luminous armor, holding a plasma katana, standing at the busy Shibuya crossing in Tokyo on a rainy night. Close-up shot, reflections of neon signs shimmering on his visor, steam and digital rain fills the air, cool color palette, cyberpunk atmosphere. 

电影感写实照片，一个身穿未来派夜光盔甲的机械武士，手持一把能量武士刀，站在雨夜中东京涩谷繁忙的十字路口。特写镜头，霓虹灯广告牌的倒影映在他的面罩上，空气中弥漫着蒸汽和数字化的雨滴，冷色调，充满赛博朋克氛围。

（7）玻璃海滩

A surreal beach where the ocean waves are made entirely of translucent crystal glass, reflecting rainbow light as they crash. White sand with polished gemstones scattered across. Hyper-real, ultra-detailed, dreamlike atmosphere.

一片超现实海滩，海浪完全由半透明水晶玻璃构成，拍打时折射出彩虹光。白色沙滩上散落着打磨光滑的宝石。超写实，细节极致，梦幻氛围。

（8）末世温室

A ruined glass greenhouse overgrown with vines and flowers, in the middle of a desolate, post-apocalyptic city. Sunlight beams through broken glass panels, dust particles floating in the air. Photorealistic, 8K resolution, dramatic lighting.

一座废弃的玻璃温室被藤蔓和鲜花占据，孤立在末世废墟般的城市中央。阳光透过破碎的玻璃洒下，尘埃在空气中漂浮。超写实风格，8K 分辨率，戏剧性光影。

3）图片编辑

还是我在泸沽湖拍的图片。

输入Prompt：将图片转换为油画风格。

不错不错，一张油画版的泸沽湖就出来了。

更多的case还有。

去除图片中的直升机。

将游艇颜色改为红色。

将舞台背景改为有棕榈树和海洋的沙滩。

将图中的蓝色小鸟替换成红色狐狸。

在图片添加一个小巧迷人的凉亭，位于小路靠右的位置，靠近公园的长椅。凉享应与场景的冬日宁静氛围相匹配，并由附近街灯发出的柔和温暖灯光照亮。

技术揭秘

从实测来看，Skywork UniPic 2.0的性能还是很能打的，关键是它很轻量。

怎么理解这个UniPic 2.0呢？简单说，它是一个多模态统一模型，训练和生成都是在单一模型里完成，原生融合了图像理解、文本生成图像（T2I）和图像编辑三大核心能力。

它的技术架构，主要有3个核心模块。

生图编辑（上图中间）：基于SD3.5-Medium架构将原本只支持文本输入的模型改进成也接受文本图像同时输入，然后通过高质量图像生成和编辑数据的训练将原本生图能力扩展成生图、编辑双能力。
统一模型能力（上图左侧+中间）：通过冻结生图编辑模块，多模态模型（Qwen2.5-VL-7B），Pre-Train连接器来构建出理解生成编辑一体化能力，再通过连接器和生图编辑模块一起联合微调，实现最终的一体化理解、生图、编辑模型。
生图编辑后训练（上图右侧）：为提升生图编辑整体性能，设计了基于Flow-GRPO的渐进式双任务强化策略，实现了生成与编辑任务在不互相干扰下的协同优化，在预训练的基础上进一步提升了模型性能。

这个架构带来了3个优势：

生成模块轻量高效，性能拉满：生成模块基于2B参数的SD3.5-Medium 架构训练，生图和编辑指标超过7B参数的bagel、4B参数的OmniGen2、12B参数的UniWorld-V1和Flux-kontext模型。
引入强化学习，效果显著：基于Flow-GRPO首创渐进式双任务强化策略，有效提升模型对复杂指令的理解能力与图像生成和编辑的一致性，两大任务协同优化、互不干扰。
一体化灵活切换、拓展能力强：将生图编辑的Kontext模型与多模态模型端到端整合，仅需微调轻量连接器，即可快速构建统一理解-生成-编辑模型，并且生图和编辑的性能进一步提升。

当然，更重要的是，昆仑万维将Skywork UniPic 2.0全面开源，包括模型权重、训练代码、强化策略等，都全部开源，助力开发者与研究者快速上手并构建多模态应用。

项目主页：

https://unipic-v2.github.io

技术报告：

https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf

GiHub地址：

https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2

HuggingFac地址：

https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B

https://huggingface.co/Skywork/UniPic2-Metaquery-9B