推荐语
阿里Qwen VLo多模态模型实测:从复杂指令理解到多语言生成,全面挑战现有AI绘图能力边界。核心内容: 1. 复杂场景生成测试:黑帽男子、红墨镜女性与哈士奇共乘标注"Qwen VLo"的纽约地铁 2. 四维度专业评估:美学质量/指令遵循度/真实感/多语言支持能力 3. 与ChatGPT的横向对比实验及模型极限压力测试
杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
笔者将基于ChatGPT、Qwen VLo使用相同提示词生成图片,在此基础上使用Qwen2.5-VL-32B-instruct从美学质量、指令遵循度、真实感角度进行评价。测试从复杂指令理解与多重任务、复杂指令理解与多重任务、图像检测及标注、多语言文字生成图像等角度展开,笔者人为加大了难度,测评结果仅代表大模型与个人观点,不代表雇主观点。
测试1:复杂指令理解与多重任务
生成照片,图中男人带着黑帽子在地铁上看报纸,旁边是一个美丽的带红色墨镜年轻女性,还有一只=哈士奇,地铁的窗外是自由女神像,地铁的站牌显示“Qwen VLo”

Qwen2.5-VL-32B-instruct测评结果
- 第一张图片:构图平衡、色彩协调、细节丰富,整体氛围沉稳、视觉完成度高。
- 第二张图片:构图简单、色彩单一、细节粗糙,氛围轻松但略显平淡。
- 第一张图片:严格对应提示词的所有元素(人物、动作、服饰、动物、地铁场景等),无明显缺漏。
- 第二张图片:虽然包含主要元素,但细节存在偏差,如站牌文字不完整、人物表情不符合描述。
- 第一张图片:人物表情自然,环境与光影真实,动物细节处理精致,整体接近真实摄影。
- 第二张图片:人物表情夸张、环境简化、动物不真实,画面平面感强。
测试2:图像生成
左:ChatGPT,右:Qwen
Qwen2.5-VL-32B-instruct测评结果
笔者注:本次生成结果,显然是Qw-en更胜一筹,以下是Qwen2.5-VL-32B-instruct测评结果,仅供参考
美学质量:
指令遵循:
真实感:
测试3:图像检测及标注(预测边缘检测图)
ChatGPT生成结果

ChatGPT 4o在预测边缘检测图时,实际调用了Python代码,甚至还很贴心地给出了文字说明:可以更换不同的边缘检测方法。

Qwen生成结果

左:输入,右:边缘检测图
Qwen直接给出了边缘检测图,中间是否涉及到工具使用就不得而知了。
测试4:图像检测及标注(分割图像)
为了公平比较,使用测试2中Qwen生成的图像测试模型分割图像的能力。
ChatGPT生成结果

ChatGPT依旧选择了使用工具,但基于HSV颜色空间的算法显然不太能够完成我们的任务。
Qwen生成结果
左:原始图像,中、右:2次生成结果
尝试了2次,目前无法复原po中的生成结果。
测试5:多图片理解及生成
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层

左:ChatGPT,右:Qwen
看到ChatGPT生成的结果,笔者感慨万千,硬要鸡蛋里挑骨头——苏打水体积是小于薯片罐的,但这需要常识或者根据互联网资料,仅从图片中也无法推理得到。那再给ChatGPT加点难度:
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层,下层购物篮放置1瓶苏打水、一罐洋葱味薯片

虽然多生成了一个四不像的东西,但甚至推理出了绿罐薯片是洋葱味的。
测试6:多语言文字生成图像
作为一个图形学博主(bushi),笔者使用ChatGPT o3根据光线追踪场景生成了一份中英文提示词用于测试多语言文字生成图像能力。
左:光线追踪场景,右:提示词

左:ChatGPT,右:Qwen
参考资料
Qwen VLo:从“看懂”世界到“描绘”世界
作者:Eternity,Datawhale成员
1. Agent" data-itemshowtype="0" linktype="text" data-linktype="2">一文详尽之LLM-Based Agent!2. DeepSeek Janus到Janus-Pro!" data-itemshowtype="0" linktype="text" data-linktype="2">完整解读:从DeepSeek Janus到Janus-Pro!https://www.zhihu.com/people/AlbertRen