微信扫码
添加专属顾问
我要投稿
阿里Qwen VLo多模态模型实测:从复杂指令理解到多语言生成,全面挑战现有AI绘图能力边界。 核心内容: 1. 复杂场景生成测试:黑帽男子、红墨镜女性与哈士奇共乘标注"Qwen VLo"的纽约地铁 2. 四维度专业评估:美学质量/指令遵循度/真实感/多语言支持能力 3. 与ChatGPT的横向对比实验及模型极限压力测试
笔者将基于ChatGPT、Qwen VLo使用相同提示词生成图片,在此基础上使用Qwen2.5-VL-32B-instruct从美学质量、指令遵循度、真实感角度进行评价。测试从复杂指令理解与多重任务、复杂指令理解与多重任务、图像检测及标注、多语言文字生成图像等角度展开,笔者人为加大了难度,测评结果仅代表大模型与个人观点,不代表雇主观点。
生成照片,图中男人带着黑帽子在地铁上看报纸,旁边是一个美丽的带红色墨镜年轻女性,还有一只=哈士奇,地铁的窗外是自由女神像,地铁的站牌显示“Qwen VLo”
生成摆满水果的桌面
笔者注:本次生成结果,显然是Qw-en更胜一筹,以下是Qwen2.5-VL-32B-instruct测评结果,仅供参考
美学质量:
指令遵循:
真实感:
ChatGPT 4o在预测边缘检测图时,实际调用了Python代码,甚至还很贴心地给出了文字说明:可以更换不同的边缘检测方法。
左:输入,右:边缘检测图
Qwen直接给出了边缘检测图,中间是否涉及到工具使用就不得而知了。
为了公平比较,使用测试2中Qwen生成的图像测试模型分割图像的能力。
用橙色mask分割图中香蕉的边缘
ChatGPT依旧选择了使用工具,但基于HSV颜色空间的算法显然不太能够完成我们的任务。
尝试了2次,目前无法复原po中的生成结果。
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层
左:ChatGPT,右:Qwen
看到ChatGPT生成的结果,笔者感慨万千,硬要鸡蛋里挑骨头——苏打水体积是小于薯片罐的,但这需要常识或者根据互联网资料,仅从图片中也无法推理得到。那再给ChatGPT加点难度:
将这些零食(每个品种的薯片各1罐、2瓶苏打水)放到购物车上层,下层购物篮放置1瓶苏打水、一罐洋葱味薯片
虽然多生成了一个四不像的东西,但甚至推理出了绿罐薯片是洋葱味的。
作为一个图形学博主(bushi),笔者使用ChatGPT o3根据光线追踪场景生成了一份中英文提示词用于测试多语言文字生成图像能力。
左:ChatGPT,右:Qwen
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-14
DeepSeek 思维链(CoT)在 AIOps 智能运维中的应用与落地实践
2025-08-14
从 0 到 1 做一款 AI 产品:技术怎么搭、成本如何控制、销售策略怎么定?
2025-08-14
n8n部署RAG太麻烦?MCP+自然语言搞定n8n workflow 的时代来了!
2025-08-14
建筑+AI:从建筑行业的方圆图谈AI赋能
2025-08-14
提示词:拟写金融服务解决方案
2025-08-14
解锁任意模态模型训练,字节跳动Seed开源VeOmni框架
2025-08-14
为什么构建 AI agent 的工程量往往比想象的大?
2025-08-14
万字解码 Agentic AI 时代的记忆系统演进之路
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-05-20
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-08-14
2025-08-14
2025-08-13
2025-08-13
2025-08-11
2025-08-11
2025-08-11
2025-08-11