我要投稿

Qwen2-VL：阿里开源新型世界领先视觉智能体，主打人类级别任意分辨率图像处理

发布日期：2024-08-30 12:21:30 浏览次数： 2554

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

阿里云又来炸场了！他们刚刚开源了新一代视觉语言模型Qwen2-VL，而且一口气发布了20亿参数和70亿参数两个版本，还开放了最强720亿参数版本的API！这波操作简直6到飞起！?

Qwen2-VL 究竟有多牛？

看得清，看得懂： Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比，都难不倒它

20分钟长视频也不怕： Qwen2-VL 能理解超过 20 分钟的视频，可以用来做高质量的视频问答、对话、内容创作等等

可操作手机、机器人等的Agent： Qwen2-VL 还能跟手机、机器人等设备结合，实现自动操作！它强大的推理和决策能力，加上对视觉环境和文本指令的理解，让它成为真正的“智能管家”

多语言支持，全球用户都能用： 除了英语和中文，Qwen2-VL 现在还支持识别图像中的多种语言文本，包括大部分欧洲语言、日语、韩语、阿拉伯语、越南语等等，真正做到了面向全球用户！

70亿参数以下，Qwen2-VL 就是最强的！ 而且，为了让 Qwen2-VL 能够在手机等移动设备上运行，阿里云还首次发布了 20 亿参数的小型视觉语言模型 Qwen2-VL-2B

想体验 Qwen2-VL 的强大功能？

博客：

https://qwenlm.github.io/blog/qwen2-vl/

GitHub：

https://github.com/QwenLM/Qwen2-VL

Hugging Face：

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

ModelScope：

https://modelscope.cn/organization/qwen

Qwen2-VL 成功的三个秘诀：

1.Naive Dynamic Resolution 支持： Qwen2-VL 可以处理任意分辨率的图像，并将它们映射成动态数量的视觉token，从而保证模型输入和图像信息的一致性。这就像人类的视觉感知一样，无论图像清晰度或大小如何，都能轻松识别

2.多模态旋转位置编码（M-ROPE）： 通过将旋转位置编码分解成时间、空间（高度和宽度）三部分，M-ROPE 使 LLM 能够同时捕捉和整合一维文本、二维视觉和三维视频的位置信息，让模型更全面地理解多模态信息

3.数据为王！ Data is all you need

要访问 Qwen2-VL-72B，暂时通过以下方式使用官方 API

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-12

深度解析 Devstral 2：Mistral 如何重新定义开源代码智能体（Agentic Coding）

2025-12-12

【开源推荐】1.4 万星爆火！Notebook LM 开源本地版

2025-12-11

一句 prompt，自动部署 AI 手机｜邪修还是快

2025-12-10

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-09

豆包手机不用买了？能操作手机的AutoGLM开源

2025-12-09

今天，AutoGLM开源：让人人都可构建手机Agent

2025-12-09

多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

2025-12-09

11K+ Star！NotebookLM 最强开源平替来了，支持私有化部署！

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

如愿以偿！Qwen3-VL再开源30B-A3B，附实测！

2025-10-03

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

DeepSeek-V3.2-Exp开源，附论文细节解读！

2025-09-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

大家都在问

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

Qwen3-Next 首测！Qwen3.5的预览版？但为什么我的测试一塌糊涂？

2025-09-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部