微信扫码
添加专属顾问
我要投稿
阿里云又来炸场了!他们刚刚开源了新一代视觉语言模型Qwen2-VL,而且一口气发布了20亿参数和70亿参数两个版本,还开放了最强720亿参数版本的API!这波操作简直6到飞起!?
看得清,看得懂: Qwen2-VL 在各种视觉理解任务上都取得了 SOTA 成绩,包括 MathVista、DocVQA、RealWorldQA、MTVQA 等等。无论是图像分辨率还是长宽比,都难不倒它
20分钟长视频也不怕: Qwen2-VL 能理解超过 20 分钟的视频,可以用来做高质量的视频问答、对话、内容创作等等
可操作手机、机器人等的Agent: Qwen2-VL 还能跟手机、机器人等设备结合,实现自动操作!它强大的推理和决策能力,加上对视觉环境和文本指令的理解,让它成为真正的“智能管家”
多语言支持,全球用户都能用: 除了英语和中文,Qwen2-VL 现在还支持识别图像中的多种语言文本,包括大部分欧洲语言、日语、韩语、阿拉伯语、越南语等等,真正做到了面向全球用户!
70亿参数以下,Qwen2-VL 就是最强的! 而且,为了让 Qwen2-VL 能够在手机等移动设备上运行,阿里云还首次发布了 20 亿参数的小型视觉语言模型 Qwen2-VL-2B
博客:
https://qwenlm.github.io/blog/qwen2-vl/
GitHub:
https://github.com/QwenLM/Qwen2-VL
Hugging Face:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
ModelScope:
https://modelscope.cn/organization/qwen
Qwen2-VL 成功的三个秘诀:
1.Naive Dynamic Resolution 支持: Qwen2-VL 可以处理任意分辨率的图像,并将它们映射成动态数量的视觉token,从而保证模型输入和图像信息的一致性。这就像人类的视觉感知一样,无论图像清晰度或大小如何,都能轻松识别
2.多模态旋转位置编码(M-ROPE): 通过将旋转位置编码分解成时间、空间(高度和宽度)三部分,M-ROPE 使 LLM 能够同时捕捉和整合一维文本、二维视觉和三维视频的位置信息,让模型更全面地理解多模态信息
3.数据为王! Data is all you need
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-09
Virustotal对OpenClaw恶意技能(Skills)的跟踪分析
2026-02-09
ollama v0.15.6发布:上下文限制修复、自动模型下载、Claude环境变量优化、Droid与Qwen全面更新详解
2026-02-09
【开源】港大开源“纳米级OpenClaw”:超轻量AI助手,仅4000行代码复刻OpenClaw核心战力!
2026-02-06
Qwen3-Coder-Next 上线模力方舟:仅 3B 激活参数,媲美主流大模型的 Agent 编码能力
2026-02-06
给自己搭一个 AI 搭档:OpenClaw 安装使用全记录
2026-02-06
Qwen3-TTS:2026年最强开源文本转语音模型完全指南
2026-02-06
OpenClaw 爆火之后,我们看到了这些创业信号
2026-02-05
从Clawdbot到OpenClaw:爆款本地AI Agent的产品逻辑与争议
2025-11-19
2026-01-27
2025-12-22
2026-01-12
2026-01-29
2025-11-17
2025-12-10
2026-01-28
2025-12-23
2026-01-06
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02