智谱发布开源视觉推理模型GLM-4.5V，刷新41项多模态推理SOTA

发布日期：2025-08-12 08:34:08 浏览次数： 3921

作者：DeepTech深科技

微信搜一搜，关注“DeepTech深科技”

智谱 AI 正式发布并开源新一代视觉推理模型 GLM-4.5V，官方数据显示，其在 41 个公开视觉多模态基准测试中达到同级别开源模型 SOTA（State-of-the-Art，当前最佳技术）性能。该模型已同步在 GitHub、Hugging Face 和魔搭社区开源，采用 MIT 开源协议，支持商业使用（项目地址：https://github.com/zai-org/GLM-V/）。

图丨基准测试结果（来源：Hugging Face）

此次开源的 GLM-4.5V 是一个拥有 1,060 亿总参数、120 亿激活参数的 VLM（Vision-Language Model，视觉-语言模型）。它基于智谱此前发布的旗舰文本基座模型 GLM-4.5-Air 构建，并延续了 GLM-4.1V-Thinking 的技术路线。

从技术架构上看，GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分构成。模型通过引入三维旋转位置编码（3D-RoPE），显著增强了对多模态信息中三维空间关系的感知和推理能力。同时，它支持 64K tokens 的多模态长上下文输入，并采用三维卷积来提升视频处理的效率。这些设计使得模型不仅能处理图像，也能理解视频内容，并对高分辨率以及极端宽高比的图像具有更强的处理能力和稳健性。

图丨技术细节（来源：智谱）

为了提高其多模态能力，智谱在模型训练的三个阶段进行了多重优化。首先是预训练阶段，结合了大规模的图文交错多模态语料和长上下文内容，强化了模型对复杂图文和视频的基础理解能力。

其次是监督微调（SFT，Supervised Fine-Tuning）阶段，该阶段引入了显式的“思维链”格式训练样本，旨在增强模型的因果推理和多模态理解深度。最后是强化学习（RL，Reinforcement Learning）阶段，通过构建多领域奖励系统，并结合可验证奖励强化学习（RLVR，Reinforcement Learning with Verifiable Rewards）与基于人类反馈的强化学习RLHF，Reinforcement Learning from Human Feedback），模型在科学、技术、工程、数学（STEM）问题、多模态定位以及智能体（Agent）任务等方面获得了全面优化。

在其官方演示中，GLM-4.5V 展现了覆盖全场景的视觉推理能力，具体体现在多个方面。在图像推理层面，它能够进行复杂的场景理解和多图分析。

例如，在模型能根据用户的自然语言提问，精准识别图像中的目标物体并输出其在图像中的坐标框。或是在不依赖外部搜索工具的情况下，通过分析图像中的植被、气候痕迹、建筑风格等细微线索，推断出照片的拍摄地点和大致经纬度。

在一项与人类玩家的对比测试中，GLM-4.5V 在参与“图寻游戏”全球积分赛的 16 小时内，击败了 99% 的人类玩家，并在 7 天后攀升至全球第 66 名。

笔者小小的尝试了一下，的确非常精准。