我要投稿

Om AI第二弹！VLX-Seek来了：3B小模型，细粒度感知反超Gemini

发布日期：2026-06-28 17:36:07 浏览次数： 1516

作者：PaperWeekly

微信搜一搜，关注“PaperWeekly”

继 VLX-Flow 之后，Om AI 把 VLX 系列推进到第二层能力：让模型在实时视觉场景中看准目标。

3B 参数的 VLM，能在细粒度感知上超过 Gemini 3.1 Pro 吗？

在 Om AI 联汇发布的VLX 端侧流式多模态模型系列中，VLX-Seek 补的就是这层能力。

它对应 VLX 体系中的精准定位层，处理的是 VLM 看得懂却看不准、传统小模型能框准却难以理解复杂语义目标的问题。

在图片问答里，模型说出“画面里有人”“桌上有杯子”，已经算完成理解。但一旦任务变成跟随、巡检、预警或导航，问题会马上变细：

如果画面里有多个人，究竟跟随哪一个？如果桌上有几个杯子，用户指的是哪一个？如果目标被遮挡，边界还准不准？

如果用户给出的不是一个简单类别名，而是一段复杂语义描述，模型又能不能理解这段描述，并把它准确落到画面中的具体目标上？

放到具体结果上，VLX-Seek-3B 在 MSCOCO val2017 上达到 45.3 mAP，超过了 Gemini 3.1 Pro 的 41.4；在更考验实例感知的 PixMo Count 上拿到 85.0，同样领先 Gemini 2.5 Pro 的 73.8。

3B 小模型能在这些任务上领先，起点是定位任务的表达方式变了。

传统坐标生成把精确数值输出交给语言模型。VLX-Seek 先把画面中的物理实体转成可被语言模型读取、引用和推理的 region token，再让模型在候选区域之间比较、选择和指代。

VLM为什么看不准？

让 VLM 描述一张图，和让它稳定定位图里的目标，是两类任务。

精确定位要求模型同时判断：这是什么、在哪里、边界到哪里、有几个实例，以及哪一个目标符合用户描述。这类任务依赖局部细节、空间结构和实例区分能力。

传统 VLM 常见的定位方式，是让语言模型直接生成坐标，例如 [x1, y1, x2, y2]。

这个形式看起来简单，实际很脆弱。坐标不是自然语言，LLM 更擅长生成词语、短语和句子，并不擅长稳定地产生精确数值。

一个框需要四个坐标，多个框会变成更长的数字序列。坐标顺序、归一化范围、标点格式、目标数量，只要任何一处出错，结果就可能无法解析，或者框的位置明显偏离目标。

多目标检测会进一步放大这个问题。一个目标需要生成四个坐标，十个目标就是几十个坐标 token。目标越多，输出越长，模型越容易漏检，格式也越容易出错。

更麻烦的是，长坐标序列会直接拖慢解码过程：每多生成一个 token，模型都要多走一步自回归推理。

放在云端离线分析里，这可能只是多等一会儿。但在机器人、无人机、摄像头和边缘终端等具身端侧场景中，定位结果往往要实时交给导航、抓取、避障或交互模块，推理效率本身就是核心指标。

坐标生成式 VLM 在多目标场景下，会把大量输出预算花在数值坐标上，而不是更快地完成目标选择和空间决策。

负样本同样绕不开。比如用户问“画面里穿蓝色制服的工作人员在哪里”，但画面中其实没有这个目标时，模型应该回答“没有”，而不是硬生成一个框。

坐标生成式 VLM 在这种情况下容易出现幻觉式检测，把不存在的目标定位到某个相似区域。

说到底，精确定位这种任务形式，和语言模型的生成方式并不天然匹配。

VLX-Seek 的切入点，是避开直接生成坐标这条脆弱路径。

把目标变成 Token

VLX-Seek 换了一种目标级感知方式：先把候选区域交给模型，再让模型根据语言描述完成检索和引用。

除全图视觉 token 和文本 token 之外，模型还会接收一组可寻址的区域 token。每个区域 token 都对应图像中的一个候选区域，并带有明确的区域编号。

〓 VLX-Seek 整体架构

当用户问“穿红衣服的人在哪里”时，模型判断哪个区域 token 最符合描述，并输出对应的区域索引。定位任务由此变成了在候选视觉区域中做语言条件检索。

这把定位问题放回了语言模型更擅长的比较、选择和指代。候选区域提前变成 token 后，模型面对的是一组可比较的视觉候选，而不是一串待续写的数值。

实际推理时，OPN 先召回可能包含前景目标的候选区域。

这一步不判断类别，只提供视觉候选；OPN 与 VLM 主体解耦，候选区域既可以来自 OPN 或其他检测器，也可以来自用户框选区域、人工指定的感兴趣区域，或者 visual prompt。

拿到候选区域后，VLX-Seek 使用 HFRE 从候选框中提取区域级视觉特征，并将这些特征投影到 LLM 的嵌入空间。

候选框原本只是几何范围，能标出“这里有一个区域”，却无法说明区域里是什么、和其他区域有什么区别、是否符合用户描述。经过这一步，区域有了可供模型比较和判断的视觉表示。

到了语言模型侧，用户的自然语言描述会和这些区域表示一起参与推理，模型通过区域索引完成定位和回答。后续的目标定位和区域推理，也都围绕这套表示展开。

区域如何进入模型？

候选框只给出了几何范围。要让区域真正进入语言模型，还需要同时补上语义和细节。HFRE 负责的就是这一步。

HFRE 是 VLX-Seek 的混合细粒度区域编码器。单一视觉编码器很难同时满足语义对齐和细粒度空间感知。

通用 VLM 原始视觉编码器通常已经和语言模型完成对齐，擅长提供全局语义信息，能支持高层理解。

但这类编码器往往不是为精细检测训练的，对小目标、边界、局部纹理和多尺度区域表达并不充分。

检测类、高分辨率视觉编码器更擅长局部细节：它们对边缘、纹理和空间结构更敏感，但未必天然处在 LLM 可以直接理解的语义空间中。

VLX-Seek 用双视觉路径把两种能力接起来。主视觉编码器保留原始 VLM 的语义对齐能力，让模型知道一个区域像什么、可能是什么。

辅助视觉编码器提供更高分辨率的局部细节，让模型看到边界、纹理、小目标和区域差异。

随后，SimpleFP 模块为 ViT 类视觉特征补足多尺度表达。

真实图像里的目标大小差异很大，同一张图中可能既有占据大面积的人，也有很小的手机、杯子或标识牌。多尺度结构可以让模型更好地适应不同大小的候选区域。

接着，VLX-Seek 根据候选框从视觉特征图中抽取区域特征，相当于把整张图的视觉信息切分成一个个候选目标的视觉信息。

最后，区域-语言连接器把区域特征投影到 LLM 的嵌入空间，让候选框真正变成可参与语言推理的区域表示。

这套结构让区域 token 同时携带两类信息：高层语义和细粒度空间细节。

对于普通 VQA 来说，模型知道“这是一辆车”可能够用；但对于开放词汇检测和具身任务来说，模型还必须知道是哪一辆车、车在画面哪里、它和旁边目标的边界如何区分。

区域有了表示，还要能被模型稳定引用。

在输入侧，每个区域都有一个显式编号。例如，第 0 个候选区域对应，第 1 个候选区域对应，第 2 个候选区域对应。

这些区域编号会和对应区域 token 一起进入语言模型，使 LLM 能把区域特征和区域编号绑定起来。

在输出侧，模型可以通过特殊 token 表达视觉定位关系。一个简化示例是：

people

这个结构表示，文本中的 people 对应图像中的和。模型最终输出的是区域引用，解析起来比长坐标序列更稳定。

区域引用的效率优势主要体现在多目标场景。目标越多，坐标生成需要输出的 token 越长；VLX-Seek 只输出区域索引，解码开销更低。

检测、指代表达理解、区域描述、区域问答和计数，也就可以落到同一套区域 token 框架下。

普通检测增强 VLM 往往把检测结果作为外部信息接入，VLX-Seek 则让区域直接进入模型内部，参与后续推理。

训练与结果

VLX-Seek 的训练分成两阶段：先让区域 token 对齐语言模型，再用感知指令强化区域级能力，并保留原有 VLM 能力。

第一阶段是区域-语言对齐，重点是让新增区域 token 先进入 LLM 的特征空间，为后续检测和感知任务打基础。训练时会冻结主干 VLM 的主要参数，把学习压力集中在 HFRE、区域-语言连接器和新增特殊 token 上。

模型先学会“一个区域 token 对应一个视觉区域”，再处理更复杂的感知指令。

第二阶段是感知指令微调。这一阶段会引入检测、指代表达理解、区域描述、区域推理、计数和 OCR 等任务，让模型在真实指令中学习如何使用区域 token。

训练时还要避免两种偏差。模型不能因为强化检测能力而损伤原有 VLM 能力，所以需要混入常规 VLM 指令数据，保留图像问答、描述和常识推理能力。

同时，它也要学会拒识，在目标不存在时回答“没有”，而不是强行指向某个区域。

VLX-Seek 不仅学习如何找到目标，也学习什么时候不该找。

MSCOCO val2017 先给出一个直观参照。VLX-Seek-3B 在该基准中达到 45.3 mAP，超过 Gemini 3.1 Pro 的 41.4，也明显高于 Qwen2.5-VL-7B 的 17.7。

〓 MSCOCO val2017 通用目标检测对比结果

换到开放词汇检测，难点变成开放类别、复杂语言标签和难负样本。

VLX-Seek-3B 在 OVDEval 上达到 43.7；在 ODinW13 中，VLX-Seek 拿到 48.4，超过 Qwen3.5-397B-A17B 的 47.0 和 Gemini 3 Pro 的 46.3。

〓 ODinW13 开放词汇检测横向对比结果

RefCOCO 系列进一步考验自然语言指代，例如“左边第二个穿黑色衣服的人”“靠近桌子的杯子”“被另一个物体遮住一部分的目标”。

VLX-Seek-3B 在 RefCOCO/+/g Average 中达到 88.7，略高于 Qwen3-VL-8B 和 InternVL3-9B 的 88.2，也领先 Gemini 3 Pro 的 84.1。

〓 RefCOCO 系列指代表达理解平均结果

PixMo Count 则把问题推到实例级计数。VLX-Seek-3B 在该任务上达到 85.0，领先 Gemini 2.5 Pro 的 73.8，也明显高于 Qwen3-VL-8B 的 65.0。

计数任务看似简单，但 VLM 如果只依赖全局语义，很容易估多或估少。VLX-Seek 可以先检测并引用目标实例，再做聚合计数，比直接凭画面印象估数量更可靠。

〓 PixMo Count 目标计数任务对比结果

在检测、开放词汇定位、复杂指代表达和计数等任务上，VLX-Seek-3B 已经展现出小参数模型的竞争力。区域 token 与区域引用机制，是这组结果背后的关键设计。

从精准定位到行动决策

VLX-Seek 的价值，是让小参数 VLM 具备更稳定的区域级感知能力，并进一步面向端侧具身视觉部署。

普通 VLM 可以回答“画面里有几个人”，但在复杂定位、目标计数和开放词汇检测中容易不稳定；专用检测器在封闭类别上稳定，却不擅长处理自然语言描述、开放类别、复杂关系和多轮指代。

VLX-Seek 做的，是把候选区域建模和 VLM 的语言理解接到一起，让检测不再停留在固定类别框上。

面对坐标生成式 VLM，VLX-Seek 减少了多目标场景下的长序列输出压力；面对外接检测头方案，它让区域进入模型内部，参与后续推理。

对端侧设备来说，3B 规模和更低的解码开销，意味着更低的部署门槛，也减少了对高规格 GPU 和云端推理的依赖。

具身系统要行动，必须先有稳定空间锚点。目标在哪里、是哪一个、是否还在，都会影响后续跟随、避障、抓取和导航。

在 Om AI 的 VLX 体系里，VLX-Seek 提供的区域级感知会继续服务实时追踪和行动决策，补上从画面理解到目标锁定的这一步。

相关链接

👇

体验平台：

https://platform.om-agent.cn/subapp-index/#/front

GitHub 地址：

https://github.com/om-ai-lab/VLX-Seek

HuggingFace 地址：

https://huggingface.co/blog/omlab/vlx-seek

Om AI X 主页：

https://x.com/OmAI_lab

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业