微信扫码
添加专属顾问
我要投稿
Om AI发布3B小模型VLX-Seek,在细粒度视觉感知任务上反超Gemini Pro,展现精准定位新突破。核心内容:1. VLX-Seek模型的核心能力:解决VLM“看懂却看不准”的难题2. 技术突破:将物理实体转为region token,提升定位精度与推理效率3. 性能表现:在多项基准测试中超越Gemini,适配端侧实时场景
继 VLX-Flow 之后,Om AI 把 VLX 系列推进到第二层能力:让模型在实时视觉场景中看准目标。
3B 参数的 VLM,能在细粒度感知上超过 Gemini 3.1 Pro 吗?
在 Om AI 联汇发布的VLX 端侧流式多模态模型系列中,VLX-Seek 补的就是这层能力。
它对应 VLX 体系中的精准定位层,处理的是 VLM 看得懂却看不准、传统小模型能框准却难以理解复杂语义目标的问题。
在图片问答里,模型说出“画面里有人”“桌上有杯子”,已经算完成理解。但一旦任务变成跟随、巡检、预警或导航,问题会马上变细:
如果画面里有多个人,究竟跟随哪一个?如果桌上有几个杯子,用户指的是哪一个?如果目标被遮挡,边界还准不准?
如果用户给出的不是一个简单类别名,而是一段复杂语义描述,模型又能不能理解这段描述,并把它准确落到画面中的具体目标上?
放到具体结果上,VLX-Seek-3B 在 MSCOCO val2017 上达到 45.3 mAP,超过了 Gemini 3.1 Pro 的 41.4;在更考验实例感知的 PixMo Count 上拿到 85.0,同样领先 Gemini 2.5 Pro 的 73.8。
3B 小模型能在这些任务上领先,起点是定位任务的表达方式变了。
传统坐标生成把精确数值输出交给语言模型。VLX-Seek 先把画面中的物理实体转成可被语言模型读取、引用和推理的 region token,再让模型在候选区域之间比较、选择和指代。
VLM为什么看不准?
让 VLM 描述一张图,和让它稳定定位图里的目标,是两类任务。
精确定位要求模型同时判断:这是什么、在哪里、边界到哪里、有几个实例,以及哪一个目标符合用户描述。这类任务依赖局部细节、空间结构和实例区分能力。
传统 VLM 常见的定位方式,是让语言模型直接生成坐标,例如 [x1, y1, x2, y2]。
这个形式看起来简单,实际很脆弱。坐标不是自然语言,LLM 更擅长生成词语、短语和句子,并不擅长稳定地产生精确数值。
一个框需要四个坐标,多个框会变成更长的数字序列。坐标顺序、归一化范围、标点格式、目标数量,只要任何一处出错,结果就可能无法解析,或者框的位置明显偏离目标。
多目标检测会进一步放大这个问题。一个目标需要生成四个坐标,十个目标就是几十个坐标 token。目标越多,输出越长,模型越容易漏检,格式也越容易出错。
更麻烦的是,长坐标序列会直接拖慢解码过程:每多生成一个 token,模型都要多走一步自回归推理。
放在云端离线分析里,这可能只是多等一会儿。但在机器人、无人机、摄像头和边缘终端等具身端侧场景中,定位结果往往要实时交给导航、抓取、避障或交互模块,推理效率本身就是核心指标。
坐标生成式 VLM 在多目标场景下,会把大量输出预算花在数值坐标上,而不是更快地完成目标选择和空间决策。
负样本同样绕不开。比如用户问“画面里穿蓝色制服的工作人员在哪里”,但画面中其实没有这个目标时,模型应该回答“没有”,而不是硬生成一个框。
坐标生成式 VLM 在这种情况下容易出现幻觉式检测,把不存在的目标定位到某个相似区域。
说到底,精确定位这种任务形式,和语言模型的生成方式并不天然匹配。
VLX-Seek 的切入点,是避开直接生成坐标这条脆弱路径。
把目标变成 Token
VLX-Seek 换了一种目标级感知方式:先把候选区域交给模型,再让模型根据语言描述完成检索和引用。
除全图视觉 token 和文本 token 之外,模型还会接收一组可寻址的区域 token。每个区域 token 都对应图像中的一个候选区域,并带有明确的区域编号。
〓 VLX-Seek 整体架构
当用户问“穿红衣服的人在哪里”时,模型判断哪个区域 token 最符合描述,并输出对应的区域索引。定位任务由此变成了在候选视觉区域中做语言条件检索。
这把定位问题放回了语言模型更擅长的比较、选择和指代。候选区域提前变成 token 后,模型面对的是一组可比较的视觉候选,而不是一串待续写的数值。
实际推理时,OPN 先召回可能包含前景目标的候选区域。
这一步不判断类别,只提供视觉候选;OPN 与 VLM 主体解耦,候选区域既可以来自 OPN 或其他检测器,也可以来自用户框选区域、人工指定的感兴趣区域,或者 visual prompt。
拿到候选区域后,VLX-Seek 使用 HFRE 从候选框中提取区域级视觉特征,并将这些特征投影到 LLM 的嵌入空间。
候选框原本只是几何范围,能标出“这里有一个区域”,却无法说明区域里是什么、和其他区域有什么区别、是否符合用户描述。经过这一步,区域有了可供模型比较和判断的视觉表示。
到了语言模型侧,用户的自然语言描述会和这些区域表示一起参与推理,模型通过区域索引完成定位和回答。后续的目标定位和区域推理,也都围绕这套表示展开。
区域如何进入模型?
候选框只给出了几何范围。要让区域真正进入语言模型,还需要同时补上语义和细节。HFRE 负责的就是这一步。
HFRE 是 VLX-Seek 的混合细粒度区域编码器。单一视觉编码器很难同时满足语义对齐和细粒度空间感知。
通用 VLM 原始视觉编码器通常已经和语言模型完成对齐,擅长提供全局语义信息,能支持高层理解。
但这类编码器往往不是为精细检测训练的,对小目标、边界、局部纹理和多尺度区域表达并不充分。
检测类、高分辨率视觉编码器更擅长局部细节:它们对边缘、纹理和空间结构更敏感,但未必天然处在 LLM 可以直接理解的语义空间中。
VLX-Seek 用双视觉路径把两种能力接起来。主视觉编码器保留原始 VLM 的语义对齐能力,让模型知道一个区域像什么、可能是什么。
辅助视觉编码器提供更高分辨率的局部细节,让模型看到边界、纹理、小目标和区域差异。
随后,SimpleFP 模块为 ViT 类视觉特征补足多尺度表达。
真实图像里的目标大小差异很大,同一张图中可能既有占据大面积的人,也有很小的手机、杯子或标识牌。多尺度结构可以让模型更好地适应不同大小的候选区域。
接着,VLX-Seek 根据候选框从视觉特征图中抽取区域特征,相当于把整张图的视觉信息切分成一个个候选目标的视觉信息。
最后,区域-语言连接器把区域特征投影到 LLM 的嵌入空间,让候选框真正变成可参与语言推理的区域表示。
这套结构让区域 token 同时携带两类信息:高层语义和细粒度空间细节。
对于普通 VQA 来说,模型知道“这是一辆车”可能够用;但对于开放词汇检测和具身任务来说,模型还必须知道是哪一辆车、车在画面哪里、它和旁边目标的边界如何区分。
区域有了表示,还要能被模型稳定引用。
在输入侧,每个区域都有一个显式编号。例如,第 0 个候选区域对应 ,第 1 个候选区域对应,第 2 个候选区域对应。
这些区域编号会和对应区域 token 一起进入语言模型,使 LLM 能把区域特征和区域编号绑定起来。
在输出侧,模型可以通过特殊 token 表达视觉定位关系。一个简化示例是:
这个结构表示,文本中的 people 对应图像中的和。模型最终输出的是区域引用,解析起来比长坐标序列更稳定。
区域引用的效率优势主要体现在多目标场景。目标越多,坐标生成需要输出的 token 越长;VLX-Seek 只输出区域索引,解码开销更低。
检测、指代表达理解、区域描述、区域问答和计数,也就可以落到同一套区域 token 框架下。
普通检测增强 VLM 往往把检测结果作为外部信息接入,VLX-Seek 则让区域直接进入模型内部,参与后续推理。
训练与结果
VLX-Seek 的训练分成两阶段:先让区域 token 对齐语言模型,再用感知指令强化区域级能力,并保留原有 VLM 能力。
第一阶段是区域-语言对齐,重点是让新增区域 token 先进入 LLM 的特征空间,为后续检测和感知任务打基础。训练时会冻结主干 VLM 的主要参数,把学习压力集中在 HFRE、区域-语言连接器和新增特殊 token 上。
模型先学会“一个区域 token 对应一个视觉区域”,再处理更复杂的感知指令。
第二阶段是感知指令微调。这一阶段会引入检测、指代表达理解、区域描述、区域推理、计数和 OCR 等任务,让模型在真实指令中学习如何使用区域 token。
训练时还要避免两种偏差。模型不能因为强化检测能力而损伤原有 VLM 能力,所以需要混入常规 VLM 指令数据,保留图像问答、描述和常识推理能力。
同时,它也要学会拒识,在目标不存在时回答“没有”,而不是强行指向某个区域。
VLX-Seek 不仅学习如何找到目标,也学习什么时候不该找。
MSCOCO val2017 先给出一个直观参照。VLX-Seek-3B 在该基准中达到 45.3 mAP,超过 Gemini 3.1 Pro 的 41.4,也明显高于 Qwen2.5-VL-7B 的 17.7。
〓 MSCOCO val2017 通用目标检测对比结果
换到开放词汇检测,难点变成开放类别、复杂语言标签和难负样本。
VLX-Seek-3B 在 OVDEval 上达到 43.7;在 ODinW13 中,VLX-Seek 拿到 48.4,超过 Qwen3.5-397B-A17B 的 47.0 和 Gemini 3 Pro 的 46.3。
〓 ODinW13 开放词汇检测横向对比结果
RefCOCO 系列进一步考验自然语言指代,例如“左边第二个穿黑色衣服的人”“靠近桌子的杯子”“被另一个物体遮住一部分的目标”。
VLX-Seek-3B 在 RefCOCO/+/g Average 中达到 88.7,略高于 Qwen3-VL-8B 和 InternVL3-9B 的 88.2,也领先 Gemini 3 Pro 的 84.1。
〓 RefCOCO 系列指代表达理解平均结果
PixMo Count 则把问题推到实例级计数。VLX-Seek-3B 在该任务上达到 85.0,领先 Gemini 2.5 Pro 的 73.8,也明显高于 Qwen3-VL-8B 的 65.0。
计数任务看似简单,但 VLM 如果只依赖全局语义,很容易估多或估少。VLX-Seek 可以先检测并引用目标实例,再做聚合计数,比直接凭画面印象估数量更可靠。
〓 PixMo Count 目标计数任务对比结果
在检测、开放词汇定位、复杂指代表达和计数等任务上,VLX-Seek-3B 已经展现出小参数模型的竞争力。区域 token 与区域引用机制,是这组结果背后的关键设计。
VLX-Seek 的价值,是让小参数 VLM 具备更稳定的区域级感知能力,并进一步面向端侧具身视觉部署。
普通 VLM 可以回答“画面里有几个人”,但在复杂定位、目标计数和开放词汇检测中容易不稳定;专用检测器在封闭类别上稳定,却不擅长处理自然语言描述、开放类别、复杂关系和多轮指代。
VLX-Seek 做的,是把候选区域建模和 VLM 的语言理解接到一起,让检测不再停留在固定类别框上。
面对坐标生成式 VLM,VLX-Seek 减少了多目标场景下的长序列输出压力;面对外接检测头方案,它让区域进入模型内部,参与后续推理。
对端侧设备来说,3B 规模和更低的解码开销,意味着更低的部署门槛,也减少了对高规格 GPU 和云端推理的依赖。
具身系统要行动,必须先有稳定空间锚点。目标在哪里、是哪一个、是否还在,都会影响后续跟随、避障、抓取和导航。
在 Om AI 的 VLX 体系里,VLX-Seek 提供的区域级感知会继续服务实时追踪和行动决策,补上从画面理解到目标锁定的这一步。
相关链接
体验平台:
https://platform.om-agent.cn/subapp-index/#/front
GitHub 地址:
https://github.com/om-ai-lab/VLX-Seek
HuggingFace 地址:
https://huggingface.co/blog/omlab/vlx-seek
Om AI X 主页:
https://x.com/OmAI_lab
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-22
小参数,大能力 | 星际视觉语言大模型再进化,0.8B轻量版正式发布
2026-06-16
RapidOCR: 从 setup.py 迁移到 pyproject.toml 打包实践
2026-06-12
PaddleOCR 3.7 正式接入ONNX Runtime,一个参数换后端,轻量部署新选择
2026-06-11
本地部署OCR,可能是AI进单位的第一道门
2026-06-08
正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型
2026-05-30
还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-05-25
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
2026-04-22
2026-04-01
2026-04-02
2026-04-27
2026-04-21
2026-04-09
2026-03-31
2026-04-15
2026-04-02
2026-04-01
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30