2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Om AI第二弹!VLX-Seek来了:3B小模型,细粒度感知反超Gemini

发布日期:2026-06-28 17:36:07 浏览次数: 1516
作者:PaperWeekly

微信搜一搜,关注“PaperWeekly”

推荐语

Om AI发布3B小模型VLX-Seek,在细粒度视觉感知任务上反超Gemini Pro,展现精准定位新突破。

核心内容:
1. VLX-Seek模型的核心能力:解决VLM“看懂却看不准”的难题
2. 技术突破:将物理实体转为region token,提升定位精度与推理效率
3. 性能表现:在多项基准测试中超越Gemini,适配端侧实时场景

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
图片

继 VLX-Flow 之后,Om AI 把 VLX 系列推进到第二层能力:让模型在实时视觉场景中看准目标。


3B 参数的 VLM,能在细粒度感知上超过 Gemini 3.1 Pro 吗?


在 Om AI 联汇发布的VLX 端侧流式多模态模型系列中,VLX-Seek 补的就是这层能力。


它对应 VLX 体系中的精准定位层处理的是 VLM 看得懂却看不准、传统小模型能框准却难以理解复杂语义目标的问题。


在图片问答里,模型说出“画面里有人”“桌上有杯子”,已经算完成理解。但一旦任务变成跟随、巡检、预警或导航,问题会马上变细:


如果画面里有多个人,究竟跟随哪一个?如果桌上有几个杯子,用户指的是哪一个?如果目标被遮挡,边界还准不准?


如果用户给出的不是一个简单类别名,而是一段复杂语义描述,模型又能不能理解这段描述,并把它准确落到画面中的具体目标上?


放到具体结果上,VLX-Seek-3B 在 MSCOCO val2017 上达到 45.3 mAP,超过了 Gemini 3.1 Pro 的 41.4;在更考验实例感知的 PixMo Count 上拿到 85.0,同样领先 Gemini 2.5 Pro 的 73.8


3B 小模型能在这些任务上领先,起点是定位任务的表达方式变了。


传统坐标生成把精确数值输出交给语言模型。VLX-Seek 先把画面中的物理实体转成可被语言模型读取、引用和推理的 region token,再让模型在候选区域之间比较、选择和指代。





VLM为什么看不准?

让 VLM 描述一张图,和让它稳定定位图里的目标,是两类任务。


精确定位要求模型同时判断:这是什么、在哪里、边界到哪里、有几个实例,以及哪一个目标符合用户描述。这类任务依赖局部细节、空间结构和实例区分能力。


传统 VLM 常见的定位方式,是让语言模型直接生成坐标,例如 [x1, y1, x2, y2]


这个形式看起来简单,实际很脆弱。坐标不是自然语言,LLM 更擅长生成词语、短语和句子,并不擅长稳定地产生精确数值。


一个框需要四个坐标,多个框会变成更长的数字序列。坐标顺序、归一化范围、标点格式、目标数量,只要任何一处出错,结果就可能无法解析,或者框的位置明显偏离目标。


多目标检测会进一步放大这个问题。一个目标需要生成四个坐标,十个目标就是几十个坐标 token。目标越多,输出越长,模型越容易漏检,格式也越容易出错。


更麻烦的是,长坐标序列会直接拖慢解码过程:每多生成一个 token,模型都要多走一步自回归推理。


放在云端离线分析里,这可能只是多等一会儿。但在机器人、无人机、摄像头和边缘终端等具身端侧场景中,定位结果往往要实时交给导航、抓取、避障或交互模块,推理效率本身就是核心指标。


坐标生成式 VLM 在多目标场景下,会把大量输出预算花在数值坐标上,而不是更快地完成目标选择和空间决策。


负样本同样绕不开。比如用户问“画面里穿蓝色制服的工作人员在哪里”,但画面中其实没有这个目标时,模型应该回答“没有”,而不是硬生成一个框。


坐标生成式 VLM 在这种情况下容易出现幻觉式检测,把不存在的目标定位到某个相似区域。


说到底,精确定位这种任务形式,和语言模型的生成方式并不天然匹配。


VLX-Seek 的切入点,是避开直接生成坐标这条脆弱路径。



把目标变成 Token

VLX-Seek 换了一种目标级感知方式:先把候选区域交给模型,再让模型根据语言描述完成检索和引用。


除全图视觉 token 和文本 token 之外,模型还会接收一组可寻址的区域 token。每个区域 token 都对应图像中的一个候选区域,并带有明确的区域编号。


 VLX-Seek 整体架构



当用户问“穿红衣服的人在哪里”时,模型判断哪个区域 token 最符合描述,并输出对应的区域索引。定位任务由此变成了在候选视觉区域中做语言条件检索。


这把定位问题放回了语言模型更擅长的比较、选择和指代。候选区域提前变成 token 后,模型面对的是一组可比较的视觉候选,而不是一串待续写的数值。


实际推理时,OPN 先召回可能包含前景目标的候选区域。


这一步不判断类别,只提供视觉候选;OPN 与 VLM 主体解耦,候选区域既可以来自 OPN 或其他检测器,也可以来自用户框选区域、人工指定的感兴趣区域,或者 visual prompt。


拿到候选区域后,VLX-Seek 使用 HFRE 从候选框中提取区域级视觉特征,并将这些特征投影到 LLM 的嵌入空间。


候选框原本只是几何范围,能标出“这里有一个区域”,却无法说明区域里是什么、和其他区域有什么区别、是否符合用户描述。经过这一步,区域有了可供模型比较和判断的视觉表示。


到了语言模型侧,用户的自然语言描述会和这些区域表示一起参与推理,模型通过区域索引完成定位和回答。后续的目标定位和区域推理,也都围绕这套表示展开。



区域如何进入模型?

候选框只给出了几何范围。要让区域真正进入语言模型,还需要同时补上语义和细节。HFRE 负责的就是这一步。


HFRE 是 VLX-Seek 的混合细粒度区域编码器。单一视觉编码器很难同时满足语义对齐和细粒度空间感知。


通用 VLM 原始视觉编码器通常已经和语言模型完成对齐,擅长提供全局语义信息,能支持高层理解。


但这类编码器往往不是为精细检测训练的,对小目标、边界、局部纹理和多尺度区域表达并不充分。


检测类、高分辨率视觉编码器更擅长局部细节:它们对边缘、纹理和空间结构更敏感,但未必天然处在 LLM 可以直接理解的语义空间中。


VLX-Seek 用双视觉路径把两种能力接起来。主视觉编码器保留原始 VLM 的语义对齐能力,让模型知道一个区域像什么、可能是什么。


辅助视觉编码器提供更高分辨率的局部细节,让模型看到边界、纹理、小目标和区域差异。


随后,SimpleFP 模块为 ViT 类视觉特征补足多尺度表达。


真实图像里的目标大小差异很大,同一张图中可能既有占据大面积的人,也有很小的手机、杯子或标识牌。多尺度结构可以让模型更好地适应不同大小的候选区域。


接着,VLX-Seek 根据候选框从视觉特征图中抽取区域特征,相当于把整张图的视觉信息切分成一个个候选目标的视觉信息。


最后,区域-语言连接器把区域特征投影到 LLM 的嵌入空间,让候选框真正变成可参与语言推理的区域表示。


这套结构让区域 token 同时携带两类信息:高层语义和细粒度空间细节


对于普通 VQA 来说,模型知道“这是一辆车”可能够用;但对于开放词汇检测和具身任务来说,模型还必须知道是哪一辆车、车在画面哪里、它和旁边目标的边界如何区分。


区域有了表示,还要能被模型稳定引用。

在输入侧,每个区域都有一个显式编号。例如,第 0 个候选区域 第 1 个候选区域对应第 2 个候选区域对应

这些区域编号会和对应区域 token 一起进入语言模型,使 LLM 能把区域特征和区域编号绑定起来。

在输出侧,模型可以通过特殊 token 表达视觉定位关系。一个简化示例是:

people

这个结构表示,文本中的 people 对应图像中的。模型最终输出的是区域引用,解析起来比长坐标序列更稳定。


区域引用的效率优势主要体现在多目标场景。目标越多,坐标生成需要输出的 token 越长;VLX-Seek 只输出区域索引,解码开销更低。


检测、指代表达理解、区域描述、区域问答和计数,也就可以落到同一套区域 token 框架下。


普通检测增强 VLM 往往把检测结果作为外部信息接入,VLX-Seek 则让区域直接进入模型内部,参与后续推理。



训练与结果

VLX-Seek 的训练分成两阶段:先让区域 token 对齐语言模型,再用感知指令强化区域级能力,并保留原有 VLM 能力。


第一阶段是区域-语言对齐,重点是让新增区域 token 先进入 LLM 的特征空间,为后续检测和感知任务打基础。训练时会冻结主干 VLM 的主要参数,把学习压力集中在 HFRE、区域-语言连接器和新增特殊 token 上。


模型先学会“一个区域 token 对应一个视觉区域”,再处理更复杂的感知指令。


第二阶段是感知指令微调。这一阶段会引入检测、指代表达理解、区域描述、区域推理、计数和 OCR 等任务,让模型在真实指令中学习如何使用区域 token。


训练时还要避免两种偏差。模型不能因为强化检测能力而损伤原有 VLM 能力,所以需要混入常规 VLM 指令数据,保留图像问答、描述和常识推理能力。


同时,它也要学会拒识,在目标不存在时回答“没有”,而不是强行指向某个区域。


VLX-Seek 不仅学习如何找到目标,也学习什么时候不该找。


MSCOCO val2017 先给出一个直观参照。VLX-Seek-3B 在该基准中达到 45.3 mAP,超过 Gemini 3.1 Pro 的 41.4,也明显高于 Qwen2.5-VL-7B 的 17.7



 MSCOCO val2017 通用目标检测对比结果



换到开放词汇检测,难点变成开放类别、复杂语言标签和难负样本。


VLX-Seek-3B 在 OVDEval 上达到 43.7;在 ODinW13 中,VLX-Seek 拿到 48.4,超过 Qwen3.5-397B-A17B 的 47.0 和 Gemini 3 Pro 的 46.3



 ODinW13 开放词汇检测横向对比结果



RefCOCO 系列进一步考验自然语言指代,例如“左边第二个穿黑色衣服的人”“靠近桌子的杯子”“被另一个物体遮住一部分的目标”。


VLX-Seek-3B 在 RefCOCO/+/g Average 中达到 88.7,略高于 Qwen3-VL-8B 和 InternVL3-9B 的 88.2,也领先 Gemini 3 Pro 的 84.1



 RefCOCO 系列指代表达理解平均结果



PixMo Count 则把问题推到实例级计数。VLX-Seek-3B 在该任务上达到 85.0,领先 Gemini 2.5 Pro 的 73.8,也明显高于 Qwen3-VL-8B 的 65.0


计数任务看似简单,但 VLM 如果只依赖全局语义,很容易估多或估少。VLX-Seek 可以先检测并引用目标实例,再做聚合计数,比直接凭画面印象估数量更可靠。



 PixMo Count 目标计数任务对比结果



在检测、开放词汇定位、复杂指代表达和计数等任务上,VLX-Seek-3B 已经展现出小参数模型的竞争力。区域 token 与区域引用机制,是这组结果背后的关键设计。




从精准定位到行动决策


VLX-Seek 的价值,是让小参数 VLM 具备更稳定的区域级感知能力,并进一步面向端侧具身视觉部署。


普通 VLM 可以回答“画面里有几个人”,但在复杂定位、目标计数和开放词汇检测中容易不稳定;专用检测器在封闭类别上稳定,却不擅长处理自然语言描述、开放类别、复杂关系和多轮指代。


VLX-Seek 做的,是把候选区域建模和 VLM 的语言理解接到一起,让检测不再停留在固定类别框上。


面对坐标生成式 VLM,VLX-Seek 减少了多目标场景下的长序列输出压力;面对外接检测头方案,它让区域进入模型内部,参与后续推理。


对端侧设备来说,3B 规模和更低的解码开销,意味着更低的部署门槛,也减少了对高规格 GPU 和云端推理的依赖。


具身系统要行动,必须先有稳定空间锚点。目标在哪里、是哪一个、是否还在,都会影响后续跟随、避障、抓取和导航。


在 Om AI 的 VLX 体系里,VLX-Seek 提供的区域级感知会继续服务实时追踪和行动决策,补上从画面理解到目标锁定的这一步。





相关链接

👇

体验平台:

https://platform.om-agent.cn/subapp-index/#/front

GitHub 地址

https://github.com/om-ai-lab/VLX-Seek

HuggingFace 地址

https://huggingface.co/blog/omlab/vlx-seek

Om AI X 主页

https://x.com/OmAI_lab


🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询