微信扫码
添加专属顾问
我要投稿
LingBot-Depth开源:让机器人真正"看清"透明与反光物体的黑科技!核心内容: 1. 突破性技术:掩码深度建模(MDM)解决透明/反光物体识别难题 2. 性能优势:在NYUv2等基准测试中超越工业级深度相机 3. 应用场景:为机器人、自动驾驶提供更精准的三维视觉能力
今天,我们正式开源了 LingBot-Depth 空间感知模型。
不同于数字世界,具身智能的落地高度依赖物理空间信息,空间智能是其在现实场景落地应用的核心关键,而视觉维度下支撑空间智能的重要桥梁正是距离与尺度(Metric Depth)。基于这一核心需求,空间感知模型 LingBot-Depth 应运而生。
LingBot-Depth 是一种面向真实场景的深度补全模型,依托奥比中光 Gemini 330 系列双目 3D 相机进行 RGB-Depth 数据采集与效果验证,并基于深度引擎芯片直出的深度数据进行训练与优化,旨在将不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果,提升环境深度感知与三维空间理解能力,为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉。
实验结果表明,本模型在深度精度与像素覆盖率两项核心指标上均超越业界顶级工业级深度相机。在 NYUv2、ETH3D 等多个基准测试中,LingBot-Depth 在深度补全、单目深度估计及双目匹配任务上均达到当前最优水平,并在无需显式时序建模的情况下保持视频级时间一致性。LingBot-Depth 模型也已通过奥比中光深度视觉实验室的专业认证,在精度、稳定性及复杂场景适应性方面均达到行业领先水平。
注解:在最具挑战的稀疏深度补全任务中,LingBot-Depth 性能整体优于现有多种主流模型。(图中数值越低代表性能越好。)
下游任务验证进一步表明,模型能够在 RGB 与深度两种模态之间学习到对齐的潜在空间表征,从而实现对透明及反光物体的稳定机器人抓取。
01
技术架构:
创新的掩码深度建模范式
在家庭和工业环境中,玻璃器皿、镜面、不锈钢设备等透明和反光物体物体十分常见,但却是机器空间感知的难点。传统深度相机受制于光学物理特性,在面对透明或高反光材质时,往往无法接收有效回波。针对这一行业共性难题,我们研发了“掩码深度建模”(Masked Depth Modeling,MDM)技术。训练过程中,我们使用海量 RGB–深度图像对,但刻意遮挡其中一部分深度区域,让模型仅根据 RGB 图像去预测缺失的深度值。随着训练进行,模型逐渐学会建立“外观—几何”之间的对应关系,也就是从“物体看起来像什么”推断“它大概有多远”。
在涵盖家庭、办公环境、健身房及户外场景的上千万张图像数据上完成训练后,当深度相机传回的数据出现缺失或异常时,LingBot-Depth 模型已能够融合彩色图像(RGB)中的纹理、轮廓及环境上下文信息,对缺失区域进行推断与补全,输出更完整、致密、边缘更清晰的三维深度图。
02
核心亮点
精准且稳定的相机深度感知
LingBot-Depth 在传统深度传感器易失效的复杂场景中,仍可输出具备真实尺度的高精度深度结果,包括透明物体、玻璃表面以及高反光材质等极具挑战性的环境。不同于依赖硬件改进的方案,本模型从视觉理解层面弥补传感器缺陷,实现对真实三维结构的可靠恢复。
除单帧精度优势外,LingBot-Depth 还表现出优异的时间一致性。在无需显式时序建模的情况下,模型即可为视频输入生成稳定、连贯的深度序列,有效避免闪烁与结构跳变问题,为机器人操作、AR/VR 以及动态场景感知等应用提供可靠的连续空间理解能力。
卓越的 3D 和 4D 环境感知能力
LingBot-Depth 为下游空间感知任务提供了坚实而通用的基础能力。通过将含噪且不完整的传感器深度优化为干净、稠密且具备真实尺度的三维测量结果,模型显著提升了多种高层视觉任务的稳定性与精度。具体而言,LingBot-Depth 支持:
更加准确的结构化室内场景建图,并有效提升相机位姿与运动轨迹估计的精度;
面向机器人学习的可靠 4D 点跟踪能力,在统一的真实尺度空间中同时刻画静态场景几何结构与动态物体运动。这使得系统能够在复杂真实环境中建立一致、连续且可用于决策与交互的空间理解表征。
灵巧抓取操作适用于透明与反光物体
通过在统一潜在空间中联合对齐 RGB 外观信息与深度几何结构,LingBot-Depth 使机器人在以往难以处理的复杂场景中实现稳定可靠的操作能力。基于模型优化后的高质量深度结果及跨模态对齐特征,我们进一步训练了一种基于扩散模型的抓取位姿生成策略,在透明杯、反光金属容器等具有挑战性的物体上取得了较高的抓取成功率。在真实机器人测试中,在透明储物盒等传统传感器难以处理的场景中,LingBot-Depth 通过生成合理的深度估计,成功实现了 50% 的抓握率,突破了技术瓶颈。
03
从实验室到落地应用:
显著提升消费级深度相机对高难物体的处理效果
LingBot-Depth 展现出与现有硬件设备的良好适配性。在不更换更高成本传感器的情况下,模型可提升可靠性并降低系统部署门槛。LingBot-Depth 模型依托奥比中光 Gemini330 系列双目 3D 相机进行效果测试,结果显示:面对透明玻璃、高反射镜面、强逆光以及复杂曲面等极具挑战性的光学场景,搭载 LingBot-Depth 后输出的深度图变得平滑、完整,且物体的轮廓边缘非常锐利,效果优于业内领先 3D 视觉公司 Stereolabs 推出的 ZED Stereo Depth 深度相机。
注解:搭载 LingBot-Depth 后,奥比中光 Gemini 330 系列在透明及反光场景下深度图的完整性和边缘清晰度明显提升
注解:奥比中光 Gemini 330 系列相机搭载 LingBot-Depth 后输出的深度图效果优于业界领先的 ZED 深度相机
这意味着在不更换传感器硬件的前提下,LingBot-Depth 可显著提升消费级深度相机对高难物体的处理效果,降低机器人因深度缺失与噪声引发的抓取失败与碰撞风险。在具身智能、自动驾驶等领域都有一定应用价值,能够极大程度提升具身操作的精准度。
目前,我们已与奥比中光达成战略合作伙伴关系,将基于 LingBot-Depth 模型推出新一代深度相机,依托 Gemini 330 系列相机提供的芯片级 3D 数据,进一步通过技术协同、生态共建,为机器人处理各行各业极端场景、走向真正落地提供强大的技术支撑。
LingBot-Depth 已成功实现模型轻量化与端侧部署,具备在边缘计算设备上高效运行的能力。未来,我们期待通过开源开放与生态合作,和广大合作伙伴一起加速具身智能在家庭、工业、物流等复杂场景的大规模应用落地。
目前我们的模型、代码、技术报告已全部开源,欢迎大家访问我们的开源仓库。
Website:
https://technology.robbyant.com/lingbot-depth
Model:
https://huggingface.co/robbyant/lingbot-depth
Code:
https://github.com/Robbyant/lingbot-depth
Tech Report:
https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf
后续我们还将开源 300 万对精心标注的 RGB-深度数据,包括 200 万对实拍 RGB-D 样本,和 100 万对渲染样本,推动空间感知技术的开源生态建设和技术创新。
LingBot-Depth 的开源标志着我们在空间智能领域迈出的第一步。本周,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果,我们期待与全球开发者、研究者、产业伙伴一起,共同探索具身智能的上限。
点击「阅读原文」,了解更多
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-28
一文带你读懂DeepSeek-OCR 2的细节!附实测!
2026-01-27
DeepSeek出品,必是精品!DeepSeek-OCR 2发布:让LLM像人一样读懂复杂文档,效果超Gemini 3 Pro
2026-01-27
DeepSeek-OCR 2 来了,让 AI 也能像人一样,带着逻辑去看图
2026-01-27
刚刚,DeepSeek又探索新架构了,开源OCR 2
2026-01-22
文心大模型5.0正式版,上线!
2026-01-21
构建物理 AI 的引擎:NVIDIA Cosmos
2026-01-20
多模态RAG不止知识问答:文搜图与图搜图的四种实现方案
2026-01-16
KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”
2025-11-10
2025-12-15
2025-12-06
2025-12-07
2025-10-31
2025-11-19
2025-12-11
2025-12-17
2026-01-10
2026-01-05
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26