蚂蚁集团旗下具身智能企业灵波科技正式对外开源其高精度空间感知模型 lingbot-depth。
据悉,LingBot-Depth 是一款专为真实应用场景设计的深度补全模型,依托奥比中光 Gemini 330 系列双目 3D 相机完成 RGB-Depth 数据采集与效果验证,并基于深度引擎芯片直接输出的原始深度数据开展训练与调优,目标是将存在缺失、噪声干扰的原始深度传感器信号,重建为高保真、具备真实物理尺度的三维测量结果,从而显著增强智能体对环境的深度理解与三维空间建模能力,为服务机器人、自动驾驶车辆等终端设备提供更鲁棒、更精确的三维视觉支撑。
LingBot-Depth 核心优势
- 高精度与高鲁棒性的相机深度感知能力
- 优异的 3D 静态感知与 4D 动态场景理解性能
- 支持对透明、反光等难抓取物体的灵巧操作
实验数据显示,该模型在深度预测精度与有效像素覆盖率两大关键指标上,全面超越当前主流工业级深度相机。在 NYUv2、ETH3D 等多个权威基准测试中,LingBot-Depth 在深度补全、单目深度估计以及双目立体匹配任务中均达到 SOTA(State-of-the-Art)水平;尤为值得注意的是,其在未引入显式时序建模机制的前提下,仍能保持视频序列级的时间一致性表现。
该模型已通过奥比中光深度视觉实验室的专项评测认证,在测量精度、运行稳定性及复杂光照/纹理场景下的泛化适应性等方面,均达到行业领先水准。

在最具难度的稀疏深度补全任务中,LingBot-Depth 的综合性能优于当前多种主流方法。(图中数值越小,表示误差越低、性能越优。)下游任务实测进一步证实:模型可在 RGB 与深度两种模态间学习到高度对齐的隐空间表征,从而实现对透明与镜面反射类物体的可靠识别与稳定抓取。
据 LingBot-Depth 研发团队介绍,其核心技术之一为“掩码深度建模”(Masked Depth Modeling,MDM)。尽管训练数据为大规模 RGB–深度图像对,但在训练过程中主动对部分深度区域进行随机遮蔽,迫使模型仅依据 RGB 图像内容来推理并重建被遮挡的深度信息。随着训练推进,模型逐步建立起“外观—几何结构”的强关联映射,即实现从“物体视觉表观特征”出发,准确推断其空间位置与距离关系。

LingBot-Depth 模型权重、完整训练/推理代码、技术白皮书均已面向全球开发者开源:
Website:https://www.php.cn/link/f166716e341817dbe3105dab5915c894
Model:https://www.php.cn/link/ff25757778a6765222ae5f1b9bdd89ed
Code:https://www.php.cn/link/655acbb5e441e03f9662509d41e4c74e
Report:https://www.php.cn/link/0be6d77a4368b110b77c1437d13198bd










