0

0

机器人感知大升级!轻量化注入几何先验,成功率提升 31%

花韻仙語

花韻仙語

发布时间:2025-10-01 11:14:13

|

601人浏览过

|

来源于php中文网

原创

在机器人学习领域,让 ai 真正“看懂”三维世界始终是一个核心挑战。

现有的视觉语言动作(VLA)模型大多基于预训练的视觉语言模型(VLM),仅利用 2D 图像-文本对进行训练,缺乏对真实操作至关重要的 3D 空间感知能力。

虽然当前一些方法通过引入显式深度信息来增强模型,但这类方案通常依赖额外的深度传感器或复杂的深度估计网络,带来了部署复杂、成本高以及噪声干扰等实际问题。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

为解决这一难题,上海交通大学与剑桥大学联合提出了一种轻量化的 VLA 增强框架——Evo-0。该方法无需任何显式深度输入或外部硬件,而是通过隐式注入 3D 几何先验知识,显著提升模型的空间理解能力。

Evo-0 利用视觉几何基础模型 VGGT,从多视角 RGB 图像中提取深层的 3D 结构信息,并将其融合进原有的视觉语言模型中,从而实现对物体空间布局和几何关系的精准建模。

在 RLBench 仿真实验中,Evo-0 在五个需要精细空间操作的任务上表现优异,平均成功率比基线模型 π0 提升 15%,相比 openvla-oft 更高出 31%。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

其核心技术在于将 VGGT 作为空间编码器,提取其在训练过程中生成的 t3^D token,这些 token 蕴含了丰富的深度上下文和跨视角的空间对应信息。

通过设计一个 cross-attention 融合模块,以 ViT 提取的 2D 视觉 token 作为 query,VGGT 输出的 3D token 作为 key 和 value,实现 2D 与 3D 表征的有效融合,增强模型对复杂空间结构的理解。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

融合后的特征与语言指令一同输入冻结主干的 VLM 模型,动作则由 flow-matching 策略生成。训练过程中仅微调融合模块、LoRA 适配层及动作专家部分,大幅降低了计算开销。

研究团队在 5 个 RLBench 模拟任务和 5 个真实机器人操作任务上进行了全面验证,并在 5 种不同干扰条件下评估鲁棒性。实验结果表明,Evo-0 在各类设置下均展现出更强的空间感知能力,性能全面超越现有先进 VLA 模型。

此外,在超参数分析实验中,团队重点考察了训练步数与执行步数对任务成功率的影响。结果显示,仅用 15k 步训练的 Evo-0 就已超过训练 20k 步的 π0 模型,证明其具备更高的学习效率。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

在真实机器人实验中,设置了五项对空间精度要求极高的任务:目标居中放置、插孔、密集抓取、置物架放置和透明物体操作。

零一万物开放平台
零一万物开放平台

零一万物大模型开放平台

下载

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

Evo-0 在所有任务中均优于基线 π0,平均成功率提升达 28.88%。尤其在插孔和透明物体抓取任务中,展现了对复杂空间关系的深刻理解与高精度操控能力。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

鲁棒性测试涵盖五类干扰:(1)新增未见干扰物,(2)背景颜色变化,(3)目标位置偏移,(4)目标高度变动,(5)相机视角改变。Evo-0 在各项干扰下均保持稳定表现,且显著优于 π0。

 机器人感知大升级!轻量化注入几何先验,成功率提升 31%

综上所述,Evo-0 的核心创新在于借助 VGGT 提取丰富的空间语义信息,规避了深度估计误差与专用传感器依赖,以即插即用的方式增强 VLA 模型的空间建模能力。该方法训练高效、部署灵活,为通用机器人智能策略的发展提供了新的可行路径。

论文链接:https://www.php.cn/link/5fa5ca950fb704c977027ddfc2ee7e3f

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

— 完 —

量子位智库 AI100 季度榜单征集中!征集截至 10 月 10 日。欢迎提名 2025 年 Q3「AI 100」双榜单产品~

一键关注 点亮星标

科技前沿进展每日见

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6110

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

815

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1064

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1289

2024.03.01

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2034

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

470

2024.06.04

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

9

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

25

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

18

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
XML教程
XML教程

共142课时 | 5.8万人学习

【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

ECMAScript6 / ES6---十天技能课堂
ECMAScript6 / ES6---十天技能课堂

共25课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号