0

0

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

PHPz

PHPz

发布时间:2023-08-24 18:17:12

|

1099人浏览过

|

来源于51CTO.COM

转载

仅仅通过使用7500条轨迹数据进行训练,这个机器人可以展示出12种不同的操作技能,在38个任务中,不仅仅限于拾取和推动,还包括关节对象操纵和物体重新定位。而且,这些技能还可以应用于数百个不同的未知情境,包括未知物体、未知任务,甚至完全未知的厨房环境。这样的机器人真的很酷吧!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

数十年来,创造一个能够在不同环境中操纵任意物体的机器人一直是一个遥不可及的目标。其中一个原因是缺乏多样化的机器人数据集,无法训练这样的智能体,同时也缺乏能够生成此类数据集的通用智能体

为了克服这个难题,来自卡内基梅隆大学和Meta AI的作者花费了两年时间开发了一个通用的RoboAgent。他们的主要目标是开发一种高效的范例,可以在数据有限的情况下训练一个能够具备多种技能的通用智能体,并将这些技能推广应用于各种未知情境

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 由以下模块化构成 :

  • RoboPen - 一个采用通用硬件构建的分布式机器人基础设施,能够长期不间断运行;
  • RoboHive - 一个统一的框架,用于在模拟和真实世界操作中进行机器人学习;
  • RoboSet - 一个高质量的数据集,代表了各种场景中使用日常物品的多种技能;
  • MT-ACT - 一种高效的语言条件多任务离线模仿学习框架,通过在现有机器人经验的基础上创建多样的语义增强集合,从而扩大了离线数据集,并采用了一种新颖的策略架构和高效的动作表示方法,在有限的数据预算下恢复出性能良好的策略。

RoboSet:多技能、多任务、多模态数据集

构建一个能够在许多不同情境下推广的机器人智能体,首先需要一个具有广泛覆盖范围的数据集。鉴于扩大规模的努力通常会有所帮助(例如,RT-1 展示了约 130,000 条机器人轨迹的结果),因此需要在数据集有限的情况下理解学习系统的效率和泛化原则,低数据情境往往会导致过拟合。因此,作者的主要目标是开发一种强大的范例,可以在低数据情境下学习可推广的通用策略,同时避免过拟合问题。

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

机器人学习中的技能与数据全景是一个重要的领域。在机器人学习中,技能是指机器人通过学习和训练获得的能力,可以用于执行特定的任务。这些技能的发展离不开大量的数据支持。数据是机器人学习的基础,通过分析和处理数据,机器人可以从中学习并改进自己的技能。因此,技能和数据是机器人学习中不可或缺的两个方面。只有通过不断学习和获取新的数据,机器人才能不断提升自己的技能水平,并在各种任务中展现出更高的智能和效率

用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能。 重写后的内容: 用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

MT-ACT:多任务动作分块 Transformer

RoboAgent基于两个关键洞察在低数据情境下学习通用策略。它利用基础模型的世界先验知识以避免模式崩溃,并采用了一种新颖的高效策略表示,能够摄取高度多模态的数据

需要进行改写的内容是:1、语义增强:RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。由此产生的数据集将机器人的经验与世界先验知识相结合,而无需额外的人力/机器人成本。使用SAM对目标物体进行分割,并在形状、颜色、纹理变化方面对其进行语义增强。 改写后的内容:1、语义增强:RoboAgent通过对RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。这样,机器人的经验和世界先验知识就能结合起来,而不需要额外的人力/机器人成本。使用SAM对目标物体进行分割,并在形状、颜色、纹理变化方面进行语义增强

2、高效策略表示:由此产生的数据集是严重多模态的,包含丰富多样的技能、任务和情景。我们将动作分块方法应用于多任务设置,开发了一种新颖的高效策略表示——MT-ACT,能够在数据量较少的情况下获取高度多模态的数据集,同时避免过拟合问题

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

实验结果

RoboAgent的样本效率比现有方法更高

下图比较了作者提出的MT-ACT策略表示与几种模仿学习架构。作者仅使用了包括物体姿态变化和部分光照变化的环境变化。与之前的研究相似,作者将此归于L1泛化。从RoboAgent的结果可以清楚地看到,使用动作分块来建模子轨迹明显优于所有基准方法,从而更证明了作者提出的策略表示在样本效率学习方面的有效性

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 在多个抽象层面上表现出色

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

在下图中展示了作者对不同泛化层次上测试方法的结果。同时,还通过可视化展示了泛化级别,其中L1代表物体姿态变化,L2代表多样的桌面背景和干扰因素,L3代表新颖的技能-物体组合。接下来,作者展示了每种方法在这些泛化层次上的表现。在严格的评估研究中,MT-ACT在比其他方法中表现显著优异,特别是在更困难的泛化层次(L3)上

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 具有高度的可扩展性

作者对RoboAgent在不断增加的语义增强级别下的表现进行了评估,并在一个包含5个技能的活动中进行了评估。从下图可以看出,随着数据的增加(即每帧增强的数量增加),在所有泛化级别上的性能都有显著提升。尤其值得注意的是,在更难的任务(L3泛化)中,性能提升更为明显

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

RoboAgent 能够展示其技能在各种不同的活动中

用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平


用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平


用7500条轨迹数据训练,CMU、Meta让机器人达到全能的厅堂与厨房水平

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

326

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

233

2023.10.07

windows激活码分享 windows一键激活教程指南
windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell(管理员),运行 irm https://get.activated.win | iex 脚本,按提示选择数字激活(选项1)。其他方法包括使用HEU KMS Activator工具进行智能激活。

0

2026.01.21

excel表格操作技巧大全 表格制作excel教程
excel表格操作技巧大全 表格制作excel教程

Excel表格操作的核心技巧在于 熟练使用快捷键、数据处理函数及视图工具,如Ctrl+C/V(复制粘贴)、Alt+=(自动求和)、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率,实现快速录入、查找、筛选和汇总。

0

2026.01.21

毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm
毒蘑菇显卡测试网站入口 毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/,该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力,用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能;测试兼容多种设备,但中低端手机易卡顿或崩溃,高端机型可能因发热降频影响表现,桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

2

2026.01.21

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

2

2026.01.21

windows安全中心怎么关闭打开_windows安全中心操作指南
windows安全中心怎么关闭打开_windows安全中心操作指南

Windows安全中心可以通过系统设置轻松开关。 暂时关闭:打开“设置” -> “隐私和安全性” -> “Windows安全中心” -> “病毒和威胁防护” -> “管理设置”,将“实时保护”关闭。打开:同样路径将开关开启即可。如需彻底关闭,需在组策略(gpedit.msc)或注册表中禁用Windows Defender。

1

2026.01.21

C++游戏开发Unreal Engine_C++怎么用Unreal Engine开发游戏
C++游戏开发Unreal Engine_C++怎么用Unreal Engine开发游戏

虚幻引擎(Unreal Engine, 简称UE)是由Epic Games开发的一款功能强大的工业级3D游戏引擎,以高品质实时渲染(如Nanite和Lumen)闻名 。它基于C++语言,为开发者提供高效率的框架、强大的可视化脚本系统(蓝图)、以及针对PC、主机和移动端的完整开发工具,广泛用于游戏、电影制片等领域。

0

2026.01.21

Python GraphQL API 开发实战
Python GraphQL API 开发实战

本专题系统讲解 Python 在 GraphQL API 开发中的实际应用,涵盖 GraphQL 基础概念、Schema 设计、Query 与 Mutation 实现、权限控制、分页与性能优化,以及与现有 REST 服务和数据库的整合方式。通过完整示例,帮助学习者掌握 使用 Python 构建高扩展性、前后端协作友好的 GraphQL 接口服务,适用于中大型应用与复杂数据查询场景。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号