0

0

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

WBOY

WBOY

发布时间:2024-08-23 17:25:12

|

1454人浏览过

|

来源于机器之心

转载

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


该论文作者来自于鹏城实验室多智能体与具身智能研究所及南方科技大学、中山大学的师生团队,包括林倞教授(研究所所长,国家杰青,IEEE Fellow),郑锋教授,梁小丹教授,王志强(南科大),郑浩(南科大),聂云双(中大),徐文君(鹏城),叶华(鹏城)等。鹏城实验室林倞教授团队致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。

今年以来,具身智能正在成为学术界和产业界的热门领域,相关的产品和成果层出不穷。今天,鹏城实验室多智能体与具身智能研究所(以下简称鹏城具身所)联合南方科技大学、中山大学正式发布并开源其最新的具身智能领域学术成果 ——ARIO(All Robots In One)具身大规模数据集,旨在解决当前具身智能领域所面临的数据获取难题。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

  • 论文题目:All Robots in One: A New Standard and Unified Dataset for Versatile.General-Purpose Embodied Agents

  • 论文链接:http://arxiv.org/abs/2408.10899

  • 项目主页:https://imaei.github.io/project_pages/ario/

  • 鹏城实验室具身所网站链接:https://imaei.github.io/

作为具身机器人的大脑,想要让具身大模型的性能更优,关键在于能否获得高质量的具身大数据。不同于大语言模型或视觉大模型用到的文本或图像数据,具身数据无法从互联网海量内容中直接获取,而需通过真实的机器人操作来采集或高级仿真平台生成,因此具身数据的采集需要较高的时间和成本,很难达到较大的规模。

同时,当前开源的数据集也存在多项不足,如上表所示,JD ManiData、ManiWAV 和 RH20T 本身数据量不大,DROID 数据用到的机器人硬件平台比较单一,Open-X Embodiment 虽然达到了较大规模的数据量,但其感知数据模态不够丰富,而且子数据集之间的数据格式不统一,质量也参差不齐,使用数据之前需要花大量时间进行筛选和处理,难以满足复杂场景下具身智能模型的高效率和针对性的训练需求。

相比而言,此次发布的 ARIO 数据集,包含了 2D、3D、文本、触觉、声音 5 种模态的感知数据,涵盖操作导航两大类任务,既有仿真数据,也有真实场景数据,并且包含多种机器人硬件,有很高的丰富度。在数据规模达到三百万的同时,还保证了数据的统一格式,是目前具身智能领域同时达到高质量、多样化和大规模的开源数据集。

对于具身智能的数据集而言,由于机器人有多种形态,如单臂、双臂、人形、四足等,并且感知和控制方式也各不相同,有些通过关节角度控制,有些则是通过本体或末端位姿坐标来驱动,所以具身数据本身比单纯的图像和文本数据要复杂很多,需要记录很多控制参数。而如果没有一个统一的格式,当多种类型的机器人数据聚合到一起,需要花费大量的精力去做额外的预处理。

因此鹏城实验室具身所首先设计了一套针对具身大数据的格式标准,该标准能记录多种形态的机器人控制参数,并且有结构清晰的数据组织形式,还能兼容不同帧率的传感器并记录对应的时间戳,以满足具身智能大模型对感知和控制时序的精确要求。下图展示了 ARIO 数据集的总体设计。

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

ImgGood
ImgGood

免费在线AI照片编辑器

下载
                             图 1. ARIO 数据集总体设计

ARIO 数据集,共有 258 个场景序列,321064 个任务,303 万个样例。ARIO 的数据有 3 大来源,一是通过布置真实环境下的场景和任务进行真人采集;二是基于 MuJoCo、Habitat 等仿真引擎,设计虚拟场景和物体模型,通过仿真引擎驱动机器人模型的方式生成;三是将当前已开源的具身数据集,逐个分析和处理,转换为符合 ARIO 格式标准的数据。下面展示了 ARIO 数据集的具体构成,以及 3 个来源的流程和示例。

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

                                图 2. ARIO 数据 3 个来源

真实场景的高质量的机器人数据不易获取,但意义重大。鹏城实验室基于 Cobot Magic 主从双臂机器人,设计了 30 多种任务,包括简单 —— 中等 —— 困难 3 个操作难易等级,并通过增加干扰物体、随机改变物体和机器人位置、改变布置环境等方式增加样例的多样性,最终得到 3000 多条包含 3 个 rgbd 相机的轨迹数据。下面展示了不同任务的采集示例以及采集视频。

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

                              图 3. ARIO 真实机器人数据采集示例总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集                           Cobot Magic 机械臂采集数据示例视频 总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集                                基于 MuJoCo 的仿真数据采集示例视频 总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集                               基于 Dataa SeaWave 平台的仿真数据生成示例视频 总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集                              基于 Habitat 平台的仿真数据生成示例视频 总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集
                            从 RH20T 转换的数据示例视频

得益于 ARIO 数据的统一格式设计,能够很方便地对它的数据组成进行统计分析。下图展示了从 series、task、episode 三个层面对 ARIO 的场景(图 a)和技能(图 b)的分布进行统计。从中可见,目前大部分的具身数据都集中在室内生活家居环境中的场景和技能。

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

除了场景和技能,在 ARIO 数据中,还能从机器人本身的角度进行统计分析,并从中了解当前机器人行业的一些发展态势。 ARIO 数据集提供了机器人形态、运动对象、物理控制变量、传感器种类和安装位置、视觉传感器的数量、控制方式比例、数据采集方式比例、机械臂自由度数量比例的统计数据,对应下图 a-i。

以下图 a 为例,从中可以发现,当前大部分的数据来源于单臂机器人,人形机器人的开源数据很少,且主要来源于鹏城实验室的真实采集和仿真生成。

总说具身智能的数据太贵,鹏城实验室开源百万规模标准化数据集

                                        图 5.ARIO 数据集分类统计

更多关于 ARIO 数据集的详细信息与下载链接,请参考论文原文与项目主页。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4373

2026.01.21

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

498

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

453

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3634

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2927

2024.08.16

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2927

2024.08.16

传感器故障解决方法
传感器故障解决方法

传感器故障排除指南:识别故障症状(如误读或错误代码)。检查电源和连接(确保连接牢固,无损坏)。校准传感器(遵循制造商说明)。诊断内部故障(目视检查、信号测试、环境影响评估)。更换传感器(选择相同规格,遵循安装说明)。验证修复(检查信号准确性,监测异常行为)。

499

2024.06.04

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

48

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

88

2026.03.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.2万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.6万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 94人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号