0

0

谷歌RT-1模型让一个机器人干几份活,700条指令成功率达97%

WBOY

WBOY

发布时间:2023-04-11 11:34:03

|

1460人浏览过

|

来源于51CTO.COM

转载

机器学习 (ML) 研究的多个子领域(如计算机视觉和自然语言处理)的许多最新进展,都是建立在利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。

但这种高性能模型方法在机器人技术领域的应用却相对较少。

原因很简单,首先缺乏大规模和多样化的机器人数据,限制了模型吸收广泛机器人经验的能力。

其次,缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

而这次,谷歌推出的Robotics Transformer 1 (简称RT-1)是一种多任务模型,它可以标记机器人输入和输出动作(例如,相机图像、任务指令和电机命令)以在运行时实现高效推理,并使实时控制成为可能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

RT-1吸收了大量数据,让机器人胜任不同环境下的多种任务,从而提升机器性能和泛化能力

简单来说,就是让一个机器人同时干几份活。

该模型是在一个包含130k个episode的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,使用Everyday Robots (EDR) 的13台机器人在17个月内收集而成。

结果表明,与现有技术相比,RT-1可以显著改进对新任务、环境和对象的零样本泛化。

Github链接小编也贴心地放在下面啦,有兴趣的小伙伴赶紧去看看。

图片

​https://github.com/google-research/robotics_transformer​

RT-1模型具体原理

RT-1建立在Transformer架构上,它能从机器人的相机中获取图像历史记录并以自然语言表达的任务描述作为输入,同时直接输出标记化的动作。

RT-1的架构类似于仅解码器序列模型(decoder-only sequence model)的架构,该模型针对具有因果掩蔽的标准分类交叉熵目标进行训练。

图片

该模型将文本指令和一组图像作为输入,通过预训练的 FiLM EfficientNet 模型将它们编码为标记,并通过 TokenLearner 对其进行压缩,然后经Transformer输出动作标记。

闪念贝壳
闪念贝壳

闪念贝壳是一款AI 驱动的智能语音笔记,随时随地用语音记录你的每一个想法。

下载

其主要功能包括:图像词元化(Image Tokenization)、动作词元化(Action Tokenization)和词元压缩(Token Compression )。

  • 图像tokenization:我们通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为81个标记。图像分词器以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。
  • 动作tokenization:机器人的动作维度是手臂运动的 7 个变量(x、y、z、滚动、俯仰、偏航、夹具打开),3 个基本运动变量(x、y、偏航),以及一个额外的离散变量在三种模式之间切换。
  • Token压缩:该模型自适应地选择图像Token的软组合,这些组合可以根据它们对使用元素注意模块TokenLearner 进行学习的影响进行压缩,从而使推理速度提高2.4倍以上。

图片

我们使用人类通过远程操作提供的演示,并用机器人执行指令的文本描述对每一集进行注释。

而这个机器人执行任务靠的是,「7个自由度的手臂、一个两指夹持器和一个移动底座」。

数据集中表示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、将物体打翻等操作。

整合异质数据源

为进一步推动RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据。

我们转换收集的数据以匹配我们使用EDR收集的原始数据集的动作规范和边界,并用任务指令标记每个数据集。

然后在每个训练批次中将Kuka数据与EDR数据以1:2的比例混合,以控制原始EDR技能的回归。

图片

图为从多个机器人收集数据时的训练方法

结果表明,RT-1能够通过观察其他机器人的经验来获得新技能。

当RT-1在Kuka的垃圾箱拣选数据和机器人教室的现有EDR数据上进行训练时,仅使用 EDR 数据进行训练时的22% 「准确率跃升了近2倍」,达到39%。

图片

当单独使用来自Kuka的拣选数据训练RT-1,并使用来自EDR机器人的拣选数据对其进行评估时,准确率为0%。

实验结果

为更好地理解RT-1的泛化能力,我们针对三个基线研究了它的性能:Gato、BC-Z和BC-Z XL(即与 RT-1 具有相同数量参数的 BC-Z)。

并将其分为四个类别:

图片

图为测试环境下RT-1与对照组的表现

  • 可见任务表现(Seen tasks performance):在训练期间观测的任务表现;
  • 不可见任务表现(Unseen tasks performance):在看不见的任务上的表现,其中技能和对象在训练集中是分开的;
  • 稳健性(Robustness):在干扰因素介入期间的性能和背景变化(新厨房、照明、背景场景)的性能表现
  • 远景场景(long-horizon scenarios):真实厨房中SayCan类自然语言指令的执行

RT-1 的高性能和泛化能力可以通过SayCan实现远距离、移动操作任务。

SayCan的工作原理是将语言模型置于机器人可供性中,并利用少量提示将以自然语言表达的长期任务分解为一系列低级技能。

我们在两个真实厨房中使用RT-1和其他两个基线(SayCan with Gato 和 SayCan with BC-Z)评估SayCan。

下面,“Kitchen2”构成了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在 Kitchen1 之后建模的。

图片

可以看到,SayCan with RT-1在 Kitchen1中的执行成功率为 67%,优于其他基线。

由于新的看不见的厨房带来的泛化困难,SayCan with Gato 和 SayCan with BCZ 的性能下降,但RT-1的成功率并没有因此下降。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6633

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

843

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1092

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

2201

2024.03.01

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4332

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2922

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

42

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

79

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

234

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号