0

0

谷歌机器人实现高达93.5%准确率的交互语言,开源数据量提升十倍。

PHPz

PHPz

发布时间:2023-04-21 19:34:08

|

1665人浏览过

|

来源于51CTO.COM

转载

注意看,眼前的这个男人正在对着一个机器人不断发出自然语言指令,如「把绿色的星推到红色块之间」、「把蓝色的方块移动到左下角」,机器人对每一次输入的指令都可以实时完成。

自上世纪60年代开始,机器人专家就开始尝试让机器人听懂人的「自然语言指令」,并执行具体的行动。

理想情况下,未来的机器人将对用户能够用自然语言描述的任何相关任务做出实时反应。

特别是在开放的人类环境中,用户可能需要在机器人行为发生时自定义行为,提供快速纠正,比如「停止,将手臂向上移动一点」或是指定限制「慢慢向右移动」。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍

此外,实时语言可以使人和机器人更容易在复杂的长期任务中进行协作,人们可以迭代和交互式地指导机器人操作,偶尔会有语言反馈。

目前的相关工作大体可以分为以下三部分:

1、机器人本体需要存在于现实世界;

2、能够响应大量且丰富的自然语言命令;

Simplified
Simplified

AI写作、平面设计、编辑视频和发布内容。专为团队打造。

下载

3、能够执行交互式的(interactive)语言命令,即机器人需要在任务执行的过程中接受新的自然语言指令。

对于第三点来说,目前机器人领域在交互式方面的发展速度仍然非常缓慢,也让机器人缺乏「生命感」。

最近Google发表了一篇论文,提出了一个全新的框架,可以生产真实世界的、实时交互的、执行自然语言指令的机器人,并且相关数据集、环境、基准测试和策略都已开放使用。

谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍

论文链接:https://arxiv.org/pdf/2210.06407.pdf

项目主页:https://interactive-language.github.io/

通过对几十万个语言标注轨迹的数据集进行行为克隆训练,产生的策略可以熟练地执行比以前的工作实现了多一个数量级的命令。在现实世界中,研究人员估计该方法在87000个不同的自然语言字符串上有93.5%的成功率。

谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍

并且同样的策略能够被人类通过自然语言进行实时引导,以解决广泛的精确的长距离重新排列目标,例如 「用积木做一个笑脸」等。

随论文共同发布的数据集包括近60万个语言标记的轨迹,比之前的可用数据集也要大一个数量级。

交互式语言:与机器人实时对话

想要让机器人融入现实世界中,最重要是能够处理开放式的自然语言指令,但从机器学习的角度来看,让机器人学习开放词汇表语言是一个巨大的挑战。

开放代表模型需要执行大量任务,包括小的纠正指令等。现有的多任务学习设置利用精心设计的模仿学习数据集或复杂的强化学习奖励功能来驱动每个任务的学习,通过这种方式设计的预定义集合注定不会很大。

因此,在开放词汇表任务中一个关键的问题是: 应该如何扩展机器人数据的收集过程,使其能够涵盖真实环境中成千上万的行动,以及如何将所有这些行为与最终用户可能实际提供的自然语言指令联系起来?

在交互式语言中,Google提出的大规模仿真学习框架关键是创建大型、多语言条件的机器人演示数据集的可伸缩性。

和以前设置中需要定义所有的技能,然后收集每个技能策划的示范不同的是,研究人员不断在跨多个机器人在无场景重置(scene resets)或低级别技能分割(low level skill segmentation)的情况下收集数据。

所有的数据,包括失败的数据(如把块从桌子上敲下来 knocking blocks off a table),都要经过一个hindsight language relabeling的过程才能与文本配对。

在这个过程中,标注人员需要观看长长的机器人视频来识别尽可能多的行为,标记每个行为的开始和结束时间,并使用无限制形式的自然语言来描述每个片段。

最重要的是,与之前设置的引导相比,所有用于训练的技能都是从数据本身自下而上显示出来的,而非由研究人员预先确定的。

谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍

研究人员有意将学习方法和架构尽可能简化,机器人策略网络是一个交叉注意力Transformer,将5赫兹的视频和文本映射到5赫兹的机器人动作,在没有辅助损失(auxiliary losses)的情况下使用标准的监督式学习行为克隆目标。

在测试时,新的自然语言命令可以通过speech-to-text以高达5赫兹的速率发送到策略网络中。

开源基准

在标注过程中,研究人员收集了一个Language-Table数据集,其中包含超过44万实际和18万模拟的机器人执行自然语言命令的演示,以及机器人在演示过程中采取的动作顺序。

谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍

这也是当下最大的基于语言条件的机器人演示(language-conditioned robot demonstration)数据集,直接提升了一个数量级。

Language-Table 推出了一个模拟仿真学习基准,可以用它来进行模型选择,或者用来评估不同方法训练得到的机器人执行指令的能力。

实时语言行为学习

在实验中,研究人员发现,当机器人能够跟随实时输入的自然语言指令时,机器人的能力就会显得特别强大。

在项目网站中,研究人员展示了用户可以仅使用自然语言就能引导机器人通过复杂的长视野序列(long-horizon sequences)来解决需要较长时间才能精确协调控制的目标。

谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍

比如在桌子上有许多blcoks,命令可以是「用绿眼睛做一个笑脸」或者「把所有的放在一条垂直线上」等。

因为机器人被训练去跟随开放的词汇语言,所以在实验中能够看到机器人可以对一系列不同的口头修正做出反应,如「轻轻地向右移动红色的星星」。

最后,研究人员探索了实时语言的优势,例如可以让机器人数据采集变得更加高效,一个人类操作员可以同时使用口头语言控制四个机器人,有可能在未来扩大机器人数据收集的规模,而不需要为每个机器人配备一个标注员。

结论

虽然该项目目前仅限于桌面上的一套固定的物体,但交互式语言的实验结果可以初步表明,大规模模仿学习确实可以生产出实时交互式机器人,能够遵循自由形式的终端用户命令。

为了推动物理机器人实时语言控制技术的进步,研究人员开源了Language-Table,也是目前最大的基于语言条件下的真实世界机器人演示数据集,也可以作为相关的模拟基准。

研究人员认为,这个数据集的作用可能不仅仅局限于机器人控制领域,而且可能为研究语言和动作条件视频预测、机器人视频条件语言建模,或者在更广泛的机器学习环境中研究其他许多有趣的活跃问题提供一个新起点。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

3

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

55

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

67

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

37

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

11

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

16

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

152

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

139

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.2万人学习

尚硅谷JavaScript高级视频教程
尚硅谷JavaScript高级视频教程

共48课时 | 14.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号