0

0

谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐

WBOY

WBOY

发布时间:2024-01-16 11:24:15

|

1304人浏览过

|

来源于机器之心

转载

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。

近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对 LLM 来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为 LLM 提供了决定机器人行为的高层 API,而这就从根本上限制了系统的表现能力。

在 CoRL 2023 论文《SayTap: Language to Quadrupedal Locomotion》中,谷歌 DeepMind 与东京大学提出了一种新方法,该方法使用足部接触模式作为连接人类的自然语言指令与输出低层命令的运动控制器的桥梁。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

  • 论文地址:https://arxiv.org/abs/2306.07580
  • 项目网站:https://saytap.github.io/

足部接触模式(foot contact pattern)是指四足智能体在移动时足放在地上的顺序和方式。他们基于此开发出了一种交互式四足机器人系统,让用户可以灵活地制定不同的运动行为,比如用户可以使用简单的语言命令机器人走、跑、跳或执行其它动作。

他们的贡献包括一种 LLM prompt 设计、一个奖励函数和一种能让 SayTap 控制器使用可行的接触模式分布的方法。

研究表明 SayTap 控制器能够实现多种运动模式,并且这些能力还能迁移用于真实机器人硬件。

SayTap 方法

SayTap 方法使用了一种接触模式模板,该模板是一个由 0 和 1 构成的 4 X T 矩阵,其中 0 表示智能体的脚在空中,1 表示脚落在地面。从上至下,该矩阵的每一行分别给出了左前足(FL)、右前足(FR)、左后足(RL)、右后足(RR)的足部接触模式。SayTap 的控制频率为 50 Hz,即每个 0 或 1 持续 0.02 秒。这项研究将所需足部接触模式定义为一个大小为 L_w、形状为 4 X L_w 的循环滑动窗口。该滑动窗口会从接触模式模板提取四足的接地标志,其指示了在时间 t + 1 和 t + L_w 之间机器人足是在地面还是在空中。下图给出了 SayTap 方法的概况。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

SayTap 方法概述

SayTap 引入的所需足部接触模式可作为自然语言用户命令与运动控制器之间的新接口。运动控制器是用于完成主要任务的(比如遵循指定的速度)以及用于在特定时间将机器人足放在地上,以使实现的足部接触模式尽可能接近所需的接触模式。

为了做到这一点,在每个时间步骤,运动控制器以所需的足部接触模式为输入,再加上本体感官数据(如关节位置和速度)及任务相关输入(如特定于用户的速度命令)。DeepMind 使用了强化学习来训练该运动控制器,并将其表征成一个深度神经网络。在控制器的训练期间,研究者使用了一个随机生成器来采样所需的足部接触模式,然后优化策略以输出能实现所需足部接触模式的低层机器人动作。而在测试时间,则是使用 LLM 将用户指令转译成足部接触模式。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

SayTap 使用足部接触模式作为连接自然语言用户指令和低层控制命令的桥梁。SayTap 既支持简单直接的指令(比如「向前慢速小跑」),也支持模糊的用户命令(比如「好消息,我们这个周末去野餐!)。通过基于强化学习的运动控制器,能让四足机器人根据命令做出反应。

研究表明:使用适当设计的 prompt,LLM 有能力准确地将用户命令映射到特定格式的足部接触模式模板中,即便用户命令是非结构化的或模糊的。在训练中,研究者使用随机模式生成器生成了多种接触模式模板,它们有不同的模式长度 T、基于给定步态类型 G 在一个周期内的足地接触比,使得运动控制器能够在广泛的运动模式分布上学习,获得更好的泛化能力。更多详情请参阅论文。

实验结果

使用一个仅包含三种常见足部接触模式上下文样本的简单 prompt,LLM 可将各种人类命令准确地转译成接触模式,甚至泛化用于那些没有明确指定机器人应当如何行为的情况。

SayTap prompt 简洁紧凑,包含四个组分:

(1) 用于描述 LLM 应完成的任务的一般性说明;
(2) 步态定义,用于提醒 LLM 关注有关四足步态的基本知识以及它们与情绪的关联;
(3) 输出格式定义;
(4) 演示示例,让 LLM 学习在上下文中的情况。

研究者还设定了五种速度,让机器人可以前进或后退、快速或慢速、或保持不动。

遵循简单和直接的命令

下面的动图展示了 SayTap 成功执行直接清晰命令的示例。尽管某些命令并不包含在三个上下文示例之中,但依然可以引导 LLM 表达出其在预训练阶段学习到的内部知识,这会用到 prompt 中的「步态定义模块」,即上面 prompt 中第二个模块。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

遵循非结构化或模糊的命令

但更有趣的是 SayTap 处理非结构化和模糊指令的能力。只需一点提示即可将某些步态与一般情绪印象联系起来,比如机器人在听到让其兴奋的消息(如「我们去野餐吧!」)后会上下跳跃。此外,它还能准确地呈现出场景,比如当被告知地面非常热时,机器人会快速移动,让脚尽量少接触地面。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

360智图
360智图

AI驱动的图片版权查询平台

下载

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令


总结和未来工作

SayTap 是一个用于四足机器人的交互式系统,其允许用户灵活地制定不同的运动行为。SayTap 引入了所需足部接触模式作为自然语言与低层控制器之间的接口。这种新接口简单直接又很灵活,此外,它既支持机器人遵循直接指令,也支持机器人遵从没有明确说明机器人行为方式的命令。

DeepMind 的研究者表示,未来一大研究方向是测试暗含特定感受的命令是否能让 LLM 输出所需步态。在上面结果的步态定义模块中,研究者提供了一个将开心情绪与跳动步态联系起来的句子。如果能提供更多信息,也许能增强 LLM 解释命令的能力,比如解读隐含的感受。在实验评估中,开心情绪与跳动步态的联系能让机器人在遵从模糊的人类指令行动时表现得充满活力。另一个有趣的未来研究方向是引入多模态输入,比如视频和音频。理论上讲,从这些信号转译而来的足部接触模式也适用于这里新提出的工作流程,并有望开创更多有趣的用例。

原文链接:https://blog.research.google/2023/08/saytap-language-to-quadrupedal.html

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1130

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

213

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1728

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

20

2026.01.19

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

930

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2083

2024.08.16

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

2

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

0

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

5

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
XML教程
XML教程

共142课时 | 6万人学习

Vue.js 微实战--十天技能课堂
Vue.js 微实战--十天技能课堂

共18课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号