腾讯机器狗进化：通过深度学习掌握自主决策能力

王林

发布时间：2023-06-16 17:01:40

936人浏览过

来源于搜狐

转载

6月14日，腾讯robotics x机器人实验室公布了智能体研究的最新进展，通过将前沿的预训练ai模型和强化学习技术应用到机器人控制领域，让机器狗 max 的灵活性和自主决策能力得到大幅提升。

让机器狗像人和动物一样灵活且稳定的运动，是机器人研究领域长期追求的目标，深度学习技术的不断进步，使得让机器通过“学习”来掌握相关能力，学会应对复杂多变的环境变得可行。

引入预训练和强化学习：让机器狗更加灵动

腾讯Robotics X机器人实验室通过引入预训练模型和强化学习技术，可以让机器狗分阶段进行学习，有效的将不同阶段的技能、知识积累并存储下来，让机器人在解决新的复杂任务时，不必重新学习，而是可以复用已经学会的姿态、环境感知、策略规划多个层面的知识，进行“举一反三”，灵活应对复杂环境

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

腾讯机器狗进化：通过深度学习掌握自主决策能力

这一系列的学习分为三个阶段：

第一阶段通过游戏技术中常使用动作捕捉系统，研究员收集真狗的运动姿态数据，包括走、跑、跳、站立等动作，并利用这些数据，在仿真器中构建了一个模仿学习任务，再将这些数据中的信息抽象并压缩到深度神经网络模型中。这些模型不仅能够准确地涵盖收集的动物运动姿态信息，而且具有相当高的可解释性。

腾讯Robotics X机器人实验室和腾讯游戏合作，用游戏技术提升了仿真引擎的准确和高效，同时游戏制作和研发过程中积累了多元的动捕素材。这些技术和数据在基于物理仿真的智能体训练和真实世界机器人策略部署中扮演了一定的辅助角色。

腾讯机器狗进化：通过深度学习掌握自主决策能力

神经网络模型只接受机器狗的本体感知信息（如电机状态）作为输入，以模仿学习的方式进行训练。在下一步中，模型会融合周围环境的感知数据，例如利用其他传感器来探测脚底下的障碍物。

第二阶段，通过额外的网络参数来将第一阶段掌握的机器狗灵动姿态与外界感知联系在一起，使得机器狗能够通过已经学会的灵动姿态来应对外界环境。当机器狗适应了多种复杂的环境后，这些将灵动姿态与外界感知联系在一起的知识也会被固化下来，存在神经网络结构中。

腾讯机器狗进化：通过深度学习掌握自主决策能力

Deep Search

智能文献、网页检索与分析工具。AI赋能，洞悉万象，让知识检索与总结触手可及

下载

腾讯机器狗进化：通过深度学习掌握自主决策能力

第三阶段，利用上述两个预训练阶段获取的神经网络，机器狗才有前提和机会来聚焦解决最上层的策略学习问题，最终具备端到端解决复杂的任务的能力。在第三阶段中，额外添加的网络将会收集与复杂任务有关的数据，例如在游戏中获取对手和旗帜的信息。此外，通过综合分析所有信息，负责策略学习的神经网络会学习出针对任务的高阶策略，例如往哪个方向跑动，预判对手的行为来决定是否继续追逐等等。

上述每一阶段学习到的知识都可以扩充和调整，不需要重新学习，因此可以不断积累，持续学习。

机器狗障碍追逐比赛：拥有自主决策和控制能力

为了测试Max所掌握的这些新技能，研究员受到障碍追逐比赛“World Chase Tag“的启发，设计了一个双狗障碍追逐的游戏。World Chase Tag是一个竞技性障碍追逐赛组织，2014年创立于英国，由民间儿童追逐游戏标准化而来。一般来说，障碍追逐比赛每轮次由两名互为对手的运动员参加，一名是追击者（称为攻方），一名是躲避者（称为守方），当一名运动员在整个追逐回合中（即20秒）成功躲避对手（即未发生触碰）时，团队将获得一分。在预定的追逐回合数中得分最多的战队赢得比赛。

机器狗障碍追逐比赛的场地尺寸为4.5米 x 4.5米，上面分布着一些障碍物。游戏起始，两个MAX机器狗会被放置在场地中的随机位置，且随机一个机器狗被赋予追击者的角色，另一个为躲避者，同时，场地中会在随机位置摆放一个旗子。

躲避者的目标是尽可能接近旗子，但要确保不被追击者捉住。追击者的任务则是抓住躲避者。如果躲避者在被抓到之前成功触碰到旗子，则两个机器狗的角色会瞬间发生互换，同时旗子会重新出现在另一个随机的位置。当躲避者被当前的追击者抓住并且此时扮演追击者角色的机器狗获胜时，游戏即告结束。在所有游戏中，两个机器狗的平均前进速度限制为0.5m/s。

从这个游戏看来，在基于预训练好的模型下，机器狗通过深度强化学习，已经具备一定的推理和决策能力：

比如，当追击者意识到自己在躲避者碰到旗子之前已经无法追上它的时候，追击者就会放弃追击，而是在远离躲避者的位置徘徊，目的是为了等待下一个重置的旗子出现。

另外，当追击者即将抓到躲避者的最后时刻，它喜欢跳起来向着躲避者做出一个"扑"的动作，非常类似动物捕捉猎物时候的行为，或者躲避者在快要接触旗子的时候也会表现出同样的行为。这些都是机器狗为了确保自己的胜利采取的主动加速措施。

据介绍，游戏中机器狗的所有控制策略都是神经网络策略，在仿真中进行学习并通过zero-shot transfer(零调整迁移），让神经网络模拟人类的推理方式，来识别从未见过的新事物，并把这些知识部署到真实机器狗上。例如下图所示，机器狗在预训练模型中学会的躲避障碍物的知识，被用在游戏中，即使带有障碍物的场景并未在Chase Tag Game的虚拟世界进行训练（虚拟世界中仅训练了平地下的游戏场景），机器狗也能顺利完成任务。

腾讯Robotics X机器人实验室长期致力于机器人前沿技术的研究，以此前在机器人本体、运动、控制领域等领先技术和积累为基础，研究员们也在尝试将前沿的预训练模型和深度强化学习技术引入到机器人领域，提升机器人的控制能力，让其更具灵活性，这也为机器人走入现实生活，服务人类打下了坚实的基础。

人工智能怎么使用PaddleOCR识别文字_人工智能高精度OCR部署方法

千问AI怎么做图像风格迁移_千问AI深度学习趣味代码【炫酷】

豆包AI怎么写PyTorch模型_豆包AI深度学习代码演示【进阶】

AI在农业领域的应用：如何用AI进行作物病虫害识别？

AI视频去抖动教程，手持拍摄也能稳如泰山

相关专题

传感器故障解决方法

传感器故障排除指南：识别故障症状（如误读或错误代码）。检查电源和连接（确保连接牢固，无损坏）。校准传感器（遵循制造商说明）。诊断内部故障（目视检查、信号测试、环境影响评估）。更换传感器（选择相同规格，遵循安装说明）。验证修复（检查信号准确性，监测异常行为）。

501

2024.06.04

Nginx跨平台安装实操指南：Windows、macOS与Linux环境快速搭建

本指南详解Nginx在Windows、macOS及Linux系统的安装全流程。涵盖官方包解压、Homebrew一键部署、APT/YUM源配置及Docker容器化方案。无论新手或开发者，均可快速搭建运行环境，掌握跨平台核心指令，为后续配置与调优奠定坚实基础。

2026.03.16

chatgpt使用指南

本专题整合了chatgpt使用教程、新手使用说明等等相关内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

chatgpt官网入口地址合集

本专题整合了chatgpt官网入口地址、使用教程等内容，阅读专题下面的文章了解更多详细内容。

2026.03.16

minimax入口地址汇总

本专题整合了minimax相关入口合集，阅读专题下面的文章了解更多详细地址。

2026.03.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

116

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

142

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

412

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板