讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

花韻仙語

发布时间：2024-10-09 21:44:20

|

1029人浏览过

|

来源于机器之心

转载

最近，bytedance research 的第二代机器人大模型 —— gr-2，终于放出了官宣视频和技术报告。gr-2 以其卓越的泛化能力和多任务通用性，预示着机器人大模型技术将爆发出巨大潜力和无限可能。 gr-2登场！bytedance research提出机器人大模型，具备世界建模和强大泛化能力

GR-2 官方项目页面：

https://gr2-manipulation.github.io

初识 GR-2：百炼出真金

和许多大模型一样，GR-2 的训练包括预训练和微调两个过程。

如果把机器人和人做比较，预训练过程就好像是人类的 “婴儿期”。而 GR-2 的婴儿期与其他机器人截然不同。

在预训练的过程中，GR-2 在互联网的海洋中遨游。

它在 3800 万个互联网视频片段上进行生成式训练，也因此得名 GR-2（Generative Robot 2.0）。这些视频来自学术公开数据集，涵盖了人类在不同场景下（家庭、户外、办公室等）的各种日常活动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

这个过程，就像是它在经历一个快速的 “生长痛”，迅速学会了人类日常生活中的各种动态和行为模式。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{该图展示了 GR-2 预训练数据中的样本视频和动词分布。下图中的 y 轴是最热门单词的对数频率。}

这种预训练方式使 GR-2 具备了学习多种操作任务和在多种环境中泛化的潜能。庞大的知识储备，让 GR-2 拥有了对世界的深刻理解，仿佛它已经环游世界无数次。

微调的艺术：视频生成能力拔高动作准确率

据悉，GR-2 的开发团队采用了一种创新的微调方法。

在经历大规模预训练后，通过在机器人轨迹数据上进行微调，GR-2 能够预测动作轨迹并生成视频。

GR-2 的视频生成能力，让它在动作预测方面有着天然的优势。它能够通过输入一帧图片和一句语言指令，预测未来的视频，进而生成相应的动作轨迹。

如下图所示，只需要输入一句语言指令：“pick up the fork from the left of the white plate”，就可以让 GR-2 生成动作和视频。可以看到，机械臂从白盘子旁边抓起了叉子。右图中预测的视频和真机的实际运行也相差无几。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

以下是几个进一步展示 GR-2 视频生成能力的示例，包括把物品放进烤箱、将物品置于咖啡壶嘴下方等任务。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

这种能力，不仅提升了 GR-2 动作预测的准确性，也为机器人的智能决策提供了新的方向。

Scaling Law：机器人 + 大模型的要诀

在人工智能领域，Scaling Law 是一个备受瞩目的概念。它描述了模型性能与其规模之间的关系。对于 GR-2 这样的机器人模型来说，这一法则尤为关键。

随着模型规模的增加，GR-2 的性能呈现出显著的提升。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{(a)(b)(c) 分别展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三个数据集的验证集上的视频生成损失。(d) 展示了不同尺寸 GR-2 在真机实验中的成功率。}

在 7 亿参数规模的验证中，团队看到了令人鼓舞的结果：更大的模型不仅能够处理更多复杂的任务，而且在泛化到未见过的任务和场景时也表现得更加出色。

这表明，通过扩大模型规模，我们可以解锁机器人更多的潜能，使其在多任务学习和适应新环境方面更加得心应手。

多任务学习与泛化：未知场景的挑战者

在多任务学习测试中，GR-2 能够完成 105 项不同的桌面任务，平均成功率高达 97.7%。

GR-2 的强大之处不仅在于它能够处理已知任务，更在于其面对未知场景和物体时的泛化能力。无论是全新的环境、物体还是任务，GR-2 都能够迅速适应并找到解决问题的方法。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

Felvin

Felvin

AI无代码市场，只需一个提示快速构建应用程序

下载

^{我开、我放……我眼里有活儿}

更让人惊艳的是，GR-2 还能够与大语言模型相结合，完成复杂的长任务，并与人类进行互动。

比如，我们想要喝一杯咖啡。GR-2 会先从托盘里拿起杯子，并将其放在咖啡壶嘴下方。接着，它会按下咖啡机上的按钮来煮一杯咖啡。最后，当咖啡煮好了，机器人会把杯子放回托盘上。整个过程无需人类干预。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

又如，我们早餐想要吃点东西。根据场景中的物体，机器人决定为我们制作一份烤面包。机器人首先按下烤面包机上的开关来烤制面包。然后它拿起烤好的面包，并将其放入红色的碗中。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{认真工作中，勿扰}

ByteDance Research 还想强调，GR-2 能够鲁棒地处理环境中的干扰，并通过适应变化的环境成功完成任务。

以果蔬分类任务为例：桌子上放置着水果和蔬菜，我们需要机器人帮忙将水果和蔬菜分装到不同的盘子里。机器人能够自主识别物体的类别，并自动将它们放入正确的盘子中。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

当在机器人移动的过程中移动盘子，GR-2 依然能回过神来，准确找回它要放的目标盘子。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{穿越“果”群，仍能找到你}

工业应用中的突破：端到端的丝滑物体拣选

在实际应用中，GR-2 相比前一代的一个重大突破在于能够端到端地完成两个货箱之间的物体拣选。

这个任务要求机器人从一个货箱中逐个拿起物体，并将其放入旁边的货箱。看似简单，但在实际应用中，能够实现这个需求的多模态端到端模型却难得一见。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{端到端拣选任务场景}

如下图所示，GR-2 可以实现货箱之间丝滑且连续的物体拣选。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{真 · 无情的拣选机器人}

无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体，GR-2 均能准确抓取。这展现了其在工业领域和真实仓储场景的巨大潜力。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

除了能够处理多达 100 余种不同的物体，例如螺丝刀、橡胶玩具、羽毛球，乃至一串葡萄和一根辣椒，GR-2 在未曾见过的场景和物体上也有着出色的表现。

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{拣选任务中的 122 个测试物品，其中只有 55 个物体参与训练。}

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

^{GR-2 可以识别透明的、可变形的或反光的物体。}

话分两头，尽管 GR-2 在互联网视频上接受了大规模的预训练，但也存在一些进步空间。例如，真实世界动作数据的规模和多样性仍然有限。

GR-2 的故事，是关于 AI 如何推动机器人发展的故事。它不仅仅是一个机器人大模型，更是一个能够学习和适应各种任务的智能体。我们有理由相信，GR-2 在实际应用中拥有巨大潜力。

GR-2 的旅程，才刚刚开始。

相关文章

什么是“人形机器人”？特斯拉Optimus与产业供应链全解析

AI生成活动现场的即时新闻稿

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

相关标签:

git github https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：从预测风暴到设计分子，微软的 AI 基础模型如何加速科学发现下一篇：上交大发布首个OpenAI o1复现项目进展报告，满满的经验洞察

作者最新文章

如何解决 GitHub Pages 中背景图片无法显示的问题

2026-03-18 16:19

解决移动端浏览器自动缩放字体导致菜单文字大小不一致的问题

2026-03-18 16:32

如何在浏览器端将 XML 数据导出为 CSV 文件

2026-03-18 16:35

Go 中 nil 接口值无法类型断言为指针类型的原理与实践

2026-03-18 16:42

PHP 中实现子类属性的自动声明：使用 __get 魔术方法统一管理动态属性

2026-03-18 16:49

Spring Boot 中 @Value 属性占位符的嵌套引用实现方法

2026-03-18 17:09

PHP 字符串含千位分隔符时的安全数值计算教程

2026-03-18 17:22

如何为滚动容器添加平滑滚动效果（CSS 与 JavaScript 实现方案）

2026-03-18 17:32

PHP 中正确解析数据库中嵌套的 JSON 字符串

2026-03-18 17:38

NGRX 中 Action 不可变性导致的 TypeError 解决方案

2026-03-18 17:39

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

github中文官网入口 github中文版官网网页进入

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4621

2026.01.21

http与https有哪些区别

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

3000

2024.08.16

Python WebSocket实时通信与异步服务开发实践

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

2

2026.03.18

Java Spring Security权限控制与认证机制实战

Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开，重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例，帮助开发者构建安全可靠的后端认证体系，提升系统安全性与可扩展能力。

0

2026.03.18

抖漫入口地址合集

抖漫入口地址合集

本专题整合了抖漫入口地址相关合集，阅读专题下面的文章了解更多详细地址。

110

2026.03.17

多环境下的 Nginx 安装、结构与运维实战

多环境下的 Nginx 安装、结构与运维实战

本专题聚焦多环境下Nginx实战，详解开发、测试及生产环境的差异化安装策略与目录结构规划。深入剖析配置模块化设计、灰度发布流程及跨环境同步机制。结合监控告警、故障排查与自动化运维工具，提供全链路管理方案，助力团队构建灵活、高可用的Nginx服务体系，从容应对复杂业务场景挑战。

13

2026.03.17

PS 批量添加图片

PS 批量添加图片

本专题整合了PS批量添加图片教程合集，阅读专题下面的文章了解更多详细操作。

10

2026.03.17

Nginx 基础架构：从安装配置到系统化管理

Nginx 基础架构：从安装配置到系统化管理

本专题深入解析Nginx基础架构，涵盖从源码编译与包管理安装，到核心配置文件优化及虚拟主机部署。进一步探讨日志轮转、性能调优、高可用集群构建及自动化运维策略，助力管理员实现从单一服务搭建到企业级系统化管理的全面升级，确保Web服务高效、稳定运行。

7

2026.03.17

mulerun骡子快跑入口地址汇总

mulerun骡子快跑入口地址汇总

本专题整合了mulerun入口地址合集，阅读专题下面的文章了解更多详细内容。

216

2026.03.17

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Git 教程

Git 教程

共21课时 | 4.3万人学习

Git版本控制工具

Git版本控制工具

共8课时 | 1.6万人学习

Git中文开发手册

Git中文开发手册

共0课时 | 94人学习

最新文章

更多

Minimax生成视频的后期剪辑与调色建议

骡子快跑怎么写部署文档_骡子快跑运维手册生成模板

海螺AI怎么保持人物一致性海螺AI角色固定技巧

骡子快跑能做SWOT分析吗_骡子快跑商业分析模板调用

什么是生成式 AI 的原理？快速掌握 AI 自动生成内容的逻辑

结果导向：用 Gemini 分析产品演示视频，如何优化销售话术

痛点解决：文案没灵感？教你用 Gemini 快速产出 50 个创意标题

airpordspro3怎么设置 airpordspro3基础设置方法【教程】

Perplexity Max版有什么区别 Perplexity Max和Pro订阅对比【选购建议】

Minimax怎么生成雨天打伞视频 Minimax细节动作生成

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部