0

0

业内首个具身智能原子技能库架构

蓮花仙者

蓮花仙者

发布时间:2025-04-28 17:36:02

|

914人浏览过

|

来源于php中文网

原创

具身智能技术的突破与应用是通向通用人工智能(agi)的必经之路,全球科技公司正加速布局,如特斯拉的optimus、agility的digit、波士顿动力的atlas及figure ai等。2023年蛇年春晚的机器人“扭秧歌”表演也成为了人们茶余饭后的谈资。随着大模型技术的进步,具身智能也在快速发展。

然而,具身智能仍面临诸多挑战,其中核心挑战在于具身操作的泛化能力,即如何在有限的具身数据下,使机器人适应复杂场景并实现技能的高效迁移。

京东探索研究院李律松、李东江博士团队发起了该项目,并联合地瓜机器人秦玉森团队、中科大徐童团队、深圳大学郑琪团队、松灵机器人及睿尔曼智能吴波团队共同推进,获得了清华RDT团队在基础方法上的技术支持。

团队提出了首个基于三轮数据驱动的原子技能库构建框架,突破了传统端到端具身操作的数据瓶颈。该方法能够动态自定义和更新原子技能,并结合数据收集与VLA少样本学习,构建高效技能库。

实验结果表明,该方案在数据效率和泛化能力方面表现卓越,是业内首个基于数据驱动的具身大模型原子技能库构建框架,也是首个面向具身产业应用的数据采集新范式,形成了数据标准,解决了当前具身智能数据缺乏的问题,尤其是高校与产业之间数据和范式的流动,推动了具身大模型的研究与落地。

在生成式AI时代,具身智能迎来了重要突破。通过跨模态融合,将文本、图像、语音等数据映射到统一的语义向量空间,为具身智能技术的发展提供了新契机。VLA(视觉-语言-动作)模型在数据可用性与多模态技术的推动下不断取得进展。

然而,现实环境的复杂性使得具身操作模型在泛化性上仍面临挑战。端到端训练依赖海量数据,导致“数据爆炸”问题,限制了VLA的发展。将任务分解为可重用的原子技能可以降低数据需求,但现有方法受限于固定技能集,无法动态更新。

为解决这一问题,团队提出了基于三轮数据驱动的原子技能库构建方法,可在仿真或真实环境的模型训练中减少数据需求。

如图所示,VLP(视觉-语言-规划)模型将任务分解为子任务,高级语义抽象模块将子任务定义为通用原子技能集,并通过数据收集与VLA微调构建技能库。随着三轮更新策略的动态扩展,技能库不断扩增,覆盖任务范围扩大。该方法将重点从端到端技能学习转向细颗粒度的原子技能构建,有效解决了数据爆炸问题,并提升了新任务的适应能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

业内首个具身智能原子技能库架构基于三轮数据驱动的原子技能库构建与推理流程为什么需要VLP?VLP需要具有哪些能力? 从产业落地的角度看,具身操作是关键模块。目前,端到端VLA进行高频开环控制,即便中间动作失败,仍输出下一阶段控制信号。因此,VLA在高频控制机器人/机械臂时,强烈依赖VLP提供低频智能控制,以指导阶段性动作生成,并协调任务执行节奏。

为统一训练与推理的任务分解,本文构建了集成视觉感知、语言理解和空间智能的VLP Agent。如图所示,VLP Agent接收任务指令文本与当前观察图像,并利用Prismatic生成场景描述。考虑到3D世界的复杂性,我们设计了一种空间智能感知策略:

首先,Dino-X检测任务相关物体并输出边界框;然后,SAM-2提供精细分割掩码,并基于规则判断物体间的空间关系;最终,这些视觉与空间信息与任务指令一同输入GPT-4,生成完整执行计划并指定下一个子任务。VLP Agent通过该方法在原子技能库构建中有效分解端到端任务,并在推理过程中提供低频控制信号,规划并指导高频原子技能的执行。

业内首个具身智能原子技能库架构基于空间智能信息的VLP Agent具身思维链框架VLA存在的问题是什么?在框架中起什么作用? VLA技术从专用数据向通用数据演进,机器人轨迹数据已达1M episodes级别;模型参数规模从千亿级向端侧部署发展;性能上,VLA从单一场景泛化至多场景,提升技能迁移能力。

尽管端到端任务采集与训练有助于科研算法优化,但在通用机器人应用中,人为定义端到端任务易导致任务穷尽问题。在单任务下,物品位置泛化、背景干扰、场景变化仍是主要挑战,即便强大预训练模型仍需大量数据克服;多任务下,数据需求呈指数级增长,面临“数据爆炸”风险。

第一团购
第一团购

第一团购软件是基于Web应用的B/S架构的团购网站建设解决方案的建站系统。它可以让用户高效、快速、低成本的构建个性化、专业化、强大功能的团购网站。从技术层面来看,本程序采用目前软件开发IT业界较为流行的ASP.NET和SQLSERVER2000数据库开发技术架构。从功能层面来看,前台首页每天显示一个服务或插产品的限时限最低成团人数的团购项目,具有邮件订阅,好友邀请,人人网、开心网、新浪微博、MSN

下载

提出的三轮数据驱动的原子技能库方法可结合SOTA VLA模型,通过高级语义抽象模块将复杂子任务映射为结构化原子技能,并结合数据收集与VLA少样本学习高效构建技能库。VLA可塑性衡量模型从多本体迁移至特定本体的能力,泛化性则评估其应对物体、场景、空间变化的表现。

以RDT-1B作品为例,我们基于6000条开源数据及2000条自有数据微调VLA模型。测试结果表明,模型在物品和场景泛化上表现优异,但在物品位置泛化方面存在一定局限,且训练步数对最终性能影响显著。为进一步优化,团队进行了两项实验包括位置泛化能力提升及训练步长优化测试。这类VLA模型性能测试对于原子技能库构建至关重要,测试结果不仅优化了Prompt设计,也进一步增强了高级语义抽象模块在子任务映射与技能定义中的精准性。为什么构建原子技能库?怎样构建? 具身操作技能学习数据源包括互联网、仿真引擎和真实机器人数据,三者获取成本递增,数据价值依次提升。在多任务多本体机器人技能学习中,OpenVLA和Pi0依托预训练VLM,再用真实轨迹数据进行模态对齐并训练技能,而RDT-1B直接基于百万级机器人真实轨迹数据预训练,可适配不同本体与任务。

无论模型架构如何,真实轨迹数据仍是关键。原子技能库的构建旨在降低数据采集成本,同时增强任务适配能力,提升具身操作的通用性,以满足产业应用需求。

基于数据驱动的原子技能库构建方法,结合端到端具身操作VLA与具身规划VLP,旨在构建系统化的技能库。VLP将TASK A, B, C, ..., N分解为Sub-task #1, #2, ..., #a+1。高级语义抽象模块基于SOTA VLA模型测试可调整任务粒度,进一步将子任务映射为通用原子技能定义1, 2, ..., b+1,并通过数据收集与VLA少样本学习,构建包含1', 2', ..., b+1'的原子技能库。

面对新任务TASK N+1,若所需技能已在库中,则可直接执行;若缺失,则触发高级语义抽象模块,基于现有技能库进行原子技能定义更新,仅需对缺失的原子技能收集额外数据与VLA微调。随着原子技能库动态扩增,其适应任务范围不断增加。

相比传统TASK级数据采集,提出的原子技能库所需要的数据采集量根据任务难度成指数级下降,同时提升技能适配能力。

实验及结果分析 验证问题在相同物体点位下采集轨迹数据,所提方法能否以更少数据达到端到端方法性能?在收集相同数量的轨迹数据下,所提方法能否优于端到端方法?面对新任务,所提方法是否能够在不依赖或者少依赖新数据的条件下仍然有效?所提方法是否适用于不同VLA模型,并保持有效性和效率?实验设置针对上述问题,我们设计了四个挑战性任务,并在RDT-1B和Octo基准模型上,以Agilex双臂机器人进行测试。实验采用端到端方法和所提方法分别采集数据,以对比两者在数据利用效率和任务泛化能力上的表现。具体实验设置如下:

拿起香蕉并放入盘子端到端方法:从4个香蕉点位和2个盘子点位采集24条轨迹。所提方法:保持数据分布一致,分解为12条抓取香蕉轨迹和6条放置香蕉轨迹。为匹配端到端数据量,进一步扩大采样范围,从8个香蕉点位采集24条抓取轨迹,3个盘子点位采集24条放置轨迹。拿起瓶子并向杯中倒水端到端方法:从3个瓶子点位和3个杯子点位采集27条轨迹。所提方法:分解为9条抓取瓶子轨迹和9条倒水轨迹,确保数据分布一致。进一步扩大采样范围,从9个瓶子点位采集27条抓取轨迹,9个杯子点位采集27条倒水轨迹。拿起笔并放入笔筒端到端方法:从4个笔点位和2个笔筒点位采集24条轨迹。所提方法:分解为12条抓取笔轨迹和6条放置笔轨迹,保持数据分布一致。进一步扩大采样范围,从8个笔点位采集24条抓取轨迹,3个笔筒点位采集24条放置轨迹。按指定顺序抓取积木(红、绿、蓝)端到端方法:采集10条轨迹,固定积木位置,按顺序抓取红色、绿色、蓝色积木。所提方法:为匹配端到端数据量,分别采集10条抓取红色、绿色、蓝色积木轨迹,共30条。业内首个具身智能原子技能库架构任务定义与可视化实验结果 前三个任务用于验证所提方法在数据效率和操作性能上的表现,第四个任务则评估其新任务适应能力。为确保公平性,每种实验设置均在Octo和RDT-1B上进行10次测试,对比端到端方法与所提方法(“Ours”和“Ours-plus”)。

如表1所示,“End-To-End”:原始端到端VLA方法;“Ours”:保持数据分布一致,但数据量更小;“Ours-plus”:保持数据量一致,但采集更多点位;“ID”:任务点位在训练数据分布内;“OOD”:任务点位超出训练数据分布。在第四个任务中,设定红-绿-蓝顺序抓取积木为已知任务,并采集数据训练模型。针对其他颜色顺序的未知任务,直接调用已训练的技能进行测试,以评估方法的泛化能力(见表2)。结果分析如下:

Q1: 从表1可见,Octo和RDT-1B在使用所提方法后,成功率与端到端方法相当甚至更高。在拿起瓶子并向杯中倒水任务中,OOD测试成功率提升20%,表明该方法在相同点位分布下,减少数据需求同时提升性能。业内首个具身智能原子技能库架构表1:与原始端到端方法实验结果对比Q2: 在相同数据量下,所提方法显著提升成功率。例如,在拿起香蕉并放入盘子任务中,OOD情况下成功率提高40%,归因于从更多点位采集数据,增强模型泛化能力。Q3: 从表2可见,端到端方法仅适用于已知任务,无法泛化新任务,而所提方法能通过已有技能组合成功执行不同的新任务业内首个具身智能原子技能库架构表2:与原始端到端方法方块抓取任务实验结果对比Q4: 表1和表2进一步验证,所提方法在多种VLA模型上均提升数据效率、操作性能和新任务适应能力,适用于不同模型的泛化与优化。 小结团队提出的一种基于三轮数据驱动的原子技能库构建框架,旨在解决传统端到端具身操作策略带来的“数据爆炸”问题,为具身智能产业应用提供创新解决方案。

该框架具有广泛价值,可用于提升物流仓储、智能制造、医疗辅助等领域的自动化水平。例如,在医疗辅助和服务机器人领域,它能够增强自主交互能力,助力精准操作。

希望此项工作能够为行业提供重要启示,促进学术界与产业界的深度合作,加速具身智能技术的实际应用。我们诚挚邀请有兴趣的合作伙伴,与我们一起探索具身智能的未来。如果您对具身触觉模态、基于强化学习的运控与操作等领域感兴趣,欢迎与lidongjiang5@jd.com联系。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

68

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

162

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

84

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

113

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

29

2026.03.03

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

79

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

62

2026.02.28

Golang 性能分析与运行时机制:构建高性能程序
Golang 性能分析与运行时机制:构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面,深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略,并结合实际案例剖析 Go 程序的运行时行为,帮助开发者掌握构建高性能应用的关键技能。

51

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 1.1万人学习

【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号