0

0

业内首个具身智能原子技能库架构

蓮花仙者

蓮花仙者

发布时间:2025-04-28 17:36:02

|

914人浏览过

|

来源于php中文网

原创

具身智能技术的突破与应用是通向通用人工智能(agi)的必经之路,全球科技公司正加速布局,如特斯拉的optimus、agility的digit、波士顿动力的atlas及figure ai等。2023年蛇年春晚的机器人“扭秧歌”表演也成为了人们茶余饭后的谈资。随着大模型技术的进步,具身智能也在快速发展。

然而,具身智能仍面临诸多挑战,其中核心挑战在于具身操作的泛化能力,即如何在有限的具身数据下,使机器人适应复杂场景并实现技能的高效迁移。

京东探索研究院李律松、李东江博士团队发起了该项目,并联合地瓜机器人秦玉森团队、中科大徐童团队、深圳大学郑琪团队、松灵机器人及睿尔曼智能吴波团队共同推进,获得了清华RDT团队在基础方法上的技术支持。

团队提出了首个基于三轮数据驱动的原子技能库构建框架,突破了传统端到端具身操作的数据瓶颈。该方法能够动态自定义和更新原子技能,并结合数据收集与VLA少样本学习,构建高效技能库。

实验结果表明,该方案在数据效率和泛化能力方面表现卓越,是业内首个基于数据驱动的具身大模型原子技能库构建框架,也是首个面向具身产业应用的数据采集新范式,形成了数据标准,解决了当前具身智能数据缺乏的问题,尤其是高校与产业之间数据和范式的流动,推动了具身大模型的研究与落地。

在生成式AI时代,具身智能迎来了重要突破。通过跨模态融合,将文本、图像、语音等数据映射到统一的语义向量空间,为具身智能技术的发展提供了新契机。VLA(视觉-语言-动作)模型在数据可用性与多模态技术的推动下不断取得进展。

然而,现实环境的复杂性使得具身操作模型在泛化性上仍面临挑战。端到端训练依赖海量数据,导致“数据爆炸”问题,限制了VLA的发展。将任务分解为可重用的原子技能可以降低数据需求,但现有方法受限于固定技能集,无法动态更新。

为解决这一问题,团队提出了基于三轮数据驱动的原子技能库构建方法,可在仿真或真实环境的模型训练中减少数据需求。

如图所示,VLP(视觉-语言-规划)模型将任务分解为子任务,高级语义抽象模块将子任务定义为通用原子技能集,并通过数据收集与VLA微调构建技能库。随着三轮更新策略的动态扩展,技能库不断扩增,覆盖任务范围扩大。该方法将重点从端到端技能学习转向细颗粒度的原子技能构建,有效解决了数据爆炸问题,并提升了新任务的适应能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

业内首个具身智能原子技能库架构基于三轮数据驱动的原子技能库构建与推理流程为什么需要VLP?VLP需要具有哪些能力? 从产业落地的角度看,具身操作是关键模块。目前,端到端VLA进行高频开环控制,即便中间动作失败,仍输出下一阶段控制信号。因此,VLA在高频控制机器人/机械臂时,强烈依赖VLP提供低频智能控制,以指导阶段性动作生成,并协调任务执行节奏。

为统一训练与推理的任务分解,本文构建了集成视觉感知、语言理解和空间智能的VLP Agent。如图所示,VLP Agent接收任务指令文本与当前观察图像,并利用Prismatic生成场景描述。考虑到3D世界的复杂性,我们设计了一种空间智能感知策略:

首先,Dino-X检测任务相关物体并输出边界框;然后,SAM-2提供精细分割掩码,并基于规则判断物体间的空间关系;最终,这些视觉与空间信息与任务指令一同输入GPT-4,生成完整执行计划并指定下一个子任务。VLP Agent通过该方法在原子技能库构建中有效分解端到端任务,并在推理过程中提供低频控制信号,规划并指导高频原子技能的执行。

业内首个具身智能原子技能库架构基于空间智能信息的VLP Agent具身思维链框架VLA存在的问题是什么?在框架中起什么作用? VLA技术从专用数据向通用数据演进,机器人轨迹数据已达1M episodes级别;模型参数规模从千亿级向端侧部署发展;性能上,VLA从单一场景泛化至多场景,提升技能迁移能力。

尽管端到端任务采集与训练有助于科研算法优化,但在通用机器人应用中,人为定义端到端任务易导致任务穷尽问题。在单任务下,物品位置泛化、背景干扰、场景变化仍是主要挑战,即便强大预训练模型仍需大量数据克服;多任务下,数据需求呈指数级增长,面临“数据爆炸”风险。

第一团购
第一团购

第一团购软件是基于Web应用的B/S架构的团购网站建设解决方案的建站系统。它可以让用户高效、快速、低成本的构建个性化、专业化、强大功能的团购网站。从技术层面来看,本程序采用目前软件开发IT业界较为流行的ASP.NET和SQLSERVER2000数据库开发技术架构。从功能层面来看,前台首页每天显示一个服务或插产品的限时限最低成团人数的团购项目,具有邮件订阅,好友邀请,人人网、开心网、新浪微博、MSN

下载

提出的三轮数据驱动的原子技能库方法可结合SOTA VLA模型,通过高级语义抽象模块将复杂子任务映射为结构化原子技能,并结合数据收集与VLA少样本学习高效构建技能库。VLA可塑性衡量模型从多本体迁移至特定本体的能力,泛化性则评估其应对物体、场景、空间变化的表现。

以RDT-1B作品为例,我们基于6000条开源数据及2000条自有数据微调VLA模型。测试结果表明,模型在物品和场景泛化上表现优异,但在物品位置泛化方面存在一定局限,且训练步数对最终性能影响显著。为进一步优化,团队进行了两项实验包括位置泛化能力提升及训练步长优化测试。这类VLA模型性能测试对于原子技能库构建至关重要,测试结果不仅优化了Prompt设计,也进一步增强了高级语义抽象模块在子任务映射与技能定义中的精准性。为什么构建原子技能库?怎样构建? 具身操作技能学习数据源包括互联网、仿真引擎和真实机器人数据,三者获取成本递增,数据价值依次提升。在多任务多本体机器人技能学习中,OpenVLA和Pi0依托预训练VLM,再用真实轨迹数据进行模态对齐并训练技能,而RDT-1B直接基于百万级机器人真实轨迹数据预训练,可适配不同本体与任务。

无论模型架构如何,真实轨迹数据仍是关键。原子技能库的构建旨在降低数据采集成本,同时增强任务适配能力,提升具身操作的通用性,以满足产业应用需求。

基于数据驱动的原子技能库构建方法,结合端到端具身操作VLA与具身规划VLP,旨在构建系统化的技能库。VLP将TASK A, B, C, ..., N分解为Sub-task #1, #2, ..., #a+1。高级语义抽象模块基于SOTA VLA模型测试可调整任务粒度,进一步将子任务映射为通用原子技能定义1, 2, ..., b+1,并通过数据收集与VLA少样本学习,构建包含1', 2', ..., b+1'的原子技能库。

面对新任务TASK N+1,若所需技能已在库中,则可直接执行;若缺失,则触发高级语义抽象模块,基于现有技能库进行原子技能定义更新,仅需对缺失的原子技能收集额外数据与VLA微调。随着原子技能库动态扩增,其适应任务范围不断增加。

相比传统TASK级数据采集,提出的原子技能库所需要的数据采集量根据任务难度成指数级下降,同时提升技能适配能力。

实验及结果分析 验证问题在相同物体点位下采集轨迹数据,所提方法能否以更少数据达到端到端方法性能?在收集相同数量的轨迹数据下,所提方法能否优于端到端方法?面对新任务,所提方法是否能够在不依赖或者少依赖新数据的条件下仍然有效?所提方法是否适用于不同VLA模型,并保持有效性和效率?实验设置针对上述问题,我们设计了四个挑战性任务,并在RDT-1B和Octo基准模型上,以Agilex双臂机器人进行测试。实验采用端到端方法和所提方法分别采集数据,以对比两者在数据利用效率和任务泛化能力上的表现。具体实验设置如下:

拿起香蕉并放入盘子端到端方法:从4个香蕉点位和2个盘子点位采集24条轨迹。所提方法:保持数据分布一致,分解为12条抓取香蕉轨迹和6条放置香蕉轨迹。为匹配端到端数据量,进一步扩大采样范围,从8个香蕉点位采集24条抓取轨迹,3个盘子点位采集24条放置轨迹。拿起瓶子并向杯中倒水端到端方法:从3个瓶子点位和3个杯子点位采集27条轨迹。所提方法:分解为9条抓取瓶子轨迹和9条倒水轨迹,确保数据分布一致。进一步扩大采样范围,从9个瓶子点位采集27条抓取轨迹,9个杯子点位采集27条倒水轨迹。拿起笔并放入笔筒端到端方法:从4个笔点位和2个笔筒点位采集24条轨迹。所提方法:分解为12条抓取笔轨迹和6条放置笔轨迹,保持数据分布一致。进一步扩大采样范围,从8个笔点位采集24条抓取轨迹,3个笔筒点位采集24条放置轨迹。按指定顺序抓取积木(红、绿、蓝)端到端方法:采集10条轨迹,固定积木位置,按顺序抓取红色、绿色、蓝色积木。所提方法:为匹配端到端数据量,分别采集10条抓取红色、绿色、蓝色积木轨迹,共30条。业内首个具身智能原子技能库架构任务定义与可视化实验结果 前三个任务用于验证所提方法在数据效率和操作性能上的表现,第四个任务则评估其新任务适应能力。为确保公平性,每种实验设置均在Octo和RDT-1B上进行10次测试,对比端到端方法与所提方法(“Ours”和“Ours-plus”)。

如表1所示,“End-To-End”:原始端到端VLA方法;“Ours”:保持数据分布一致,但数据量更小;“Ours-plus”:保持数据量一致,但采集更多点位;“ID”:任务点位在训练数据分布内;“OOD”:任务点位超出训练数据分布。在第四个任务中,设定红-绿-蓝顺序抓取积木为已知任务,并采集数据训练模型。针对其他颜色顺序的未知任务,直接调用已训练的技能进行测试,以评估方法的泛化能力(见表2)。结果分析如下:

Q1: 从表1可见,Octo和RDT-1B在使用所提方法后,成功率与端到端方法相当甚至更高。在拿起瓶子并向杯中倒水任务中,OOD测试成功率提升20%,表明该方法在相同点位分布下,减少数据需求同时提升性能。业内首个具身智能原子技能库架构表1:与原始端到端方法实验结果对比Q2: 在相同数据量下,所提方法显著提升成功率。例如,在拿起香蕉并放入盘子任务中,OOD情况下成功率提高40%,归因于从更多点位采集数据,增强模型泛化能力。Q3: 从表2可见,端到端方法仅适用于已知任务,无法泛化新任务,而所提方法能通过已有技能组合成功执行不同的新任务业内首个具身智能原子技能库架构表2:与原始端到端方法方块抓取任务实验结果对比Q4: 表1和表2进一步验证,所提方法在多种VLA模型上均提升数据效率、操作性能和新任务适应能力,适用于不同模型的泛化与优化。 小结团队提出的一种基于三轮数据驱动的原子技能库构建框架,旨在解决传统端到端具身操作策略带来的“数据爆炸”问题,为具身智能产业应用提供创新解决方案。

该框架具有广泛价值,可用于提升物流仓储、智能制造、医疗辅助等领域的自动化水平。例如,在医疗辅助和服务机器人领域,它能够增强自主交互能力,助力精准操作。

希望此项工作能够为行业提供重要启示,促进学术界与产业界的深度合作,加速具身智能技术的实际应用。我们诚挚邀请有兴趣的合作伙伴,与我们一起探索具身智能的未来。如果您对具身触觉模态、基于强化学习的运控与操作等领域感兴趣,欢迎与lidongjiang5@jd.com联系。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

411

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

305

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

631

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

34

2025.10.21

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

31

2025.12.13

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

61

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

87

2026.01.19

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号