xiaomi-robotics-0是什么
xiaomi-robotics-0是小米推出的首款开源机器人vla(视觉-语言-动作)大模型,参数规模达47亿,采用创新的mot混合架构设计:以qwen3-vl多模态大模型作为“大脑”,负责理解图像与自然语言指令;以diffusion transformer作为“小脑”,专精于高频动作块的生成。该模型首次引入异步执行机制与Λ-shape注意力掩码技术,有效缓解因推理耗时引发的动作卡顿问题,实现在消费级gpu上的实时、稳定、流畅控制。在libero、calvin等主流机器人仿真评测基准中均创下新sota纪录,并已成功部署于真实双臂机器人平台,完成积木拆解、毛巾折叠等具身操作任务。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Xiaomi-Robotics-0的核心能力
- 语义级指令解析:可准确理解口语化、模糊甚至隐含意图的自然语言指令,并结合视觉输入推断空间布局与操作目标。
- 高保真动作序列输出:生成连续、平滑、物理可行的动作轨迹,支撑机器人执行毫米级精度的实体交互任务。
- 实时异步推理与执行:支持动作执行与下一阶段推理同步进行,利用Clean Action Prefix将已完成动作作为条件输入,保障运动时序完整性。
- 双臂协同作业能力:具备双手协调规划与执行能力,胜任需多自由度配合的长周期复杂任务,如积木结构分解、柔性布料整理等。
- 在线策略自适应:面对抓取失败、物体滑移或环境扰动等异常情况,能动态调整动作策略,提升系统鲁棒性与泛化性。
- 通用多模态认知保留:在专注机器人控制的同时,完整维持视觉问答、目标检测、场景理解等基础多模态能力,避免训练过程中的灾难性遗忘。
Xiaomi-Robotics-0的技术实现原理
- MoT混合架构设计:由Qwen3-VL-4B多模态模型(“大脑”)处理跨模态感知与语义理解,Diffusion Transformer(“小脑”)专注动作建模与生成,整体参数量为47亿,在通用智能与具身控制之间取得高效平衡。
- 两阶段渐进式训练范式:第一阶段通过Action Proposal机制引导VLM对齐动作分布与视觉语言特征空间,融合机器人操作数据与通用多模态数据,防止知识覆盖;第二阶段冻结VLM权重,仅优化DiT模块,借助流匹配(Flow Matching)从噪声中逐步还原高质量动作序列。
- 异步执行引擎:在机器人执行当前动作片段的同时,后台并行启动下一动作块的推理流程,以前一动作块的输出作为Clean Action Prefix注入新推理过程,确保动作轨迹无缝衔接,从根本上规避延迟导致的动作断裂。
- Λ-shape注意力掩码机制:替代传统因果注意力掩码,允许噪声token有限度地关注紧邻的历史动作前缀以实现动作过渡平滑,同时严格禁止其访问后续位置信息,强制模型聚焦当前视觉观测信号,显著增强对突发环境变化的响应能力与动作原创性。
Xiaomi-Robotics-0的官方资源入口
- 项目主页:https://www.php.cn/link/fb68f525a19d89290c6979ed51af3110
- GitHub代码仓库:https://www.php.cn/link/8d661ad44b835f29a6494c184c21a463
- HuggingFace模型中心:https://www.php.cn/link/105aac7339ea6074ed9d912c0d10d67e
- 论文原文下载:https://www.php.cn/link/fb68f525a19d89290c6979ed51af3110assets/paper.pdf
Xiaomi-Robotics-0的典型应用方向
- 高端工业装配:可稳定拆解含20余个组件的精密积木式结构,适用于消费电子模组组装、汽车线束安装等高一致性要求场景。
- 智能家庭服务:支持主动抖展毛巾、识别并归位遮挡物、判断清洁区域完整性,广泛适配居家照护、银发辅助及日常家务自动化。
- 柔性仓储物流:凭借对异形、易变形、低纹理商品的强适应性动作生成能力,满足电商分拣、冷链包装、退货复核等多样化作业需求。
- 高校科研与教学实践:提供开箱即用的具身智能基座,助力学术界开展VLA算法研究、机器人强化学习探索、多模态具身导航开发及实验教学演示。
- 前沿技术展示与商业落地:已在展厅导览、零售门店互动、新品发布会等场景完成部署,展现毫秒级响应、零卡顿协作的人机共融体验,强化企业技术品牌势能。











