Xiaomi-Robotics-0— 小米开源的机器人VLA模型

碧海醫心

发布时间：2026-02-15 11:12:11

470人浏览过

来源于php中文网

原创

xiaomi-robotics-0是什么

xiaomi-robotics-0是小米推出的首款开源机器人vla（视觉-语言-动作）大模型，参数规模达47亿，采用创新的mot混合架构设计：以qwen3-vl多模态大模型作为“大脑”，负责理解图像与自然语言指令；以diffusion transformer作为“小脑”，专精于高频动作块的生成。该模型首次引入异步执行机制与Λ-shape注意力掩码技术，有效缓解因推理耗时引发的动作卡顿问题，实现在消费级gpu上的实时、稳定、流畅控制。在libero、calvin等主流机器人仿真评测基准中均创下新sota纪录，并已成功部署于真实双臂机器人平台，完成积木拆解、毛巾折叠等具身操作任务。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Xiaomi-Robotics-0— 小米开源的机器人VLA模型

DeepL

DeepL是一款强大的在线AI翻译工具，可以翻译31种不同语言的文本，并可以处理PDF、Word、PowerPoint等文档文件

下载

Xiaomi-Robotics-0的核心能力

语义级指令解析：可准确理解口语化、模糊甚至隐含意图的自然语言指令，并结合视觉输入推断空间布局与操作目标。
高保真动作序列输出：生成连续、平滑、物理可行的动作轨迹，支撑机器人执行毫米级精度的实体交互任务。
实时异步推理与执行：支持动作执行与下一阶段推理同步进行，利用Clean Action Prefix将已完成动作作为条件输入，保障运动时序完整性。
双臂协同作业能力：具备双手协调规划与执行能力，胜任需多自由度配合的长周期复杂任务，如积木结构分解、柔性布料整理等。
在线策略自适应：面对抓取失败、物体滑移或环境扰动等异常情况，能动态调整动作策略，提升系统鲁棒性与泛化性。
通用多模态认知保留：在专注机器人控制的同时，完整维持视觉问答、目标检测、场景理解等基础多模态能力，避免训练过程中的灾难性遗忘。

Xiaomi-Robotics-0的技术实现原理

MoT混合架构设计：由Qwen3-VL-4B多模态模型（“大脑”）处理跨模态感知与语义理解，Diffusion Transformer（“小脑”）专注动作建模与生成，整体参数量为47亿，在通用智能与具身控制之间取得高效平衡。
两阶段渐进式训练范式：第一阶段通过Action Proposal机制引导VLM对齐动作分布与视觉语言特征空间，融合机器人操作数据与通用多模态数据，防止知识覆盖；第二阶段冻结VLM权重，仅优化DiT模块，借助流匹配（Flow Matching）从噪声中逐步还原高质量动作序列。
异步执行引擎：在机器人执行当前动作片段的同时，后台并行启动下一动作块的推理流程，以前一动作块的输出作为Clean Action Prefix注入新推理过程，确保动作轨迹无缝衔接，从根本上规避延迟导致的动作断裂。
Λ-shape注意力掩码机制：替代传统因果注意力掩码，允许噪声token有限度地关注紧邻的历史动作前缀以实现动作过渡平滑，同时严格禁止其访问后续位置信息，强制模型聚焦当前视觉观测信号，显著增强对突发环境变化的响应能力与动作原创性。