Solaris是什么
solaris 是首个面向多人视频世界的生成式模型,专为 minecraft 环境设计,可同步生成两名玩家一致的第一人称视角视频。该模型突破了当前主流世界模型仅支持单玩家视角的限制,实现了跨玩家视角的空间一致性——例如当一名玩家放置方块或移动位置时,另一名玩家所见画面将实时、准确地呈现对应变化。研发团队自主研发了 solarisengine 数据采集系统,累计构建涵盖 1260 万帧的高质量多人游戏交互数据集,并创新提出 checkpointed self forcing 训练范式,有效缓解长序列建模中的显存压力与误差累积问题。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Solaris 的核心能力
- 双视角协同生成:支持同时输出两位玩家高度一致的第一人称视频流,确保空间结构、物体状态及动态事件在不同视角下严格对齐;任一玩家的动作(如挖掘、跳跃、转向)均能在另一视角中即时、合理地体现。
- 长程时序可控生成:依托 Checkpointed Self Forcing 技术,Solaris 可稳定生成长达 224 帧(即 11.2 秒)的连贯视频序列,显著抑制传统自回归方法中因逐步预测导致的画面漂移与结构崩塌。
- 细粒度动作驱动:全面兼容 Minecraft 全套原生操作指令,包括角色移动、视角旋转、方块交互(挖掘/放置)、物品使用等,生成内容严格遵循输入的动作轨迹与时序逻辑。
- 高保真动态建模:能够精准复现背包物品同步更新、昼夜与天气切换、物理性建造/破坏过程、PvP 实时对抗等复杂游戏机制,体现真实世界交互的因果性与反馈闭环。
Solaris 的技术实现
- 多视角 DiT 主干架构:基于 MatrixGame 2.0 单玩家扩散 Transformer 进行扩展,通过增大动作嵌入维度适配完整 Minecraft 操作空间;新增跨玩家自注意力模块以建模双视角间空间依赖关系,并引入玩家身份标识嵌入(Player ID Embedding)区分视角来源;其余组件(如交叉注意力层、前馈网络)沿用原始单玩家配置以保持稳定性。
- 四阶段渐进式训练流程:起始于单玩家预训练权重,在 VPT 数据集上完成 Minecraft 动作空间适配微调;随后迁移至多人数据,训练双向教师模型;进一步将其因果化改造为滑动窗口生成器;最终通过 Checkpointed Self Forcing 实现端到端长序列优化。
- Checkpointed Self Forcing 机制:针对滑动窗口自回归推理中 KV 缓存随长度线性增长的内存瓶颈,该方法先无梯度前向生成并缓存关键帧及其噪声中间态,再借助定制化注意力掩码实现单次并行重计算,在完全复现原有依赖路径的前提下,将内存复杂度由 O(Lt⋅Ls) 降至 O(Lt),同时支持 KV 缓存梯度回传,兼顾效率与生成质量。
- SolarisEngine 多人数据引擎:为解决现有采集框架不支持多视角同步的问题,团队设计了基于 Mineflayer 控制器与官方 Minecraft 客户端解耦的相机采集架构,结合服务器端插件实现毫秒级状态广播,并采用 Docker 容器集群进行分布式部署与故障自愈,最终构建出含精确动作标注的 1260 万帧多人协作数据集。
Solaris 的项目资源
- 官方网站:https://www.php.cn/link/303d09a481bce164f789fd69627aaf49
- GitHub 开源仓库:https://www.php.cn/link/2c90f710b89e811f1368d0a48804d255
- HuggingFace 模型中心:https://www.php.cn/link/fa0b77ceb5f375388fba9a76d7d6d953
- arXiv 技术论文:https://www.php.cn/link/d9a6450167c18f401d004d1ed5c4d52c
Solaris 的典型应用方向
- 具身智能的仿真训练平台:作为可扩展、高可控的多智能体世界模拟器,为机器人导航、游戏 AI 决策等任务提供低成本、高安全性的合成训练环境,支撑策略学习、推理时规划及鲁棒性评估。
- 多智能体协同行为研究:支持构建共建、共战、分工协作等多样化多人任务场景,用于探索 AI 代理间的隐式通信、角色分配、共识形成等社会性智能涌现机制。
- 视觉-语言-动作联合建模基础设施:可批量产出大规模、多视角、强对齐的视频-动作-文本三元组数据,填补真实人类多人交互数据稀缺的空白,服务于 VLA(Vision-Language-Action)模型的预训练与领域适配。
- 三维空间理解能力评测基准:作为可编程、可干预的可控测试沙盒,可用于定量评估模型在视角一致性维持、物体持久性建模、空间记忆与推理等关键三维认知能力上的表现水平。










