google deepmind 推出的 ai 项目「project genie」已于本周四起,面向美国地区 google ai ultra 订阅用户开启抢先体验通道。用户只需输入简短文字指令,或上传任意图片,系统即可即时生成一个具备可操作性与探索性的互动游戏世界。
该项目深度融合了 Google 最新发布的 Genie 3 世界模型、Nano Banana Pro 图像生成模型,以及 Gemini 智能系统。DeepMind 表示,此次开放测试旨在获取真实用户的使用反馈与高质量训练数据,以持续优化世界模型性能,并加快技术迭代进程。

延伸阅读:
马斯克传重组三大事业帝国!SpaceX、xAI、特斯拉酝酿世纪大合併
所谓“世界模型”,指的是能够对物理或虚拟环境构建内部表征,并据此预测未来状态、规划智能行为的一类人工智能系统。DeepMind 此次选择从电子游戏等轻量级娱乐场景切入,后续将逐步拓展至高保真模拟环境,用于机器人感知与决策训练,最终服务于通用人工智能(AGI)的长期愿景。
当前,全球范围内世界模型研发已进入白热化阶段。AI 领域权威学者李飞飞(Fei-Fei Li)创立的 World Labs 去年底正式发布首款商用产品 Marble;新兴 AI 视频生成公司 Runway 近期亦公开其自研世界模型;而 Meta 前首席科学家杨立昆(Yann LeCun)联合创办的 AMI Labs,也将该方向列为战略级核心技术布局重点。
不过,DeepMind 团队坦承,Project Genie 目前仍处于早期实验阶段:系统表现存在显著波动——有时可生成逻辑严密、细节丰富的沉浸式世界,有时却会产出难以理解的异常结果。在操作流程上,用户需首先通过文字描述设定基础环境与主角特征,完成“世界素描(World sketch)”;随后 Nano Banana Pro 将据此生成初始图像,Genie 则以此为起点构建完整互动世界。实测显示,尽管局部修改功能基本可用,但偶发偏差仍较明显,例如明确要求“绿色头发”却输出紫色发色。
用户亦可上传真实照片作为生成基底,但效果因图而异。一旦图像通过审核,Project Genie 仅需数秒即可输出可供实时探索的三维世界。受限于高昂算力开销,目前每轮体验严格限定为 60 秒——项目负责人弗鲁赫特解释称,Genie 3 属于自回归模型(Autoregressive model),推理过程资源密集,限时机制旨在保障更多用户公平参与体验。
安全层面,系统已部署多重内容过滤与合规审查机制(Guardrails),明确禁止生成裸露内容、涉及迪士尼等受版权保护的 IP 元素。与此同时,交互自然度亦是当前重点攻坚方向:测试中曾出现角色穿墙、碰撞检测失效等问题;WASD 导航键响应偶有延迟或方向错位。弗鲁赫特强调,这仅为初步原型,团队后续将持续提升画面写实性、物理一致性及人机交互流畅度。










