近日,苹果公司正式对外披露了一项代号为lito的前沿ai研究进展。该模型具备仅凭一张普通二维图像,即可生成具备真实感光照表现的完整三维物体的能力,涵盖反射、高光等随观察角度动态变化的视觉细节。这一技术突破或将对3d内容创作、虚拟现实(vr)与增强现实(ar)等领域的开发范式带来深远影响。

不同于依赖多视角图像或深度传感器数据的传统3D重建方案,LiTo引入了独创的“3D潜在空间表示”机制,将物体的几何形态与其在光照下的响应行为进行联合建模与统一编码。据研发团队介绍,模型通过对RGB-D图像中采样的表面光场信息进行学习,将其高效压缩为一组紧凑的潜在向量,并在共享的三维隐空间中同步表达物体形状与材质光学属性。得益于此,LiTo可准确还原镜面高光、菲涅尔效应等物理级光照现象,即使输入仅为单张图像,也能输出视角一致、光照连贯的高质量3D结构。
在架构设计上,LiTo采用典型的编码器-解码器框架。其中,编码器负责将输入图像映射为包含几何特征与表面光交互规律的数学化潜在表征;解码器则依据该表征,重建出完整的三维网格,并实时合成不同视角下符合物理规律的光照渲染效果。训练阶段,团队构建了一个涵盖150个视角、3类典型光照环境的合成数据集,包含数千个多样化物体;通过随机子采样策略增强模型泛化能力,使其最终可在仅提供单张图像的前提下,稳定推断出完整的三维潜在表示。

在实测对比中,LiTo在镜面反射、半透明材质等高难度光照建模任务上明显优于现有主流方法TRELLIS。苹果官方项目页面集成的交互式对比演示清晰呈现了差异:当用户旋转重建所得的3D模型时,LiTo所生成的高光位置迁移、反射强度衰减等细节均严格遵循真实光学规律;而对照模型则频繁出现高光漂移、反射断裂等违背物理常识的失真现象。











