高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

王林

发布时间：2024-06-04 08:37:01

1159人浏览过

来源于机器之心

转载

aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

3d重建和新视图合成技术在虚拟现实和增强现实领域有着广泛的应用。nerf通过隐式地将场景编码为射线场景，在视图合成上取得了显著的成功。然而，由于 nerf 依赖于耗时的逐点查询密集集合的渲染，导致了其实用性的极大地限制了其实用性。为了解决这一问题，出现了一些可泛化的 nerf 方法，旨在通过网络前馈的方式从多视图中重建场景。然而，由于基于 nerf 的方法需要在射线上查询密集集合的点进行渲染，因此速度受到了限制。最近，3d gaussian splatting（3d-gs）采用了各向异性 3d 高斯来显示场景，并通过微分的光栅化器实现了实时高质量的渲染。

然而，3D-GS 同样依赖于每个场景的优化，每个场景需要几十分钟的时间。为了解决这个问题，后续出现了一些泛化性的高斯重建工作，尝试将 3D-GS 推广到未见过的场景。然而，这些方法的训练和渲染效率还有待提升且主要局限于物体或人体的重建。

基于此，来自华中科技大学、南洋理工大学、大湾区大学和上海人工智能实验室的研究者联合提出了一种高效的、可泛化的高斯重建模型，称为MVSGaussian，用于未见过的一般场景的新视图合成。该模型通过将输入图像拆分为多个视图，并使用高斯过程来估计深度和纹理信息，然后使用多视图立体匹配算法来融合视图，并生成高质量的重建结果。这种方法在重建质量和计算效率方面取得了良好的平衡，为未来的视觉合成任务提供了一种新的解决方

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

论文名称：Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo
论文地址：https://arxiv.org/abs/2405.12218
项目主页：https://mvsgaussian.github.io/
代码开源：https://github.com/TQTQliu/MVSGaussian
演示视频：https://youtu.be/4TxMQ9RnHMA

该模型能够从稀疏多视角图像中学习场景的 3D 高斯表征。通过结合多视角立体（MVS）的显示格式几何推理和高斯深射实时渲染的优势，MVSGaussian 在泛化推理上表现出色，能够以最快的速度实现最佳的视图渲染质量。此外，MVSGaussian 在逐场景景优化方面也有显著优势，仅需45秒（约为3D-GS 的 1/10）即可完成高质量的实时渲染。

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 1 无论是泛化推理还是逐场景优化，MVSGaussian 在视图质量、渲染速度和优化时间都表现出了明显的优势。} 高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 2 渲染视图质量随优化时间（迭代次数）的变化对比。由于可泛化模型提供了良好的初始化，MVSGaussian 后续只需要较短的优化时间 (较少的迭代次数) 便可以实现高质量的视图合成。}

基本原理

设计一种高效的、可泛化的高斯溅射框架，我们面临以下几个关键挑战：

1）与使用隐式表示的 NeRF 不同，3D-GS 显式地使用数百万个 3D 高斯球来表达场景。将预训练的 3D-GS 应用于未见过的场景时，3D 高斯球的参数（如位置和颜色）会显著不同。设计一种通用的表征来适配 3D-GS 是一项非平凡的任务。

2）可泛化 NeRF 方法通过体渲染实现了令人印象深刻的视图合成效果。然而，高斯溅射的泛化能力尚未被充分探索。在溅射过程中，每个高斯球会对图像的某一区域内的多个像素做出贡献，同时每个像素的颜色由多个高斯球的贡献累积得到。高斯球和像素之间的颜色对应是一个更加复杂的多对多关系，这对模型的泛化能力构成了挑战。

3）可泛化的 NeRF 方法表明，对特定场景进行进一步微调可以显著改善合成视图的质量，但这需要耗费大量时间进行优化。尽管 3D-GS 比 NeRF 更快，但仍然需要较长的时间。因此，设计一种基于可泛化模型进行快速逐场景优化的方法是一个非常有前景的研究方向。

针对上述挑战，我们给出了我们的解决方案。

1）由于每个场景对应的高斯球的位置分布是不同的，因此我们利用多视角立体（MVS）显式建模场景的几何，推理得到深度。接着，我们对估计的深度所对应的 3D 点编码特征，以建立像素对齐的高斯表征。

2）基于编码的特征，我们可以通过 MLP 将其解码为高斯参数，从而利用溅射技术渲染视图。然而，我们发现这种方式的泛化能力有限。我们的见解是，溅射方式在颜色贡献方面引入了复杂的多对多关系，即高斯球与像素之间的关系，这对泛化提出了挑战。因此，我们提出了一种简单而有效的深度感知的体渲染方法来增强泛化能力，即采用单一采样点的体渲染方式。最终的渲染视图是通过对溅射技术和体渲染技术渲染的视图进行平均得到的。

3）预训练的可泛化模型可以从多个视角生成大量 3D 高斯，这些高斯点云可以作为后续逐场景优化的初始化。然而，由于 MVS 方法的固有局限性，可泛化模型预测的深度可能并不完全准确，导致生成的高斯点云中存在噪声。直接将这些高斯点云拼接在一起会产生大量噪声。此外，大量的点会降低后续优化和渲染速度。一个直观的解决方案是对拼接的点云进行降采样。然而，虽然能减少噪声，但也会减少有效点的数量。我们的见解是，一个好的聚合策略应尽可能地减少噪声点并保留有效点，同时确保点的总数不过大。为此，我们引入了一种基于多视图几何一致性的聚合策略。具体而言，我们遵循同一 3D 点在不同视角下的预测深度应具有一致性的原则，通过计算来自不同视角的高斯深度的重投影误差来滤除噪声点。

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 3 可泛化高斯溅射框架。首先使用特征金字塔网络（FPN）从输入视图中提取特征，这些特征被扭曲到目标视角，构建代价体，再通过 3D CNNs 正则化生成深度。接着，对于深度对应的 3D 点，我们通过汇聚多视图和空间信息编码特征，建立像素对齐的高斯表征。这些特征随后被解码为高斯参数和体渲染参数，通过这两种方式渲染得到两个视图，最终的结果是这两个视图的平均值。}

Sesame AI

一款开创性的语音AI伴侣，具备先进的自然对话能力和独特个性。

下载

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 4 一致性聚合。使用可泛化模型生成深度图和高斯点云，我们首先对深度图进行多视图几何一致性检查，以得到用于过滤不可靠点的 mask。随后，将经过滤的点云拼接成一个点云，作为逐场景优化的初始化。}

结果比较

本文在广泛使用的 DTU、Real Forward-facing、NeRF Synthetic 和 Tanks and Temples 数据集上进行了评估，报告了 PSNR、SSIM、LPIPS 和 FPS 等指标。在泛化推理方面（表 1 和表 2），MVSGaussian 展现出了卓越的性能，以最快的速度和最小的内存开销实现了更好的性能。在逐场景优化方面（表 3），MVSGaussian 能够在最短的优化时间内（大约是 3D-GS 的 1/10）实现最佳的视图合成效果，并且保持了与 3D-GS 相当的实时渲染速度。定性的视图和视频对比中也展示了 MVSGaussian 能够合成高质量的视图，具有更多的场景细节和更少的伪影。更多视频结果请见项目主页。

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{表 1 DTU 测试集上的泛化定量结果。}

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{表 2 Real Forward-facing、NeRF Synthetic 和 Tanks and Temples 数据集上的泛化定量结果。}

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{表 3 逐场景优化后的定量结果。}

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 5 泛化推理的结果对比。}

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 6 泛化结果的视频对比}

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 7 逐场景优化后的结果对比。}

高效、可泛化的高斯重建框架，只需3张视图即可快速推理，45秒便可完成优化

^{图 8 逐场景优化后的视频对比。}

结语

在本文中，我们提出了 MVSGaussian，这是一种新颖的可泛化高斯溅射方法，用于从多视图中重建场景。具体来说，我们利用 MVS 推理几何，建立像素对齐的高斯表征。此外，我们提出了一种混合高斯渲染方法，该方法结合了高效的深度感知体渲染以增强泛化能力。除了直接泛化推理外，我们的模型还可以针对特定场景进行快速地微调。为了实现快速优化，我们引入了一种多视图几何一致性聚合策略，以提供高质量的初始化。与通常需要数十分钟微调和几秒钟渲染每张图像的可泛化 NeRF 相比，MVSGaussian 实现了实时渲染，并具有更高的合成质量。

此外，与 3D-GS 相比，MVSGaussian 在减少训练计算成本的同时，实现了更好的视图合成效果。大量实验验证了 MVSGaussian 在泛化性能、实时渲染速度和快速逐场景优化方面达到了最先进的水平。然而，由于 MVSGaussian 依赖于多视角立体（MVS）进行深度估计，因此它继承了 MVS 的局限性，例如在纹理较弱或有镜面反射的区域深度准确性降低，导致视图质量下降。

Workbuddy如何在飞书群里使用_Workbuddy飞书群机器人配置说明【教程】

Perplexity与ChatGPT有什么区别_Perplexity核心能力介绍【介绍】

QClaw怎么用语音输入指令_QClaw微信语音消息识别与处理【方法】

ChatGPT学习编程怎么提问更高效_提示方法是什么【汇总】

ChatGPT回答太简短怎么办_ChatGPT生成更详细内容的方法【技巧】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4123

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

494

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2904

2024.08.16

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

216

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

412

2026.03.04