0

0

Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染

PHPz

PHPz

发布时间:2023-04-11 13:10:03

|

1662人浏览过

|

来源于51CTO.COM

转载

最近,由Meta和卡内基梅隆大学提出的6-DoF视频表征模型——HyperReel,可能预示着一个全新的VR「杀手级」应用即将诞生!

所谓「六自由度视频」(6-DoF),简单来说就是一个超高清的4D体验式回放。

其中,用户可以完全「置身于」动态场景里面,并且可以自由地移动。而当他们任意改变自己的头部位置(3 DoF)和方向(3 DoF)时,与之相应的视图也会随之生成。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文地址:https://arxiv.org/abs/2301.02238

与之前的工作相比,HyperReel最大的优势在于内存和计算效率,而这两点对于便携式VR头显来说都至关重要。

而且只需采用vanilla PyTorch,HyperReel就能在单张英伟达RTX 3090上,以每秒18帧的速度实现百万像素分辨率的渲染。

图片

太长不看版:

1. 提出一种可在高分辨率下实现高保真度、高帧率的渲染的光线条件采样预测网络,以及一种紧凑且内存高效的动态体积表征;

2. 6-DoF视频表征方法HyperReel结合了以上两个核心部分,可以在实时渲染百万像素分辨率的同时,实现速度、质量和内存之间的理想平衡;

3. HyperReel在内存需求、渲染速度等多个方面均优于其他方法。

论文介绍

体积场景表征(volumetric scene representation)能够为静态场景提供逼真的视图合成,并构成了现有6-DoF视频技术的基础。

然而,驱动这些表征的体积渲染程序,需要在质量、渲染速度和内存效率方面,进行仔细的权衡。

现有的方法有一个弊端——不能同时实现实时性能、小内存占用和高质量渲染,而在极具挑战性的真实场景中,这些都是极为重要的。

为了解决这些问题,研究人员提出了HyperReel——一种基于NeRF技术(神经辐射场)的6-DoF视频表征方法。

其中,HyperReel的两个核心部分是:

1. 一个光线条件下的采样预测网络,能够在高分辨率下进行高保真、高帧率的渲染;

2. 一个紧凑且内存高效的动态体积表征。

与其他方法相比,HyperReel的6-DoF视频管线不仅在视觉质量上表现极佳,而且内存需求也很小。

同时,HyperReel无需任何定制的CUDA代码,就能在百万像素分辨率下实现18帧/秒的渲染速度。

图片

具体来说,HypeReel通过结合样本预测网络和基于关键帧的体积表征法,从而实现了高渲染质量、速度和内存效率之间的平衡。

其中的样本预测网络,既能加速体积渲染,又能提高渲染质量,特别是对于具有挑战性的视图依赖性的场景。

而在基于关键帧的体积表征方面,研究人员采用的是TensoRF的扩展。

这种方法可以在内存消耗与单个静态帧TensoRF大致相同的同时,凑地表征了一个完整的视频序列。

图片

实时演示

接下来,我们就实时演示一下,HypeReel在512x512像素分辨率下动态和静态场景的渲染效果。

值得注意的是,研究人员在Technicolor和Shiny场景中使用了更小的模型,因此渲染的帧率大于40 FPS。对于其余的数据集则使用完整模型,不过HypeReel仍然能够提供实时推理。

图片Technicolor

图片Shiny

图片Stanford

图片Immersive

DoNeRF

实现方法

文心大模型
文心大模型

百度飞桨-文心大模型 ERNIE 3.0 文本理解与创作

下载

为了实现HeperReel,首先要考虑的问题,就是要优化静态视图合成的体积表征。

像NeRF这样的体积表征,就是对静态场景在3D空间中的每一个点的密度和外观,进行建模。

更具体地说,通过函数图片将位置x和方向图片沿着⼀条射线映射到颜色图片和密度σ(x)。

此处的可训练参数θ,可以是神经网络权重、N维数组条目,或两者的组合。​

然后就可以渲染静态场景的新视图

图片

其中图片表征从o到图片的透射率。​

在实践中,可以通过沿给定射线获取多个样本点,然后使用数值求积来计算方程式1:

图片

其中权重图片指定了每个样本点的颜色对输出的贡献。​

体积渲染的网格示例

在静态场景的HyperReel中,给定一组图像和相机姿势,而训练目标就是重建与每条光线相关的测量颜色。

大多数场景是由实体物体组成的,这些物体的表面位于3D场景体积内的一个2D流形上。在这种情况下,只有一小部分样本点会影响每条光线的渲染颜色。

因此,为了加速体积渲染,研究人员希望只对非零图片的点,查询颜色和不透明度。

如下图所示,研究人员使用前馈网络来预测一组样本位置图片。具体来说,就是使用样本预测网络图片将射线图片映射到样本点图片,以获取体积等式2中的渲染。

​这里,研究人员使用Plucker的参数化来表征光线。​​

图片

但是这其中有一个问题:给网络太多的灵活性,可能会对视图合成质量产生负面影响。例如,如果(x1, . . . , xn) 是完全任意的点,那么渲染可能看起来不是多视图⼀致的。

为了解决这个问题,研究人员选择用样本预测网络来预测一组几何基元G1, ..., Gn的参数,其中基元的参数可以根据输入射线的不同而变化。为了得到样本点,将射线与每个基元相交。

图片

如图a所示,给定源自相机原点o并沿方向ω传播的输入光线后, 研究人员首先使用Plucker坐标,重新对光线进行参数化。

图片

如图b所示,一个网络将此射线作为输入,输出一组几何基元{}(如轴对齐的平面和球体)和位移矢量{}的参数。​​

图片

如图c所示,为了生成用于体积渲染的样本点{图片},研究人员计算了射线和几何基元之间的交点,并将位移矢量添加到结果中。预测几何基元的好处是使采样信号平滑,易于插值。

位移矢量为采样点提供了额外的灵活性,能够更好地捕捉到复杂的视线依赖的外观。​

图片

如图d所示,最终,研究人员通过公式2进行体积渲染,产生一个像素颜色,并根据相应的观察结果,对它进行了监督训练。

基于关键帧的动态体积

通过上述办法,就可以有效地对3D场景体积进行采样。

如何表征体积呢?在静态情况下,研究人员使用的是内存有效的张量辐射场(TensoRF)方法;在动态情况下,就将TensoRF扩展到基于关键帧的动态体积表征。

下图解释了从基于关键帧的表征中,提取动态的样本点表征的过程。

图片

如图1所示,首先,研究人员使用从样本预测网络输出的速度{},将时间处的样本点{}平移到最近的关键帧中。

图片

然后,如图2所示,研究人员查询了时空纹理的外积,产生了每个样本点的外观特征,然后通过公式10将其转换成颜色。

通过这样的过程,研究人员提取了每个样本的的不透明度。​

图片

结果对比

静态场景的比较

在此,研究人员将HyperReel与现有的静态视图合成方法(包括NeRF、InstantNGP和三种基于采样网络的方法)进行了比较。

  • DoNeRF数据集

DoNeRF数据集包含六个合成序列,图像分辨率为800×800像素。

如表1所示,HyperReel的方法在质量上优于所有基线,并在很大程度上提高了其他采样网络方案的性能。

同时,HyperReel是用vanilla PyTorch实现的,可在单张RTX 3090 GPU上以6.5 FPS的速度渲染800×800像素的图像(或者用Tiny模型实现29 FPS的渲染)。

此外,与R2L的88层、256个隐藏单元的深度MLP相比,研究人员提出的6层、256个隐藏单元的网络外加TensoRF体积骨干的推理速度更快

图片

  • LLFF数据集

LLFF数据集包含8个具有1008×756像素图像的真实世界序列。

如表1所示,HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP,但取得的质量比NeRF略差。

由于错误的相机校准和输入视角的稀疏性,这个数据集对显式体积表征来说是一个巨大的挑战。

图片

动态场景的比较

  • Technicolor数据集

Technicolor光场数据集包含了由时间同步的4×4摄像机装置拍摄的各种室内环境的视频,其中每个视频流中的每张图片都是2048×1088像素。

研究人员将HyperReel和Neural 3D Video在全图像分辨率下对这个数据集的五个序列(Birthday, Fabien, Painter, Theater, Trains)进行比较,每个序列有50帧长。

如表2所示,HyperReel的质量超过了Neural 3D Video,同时每个序列的训练时间仅为1.5个小时(而不是Neural 3D的1000多个小时),并且渲染速度更快。

  • Neural 3D Video数据集

Neural 3D Video数据集包含6个室内多视图视频序列,由20台摄像机以2704×2028像素的分辨率拍摄。

如表2所示,HyperReel在这个数据集上的表现超过了所有的基线方法,包括NeRFPlayer和StreamRF等最新工作。

特别是,HyperReel在数量上超过了NeRFPlayer,渲染速度是其40倍左右;在质量上超过了StreamRF,尽管其采用Plenoxels为骨干的方法(使用定制的CUDA内核来加快推理速度)渲染速度更快。

此外,HyperReel平均每帧消耗的内存比StreamRF和NeRFPlayer都要少得多。

  • 谷歌Immersive数据集

谷歌Immersive数据集包含了各种室内和室外环境的光场视频。

如表2所示,HyperReel在质量上比NeRFPlayer的要好1 dB,同时渲染速度也更快。

图片

有些遗憾的是,HyperReel目前还没有达到VR所要求的渲染速度(理想情况下为72FPS,立体声)。

不过,由于该方法是在vanilla PyTorch中实现的,因此可以通过比如自定义的CUDA内核等工作,来进一步优化性能。

图片

作者介绍

论文一作Benjamin Attal,目前在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实,以及计算成像和显示。

图片

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

32

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

23

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

16

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

5

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

6

2026.01.31

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

268

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

195

2026.01.31

无需付费的漫画app大全
无需付费的漫画app大全

想找真正免费又无套路的漫画App?本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用,涵盖国漫、日漫、韩漫及经典老番,满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

170

2026.01.31

漫画免费在线观看地址大全
漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站?本合集精选2025-2026年热门平台,涵盖国漫、日漫、韩漫等多类型作品,支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

85

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号