acm-header
登录

ACM通信

研究突出了

技术视角:神经辐射场在现场爆炸


神经辐射场场景表示

想象一下,你可以捕捉一个3D场景,然后从不同的角度重新审视这个场景,也许可以看到在捕捉时展开的动作。我们习惯于拍摄2D照片或视频,然后将其紧凑地存储在手机或云端。相比之下,3D捕获的相应过程是相当繁琐的。传统上,它包括拍摄大量的场景图像,应用摄影测量技术重建一个密集的表面重建,然后手动清理。然而,结果可以是壮观的,已经被用来传达一个地方的感觉,否则不可能用2D摄影,例如,最近的互动功能从《纽约时报》。

最近,许多研究人员研究了深度神经网络的革命能否让每个人都能获得同样的能力,并让它像抓拍2D照片一样简单。其中一项技术——神经体绘制技术——在2020年突然出现在了人们的视野中,这是由下面一篇关于神经辐射场(NeRF)的令人印象深刻的论文引发的。这种新方法以多幅图像作为输入,以深度、完全连接的神经网络的形式生成三维场景的紧凑表示,其权重可以存储在一个不比典型压缩图像大多少的文件中。这种表示可以用来渲染场景的任意视图,具有惊人的准确性和细节。

神经体绘制指的是深度图像或视频生成方法,将光线追踪到场景中,并对光线的长度进行某种积分。通常情况下,一个完全连接的神经网络将一个函数从射线上的3D坐标编码为密度和颜色等数量,然后将其集成生成图像。Lombardi等人在论文中介绍了用于视图合成的神经体绘制的早期版本,2回归密度和颜色的3D体积,尽管仍然是基于体素的表示。

NeRF的直接前身是使用神经网络来定义隐式3D曲面表示的方法。许多3d感知的图像生成方法使用体素、网格、点云或其他表示。但在2019年的CVPR上,至少有三篇论文介绍了使用神经网络作为标量函数近似器来定义占用和/或有符号距离函数:占用网络,3.IM-NET,1和DeepSDF。4到目前为止,许多论文都建立在隐式函数思想的基础上。

然而,NeRF的文件是所有人都在谈论的。本质上,Mildenhall等人采用了Deep-SDF架构,但直接回归了密度、颜色和用途。然后,他们使用一种易于微分的数值积分方法来近似真实的体积绘制步骤。NeRF模型存储一个体积场景表示作为一个MLP的权重,训练的图像具有已知的姿势。新的视图是通过沿着每条观看射线的规则间隔整合密度和颜色来呈现的。

NeRF的论文于2020年3月首次出现在Arxiv上,引发了人们的兴趣,这不仅是因为合成视图的质量,也因为可视化深度图中令人难以置信的细节。可以说,这篇论文的影响在于它的简单:一个多层感知器接受5D坐标并输出密度和颜色。它有一些花哨的功能,特别是位置编码和分层抽样方案,但许多研究人员对如此简单的体系结构可以产生如此令人印象深刻的结果印象深刻。另一个原因是“香草NeRF”文件提供了许多改进的机会。的确,无论是训练还是渲染,它都很慢;它只能表示静态场景;它在灯光下“烘烤”;最后,它是特定场景的,也就是说,它不一般化。

在快速发展的计算机视觉社区中,这些机会几乎立即得到了利用。一些项目/论文旨在改善NeRF论文中相当缓慢的训练和渲染时间,更多的努力集中在动态场景上,使用各种方案,使任意视点视频渲染成为可能。nerf风格方法的另一个增强方面是如何处理照明,通常是通过可用于重新照亮场景的潜码,而其他研究人员使用潜码对形状进行泛化,因此可以从更少的图像进行训练。最后,一个令人兴奋的新领域是如何支持合成来实现更复杂、动态的场景。

总而言之,神经体绘制在社区中引起了极大的兴趣,可以预期的是,它的成果很快就会出现在你身边的智能手机上。

回到顶部

参考文献

1.陈铮,张浩。生成式形状建模中的隐式学习域。在计算机视觉和模式识别IEEE/CVF会议论文集, 2019, 5939 - 5948。

2.Lombardi, S.等。神经体块:从图像中学习动态可渲染体块。ACM反式。图。(2019)。

3.Mescheder, L.等。A.占用网络:学习功能空间的三维重建。在IEEE/CVF会议论文集。计算机视觉和模式识别,2019年。

4.Park, J.J.等人。DeepSDF:学习用于形状表示的连续符号距离函数。在IEEE/CVF会议论文集。计算机视觉和模式识别, 2019, 165 - 174。

回到顶部

作者

弗兰克Dellaert是美国乔治亚州亚特兰大市乔治亚理工学院交互计算学院的教授。

回到顶部

脚注

要查看随附的论文,请访问doi.acm.org/10.1145/3503250


版权归作者所有。
向所有者/作者请求(重新)发布权限

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有发现记录

登录为完全访问
»忘记密码? »创建ACM Web帐号
文章内容:
Baidu
map