本学习报告基于《Volume Rendering of Neural Implicit Surfaces》,该文献发表时间为2021年,由以色列魏茨曼科学研究所与脸书人工智能研究团队共同完成。作者介绍了VolSDF,一个神经隐式表面体积渲染框架。通过将体积密度表示为有符号的距离函数(signed distance function,SDF),提高几何表示、神经体积渲染重建的效果。实验过程中使用DTU和BlendedMVS这两个数据集重建表面,并且将重建结果与NeRF、NeRF++、IDR方法对比来证明VolSDF的有效性。
体积渲染是一种通过体积渲染积分在光场中渲染体积密度的技术。最新的研究表明,将密度场和光场表示为神经网络可以通过仅从一组稀疏的输入图像进行学习来实现对新视角的预测(NeRF)。NeRF将神经隐式函数与体积渲染相结合,以实现真实感渲染。然而,从预测密度中提取表面的适当阈值具有一定的难度,恢复的几何形状远不尽如人意。此外,使用从另一个网络近似的不透明度函数沿光线采样点以渲染像素,而不保证正确近似。
在三维重建的相关研究中,许多重建方法,如NLR(Neural Lumigraph Rendering)、DVR(Differentiable Volumetric Rendering),都使用神经网络隐式地表示场景的几何形状,使对象表面渲染过程可微,这种表示方式被称为神经隐式表面。这些重建方法的主要缺点是他们需要能够将对象与背景分离的遮罩。此外,直接学习渲染表面容易渲染出与真实对象无关的部分,而体积渲染可以避免这些问题。
作者为了改进神经体积渲染中的几何表示和重构,结合体积渲染和神经隐式表面的优点提出了VolSDF,为神经体积渲染设计一个不同的模型,从而保持视图合成质量的同时更好地接近场景的几何形状。
图1 VolSDF:给定一组输入图像(左图),学习由有符号距离函数(中间右图)定义的体积密度(中间左图),以生成神经渲染(右图)。密度的这种定义有助于高质量的几何体重建。
SDF的边界表示:
σ(x) 为体积密度函数,将体积密度函数转换为SDF表示:
Ψβ是拉普拉斯分布的累积分布函数(CDF):
将体积密度函数转换为SDF有两个好处。首先,它为表面几何提供了有用的归纳偏差,并为重建表面提供了一种原则性方法。这与以前的工作形成鲜明对比,即重建被选为学习密度的任意级别集。其次,有助于约束渲染体积的不透明度误差,这是体积渲染管线中的关键组成部分。这与以前的方法再次相反,在以前的方法中,很难为一般的MLP密度设计这样的边界。
在体积渲染中,考虑从摄像机位置C向方向V发射出光线X。从本质上讲,体积渲染是所有关于近似于沿着这一射线到达相机的集成光辐射。其中有两个重要的参数:透明度T和光场L。
体积沿x射线的透明度函数T(t),表示一个光粒子成功穿过段[c, x(t)]而不反弹的概率。
O(t)为T(t)的补充概率,在场景中可以将O看作是拉普拉斯累积分布函数(Laplace’s cumulative distribution function, CDF)
从而得到概率密度函数(Probability Density Function, PDF)
最终得到体积渲染方程,其中n(t) = ∇xdΩ(x(t))
系统由两个多层感知器(MLP)组成,并且假设场景中的密度无限均匀。用θ∈Rp表示模型中所有可学习参数的集合,θ=(ϕ,ψ,β)。输入数据由一组带有相机参数的图像组成,对于每一个像素p都有三个参数(Ip,cp,vp)。其中Ip是它的RGB颜色,cp是相机的位置,vp是相机的方向。实验中BatchSize为1024,学习率为0.1。
训练损失由两部分组成:
LRGB(θ) 为颜色损失,LSDF(ϕ)为Eikonal损耗,用于近似有符号距离函数。
作者在多视角三维表面重建的实验中使用了DTU和BlendedMVS两个数据集,这两个数据集它们都包含从多个视角捕获的具有不同材质的真实对象。
DTU 数据集包含具有固定相机和照明参数的不同对象的多视图;BlendedMVS 数据集包含从多个视图捕获的 113 个场景的大量集合。它提供用于评估、各种相机配置和各种室内/室外真实环境的高质量地面实况 3D 模型。BlendedMVS数据集与DTU数据集不同,BlendedMVS场景具有复杂的背景。
表1 DTU数据集的量化结果
图2 在DTU数据集中重建物体的几何形状的质量结果
由表1和图2可以发现VolSDF方法与IDR方法不相上下,并且在重建精度方面优于NeRF和COLMAP,渲染质量与NeRF在同一水平。
表2 BlendedMVS数据集的量化结果
图3 在BlendedMVS数据集中重建的质量结果
作者在BlendedMVS数据集中选择了9个不同的场景,使用VolSDF重建每个对象的表面,并与NeRF++对比。表2和图5显示了VolSDF和NeRF的重建结果,由此可以看出VolSDF大大改善了NeRF的重建结果,同时可以保证渲染质量在同一个水平上。
图4 VolSDF重建失败的结果
尽管VolSDF相比NeRF能够提高重建质量,但是VolSDF还是存在不足。如图4所示,第一,在不可见的区域无法重建较好的几何形状,如(a)图天使头部和(b)图雪人的背面。第二,在相同材质且无纹理的区域难以准确重建,如(c)图中白色背景桌面。
图4 几何和光场的分离在VolSDF中成功,而在NeRF中失败。
作者通过交换两个训练场景的光场,测试了场景中几何和光场的分离。作者在实验中测试了两个版本的NeRF几何和光场的分离:第一,交换经过训练的NeRF网络的原始光场。第二,用作者的光场替换NeRF模型的光场。如图4所示,两个版本的NeRF都无法在这些场景中产生正确地将几何和光场分离,而 VolSDF 成功地切换了两个对象的材质。
作者结合体积渲染和神经隐式表面的优点提出了VolSDF,一个神经隐式表面的体积渲染框架。关键思想是将密度表示为到场景曲面的有符号距离的函数,这个方法提供了一个有用的归纳偏差,允许几何和光场分离,并比以前的神经体积渲染技术改进了几何近似。此外,它允许限制不透明度近似误差,从而保持体渲染积分的高保真采样。
论文地址:https://arxiv.org/abs/2106.12052
项目地址:https://github.com/ventusff/neurecon
参考文献
[1] Yariv L, Gu J, Kasten Y, et al. Volume rendering of neural implicit surfaces[J]. arXiv preprint arXiv:2106.12052, 2021.
[2] Mildenhall B, Srinivasan P P, Tancik M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[C]//European Conference on Computer Vision. Springer, Cham, 2020: 405-421.
撰稿人:许景星
审稿人:罗胜舟