研究员基于HoloLens 2进行3D Gaussian Splatting即时3D场景重建

HoloLens QQ群493967447

查看引用/信息源请点击:映维网Nweon

利用Microsoft HoloLens 2数据并通过3D Gaussian Splatting进行即时3D场景重建

映维网Nweon 2024年05月09日)在摄影测量、计算机视觉和计算机图形学领域,神经三维场景重建的任务带来了针对各种技术的探索。其中,3D Gaussian Splatting因其使用3D Gaussians对场景的显式表示而脱颖而出,并使其对3D点云提取和曲面重建等任务具有吸引力。

受其潜力的激励,德国卡尔斯鲁厄理工学院的一支团队把目光投向3D场景重建领域,并希望利用微软HoloLens 2的功能实现即时3D Gaussian Splatting。

在研究中,团队介绍了一种利用HoloLens传感器数据的全新工作流程HoloGS。它通过即时访问所需的输入数据(图像、camera姿态和深度传感的点云)来绕过了预处理步骤的需要。研究人员提供了全面的调查,而结果表明,HoloLens数据适合作为3D Gaussian Splatting的输入。

NeRFs可以通过神经网络对空间中的3D场景进行所谓的视图合成,从而渲染出新颖视图。神经网络基于一组图像和相应的camera姿态进行训练,并估计每个位置的位置相关密度值和视图相关RGB颜色值。通过连续空间中点的体积密度,可以提取几何形状。

然而,这需要密度阈值等技术或其他从连续神经网络输出生成显式3D重建的方法,而密度具有固有的不确定性。最常见的是,Structure from Motion(SfM)用于计算在预处理步骤中训练NeRFs所需的内部方向和camera姿态。

作为SfM的替代方案,业界已证明微软HoloLens是一个有趣的接口,因为它可以提取所需的输入数据,图像和相应的姿态。另外,它已经证明了作为绘图系统的有效性,并能够实现实时,高度详细,彩色,3D场景重建和移动映射。

关于3D场景重建,特别是3D Gaussian Splatting,由于其使用3D Gaussian显式表示场景而表现突出。在优化过程中,Gaussian致密化和调整适应,经历增长、收缩和颜色和形状的调整,直到渲染图像和训练图像之间的光度误差变得最小。与NeRFs的连续亮度场表示相反,Gaussian显式表示场景几何形状,从而可以直接访问它。

当涉及到摄影测量和3D计算机视觉时,这对于3D点云提取和表面重建特别有趣。与大多数NeRFs方法相比,3D Gaussian Splatting需要以点云的形式进一步输入数据,这通常使用来自SfM的稀疏点云。

这个点云用来初始化Gaussian。所以,需要进行预处理和计算步骤,从图像中计算camera姿态和稀疏点云。对于这一点,微软HoloLens再次变得重要起来。除了RGB图像及其相应的camera姿态外,HoloLens同时提供深度图像和相应的camera姿态,而图像可以转换为所需的点云。

这可以实现即时3D场景重建与3D Gaussian Splatting,无需额外的耗时的预处理步骤。

在研究中,德国卡尔斯鲁厄理工学院提出了HoloGS,以利用Microsoft HoloLens 2数据并通过3D Gaussian Splatting进行即时3D场景重建。

这是直接基于传感器信息完成,因为HoloLens能够访问所需的输入数据,即图像、camera姿态和实时深度传感的点云。团队研究了HoloLens的数据质量是否足以进行3D Gaussian Splatting。为了评估工作流程,研究人员同时遵循传统的管道,使用COLMAP来估计camera姿态和稀疏点云。

相关分析包括检查训练过程,并通过使用峰值信噪比(PSNR)和光度损失来评估结果的渲染质量。另外,他们利用云到云的倒角距离,定量和定性地报告了从高斯中心得到的致密点云的几何三维精度。所以,研究人员设想(稀疏)输入点云的重新填充,类似于MultiView Stereo的后处理步骤。

实验证明了基于微软HoloLens 2数据的HoloGS适合作为3D Gaussian Splatting的输入。渲染的图像合理地反映了几何和外观。另外,HolGS通过从高斯中心提取密集的点云来实现填充。

方法

如前所述,标准工作流程使用SfM在预处理步骤中确定camera姿态和稀疏点云。SfM一般描述了由一组图像重建三维场景的过程,其中图像是由运动中的camera从不同的方向和位置拍摄。它依赖于重叠图像序列中点对应的计算和匹配。最终的结果是camera姿态,camera intrinsic,以及稀疏点云。

另外,基本的SfM稀疏点云允许以MVS管道进行密集重建,从而使SfM点云更加致密。研究人员将MVS密集重建作为参考点云进行比较。

研究将来自3D Gaussian Splatting的原始实现的(增量)SfM技术用于camera姿态和稀疏点云的外部数据计算。这个过程使用相同的HoloLens RGB图像进行,以确保与内部数据方法相似的统一条件。

如最上方的图1所示,对于直接使用微软HoloLens 2的3D Gaussian Splatting进行即时3D场景重建,HoloGS主要针对三个步骤:传感器流、实时点云计算和即时3D Gaussian Splatting。

HoloLens 2服务器应用用于请求微软HoloLens 2中的数据。系统提供对HoloLens 2所有传感器的访问,包括来自1920 × 1080摄像头的RGB图像、内部方向(camera intrinsic)和相应的camera姿态,以及用于深度图像和相应姿态的深度传感器。

首先,通过HoloLens的传感器流,在数据采集过程中查询并提取传感器系统的RGB图像和相应的camera姿态,包括内部方向和深度图像及其camera姿态。

其次,根据深度摄像头的内部方向和深度信息,计算深度图像中每个像素对应的三维点,将深度图像转化为三维点云。点云随后通过camera姿态合并成一个联合点云。

最后,将需要的数据,即对应camera姿态的RGB图像和从深度信息变换到RGB camera坐标系的点云,作为初始数据馈送到3D Gaussian Splatting。在这种情况下,RGB图像作为训练数据,通过最小化渲染图像与相同camera姿态的真实图像之间的光度误差来优化高斯分布。

由深度信息得到的点云的三维点构成初始高斯分布的中心。Gaussian在默认参数上进行训练,球面谐波特征的学习率为0.0025,不透明度调整为0.05,缩放操作为0.005,旋转变换为0.001,而训练包含在NVIDIA RTX3090 GPU的30000次迭代。

优化的光度损失由以下损失函数1给出:

如上所述,来自外部SfM或来自HoloLens内部深度信息的点云作为初始高斯分布。通过Gaussian Splatting的优化过程,根据图像的颜色信息生成附加点。在这个过程中,Gaussian 会增长、分裂、收缩或移除。在此基础上,设想对稀疏输入点云进行重新填充,类似于MVS的后处理步骤。

特别是,由于SfM稀疏点云只是基于SIFT点对应的特征来创建,顾名思义,它是相对稀疏的。经过3D Gaussian Splatting训练后,可以提取出密度较高、优化后的点云。假设包含颜色的3D信息同样作为场景中的实际几何存在,研究人员将高斯分布的中心(表示每个高斯分布的平均值)视为方法中的3D几何。

数据集

实验基于微软HoloLens 2捕获的两个数据集:一个是文化遗产雕像的户外场景“Denker”,另一个是室内场景“Ficus”。

这两个数据集都包含111张图像,每张图像大小为1920 × 1080,其中掩盖了3米以上的深度信息。输入数据的不同初始化类型产生不同的点云:SfM稀疏点云包含超过40000个点,HoloLens深度图像的点云包含超过620000个点。

实验

团队使用PSNR来评估训练过程。图4显示了迭代过程中PSNR和训练损失的变化。

研究表明,采用内部HoloLens数据的HoloGS可以实现相对平滑的3D Gaussian Splatting收敛。收敛发生在大约25000次迭代之后,场景“Denker”达到20.55 dB左右的最大PSNR,场景“Ficus”达到20.17 dB左右。

值得注意的是,两种场景的HoloLens数据都能迅速实现收敛。相比之下,使用外部SfM数据产生更高的PSNR值,场景“Denker”为27.54 dB,场景“Ficus”为26.21 dB。相反,在训练过程中,内部HoloLens数据的损失高于外部SfM数据。

有趣的是,曲线显示了每3000次迭代到15000次迭代的峰值。峰值可以用Gaussian Splatting的密度调节技术来解释。所述技术将每3000次迭代的不透明度值设置为接近零,这可能导致高斯密度的不合理增加。

图5的渲染结果与训练过程中得到的数值结果非常接近。特别是,在预处理过程中计算的外部SfM数据显示出显着提高的性能。对于场景“Denker”,HoloGS对雕像本身产生了令人满意的结果,与SfM数据得出的结果相当。在场景“Ficus”中,HoloGS准确地呈现植物的精细结构。

总的来说,HoloGS通常会导致场景中物体的边缘模糊。另外,场景中同时可以识别出大的、模糊的漂浮物。相比之下,对于外部SfM数据,伪影只在有限的区域明显,例如场景“Denker”中雕像头部上方,以及场景“Ficus”中天花板上的未被观察到的区域。

研究人员提取在训练过程中产生的致密点云。提取的高斯密度点云说明了外部SfM数据和内部HoloLens数据在用于3D场景重建的Gaussian Splatting方面的差异。对于场景“Denker”,SfM数据的覆盖范围很好,对象的结构清晰可见,边缘锐利。尽管如此,点云中的一些缝隙依然明显,尤其是在平台和雕像的胳膊和腿上。在所述区域,颜色与其他区域不同,看起来更加均匀和低纹理。

当使用内部HoloLens数据时,通过高斯中心可以识别对象的结构。然而,点云总体上存在噪点,对象边缘模糊不清。另外,在点云中存在大型伪影,对应于渲染图像中的浮动伪影。场景“Ficus”同样出现了类似的模式。外部SfM数据的点云边缘清晰锐利,准确捕捉了植物植被的精细结构。然而,间隙是明显的。另外,小的漂浮伪影间歇性地出现在对象上方。

当使用HoloLens数据时,对象的结构同样清晰可识别,覆盖率高。尽管如此,点云依然充满噪点,存在诸多浮动伪影,特别是在对象上方的区域。同样,植物的低纹理花盆没有完全重建。

接下来,使用从点云到MVS参考点的Chamfer云到云的距离,并通过几何3D精度进一步定量和定性地评估致密点云的视觉外观。与训练和渲染结果一致,提取的点云具有相似的几何特征,定量见表2,定性见图7和图8。

表2中的定量结果突出了提取的密集点云的几何精度的明显差异,特别是在两种初始输入数据方面。对于场景“Denker”,外部SfM数据的平均精度为0.021,标准差为0.061,而内部HoloLens数据的平均精度为0.298,标准差为0.534,明显较低。在场景“Ficus”中获得了类似的结果,其中使用外部SfM数据显示平均几何精度为0.045,标准偏差为0.261。相比之下,再次使用内部HoloLens数据的结果精度明显降低,为0.596,标准差为0.891。

如图7中场景“Denker”所示。很明显,外部SfM数据对雕像表面产生了很高的精度,但在低纹理、均匀的区域中可以发现几何精度较低。

HoloLens内部数据同样出现了同样的趋势,其较低的几何精度反映在噪点边缘和浮动伪影中。

图8显示了场景“Ficus”的类似模式。SfM数据在捕获细节方面表现良好,而HoloLens数据的准确性较低,特别是在树枝等结构精细的物体部分。

讨论

在研究中,德国卡尔斯鲁厄理工学院利用微软HoloLens 2内部传感器的数据,并引入HoloGS来研究即时3D Gaussian Splatting的应用。

具体来说,输入数据由具有相应camera姿态的RGB图像和HoloLens深度数据中的点云作为初始高斯中心组成。团队已经从定量和定性两方面证明了内部HoloLens数据适合于这一应用,因为它可以实现Gaussian Splatting优化过程的收敛。

基于渲染的RGB图像对训练过程进行优化,收敛速度很快,场景“Denker”和场景“Ficus”的最大PSNR值分别为20.17和20.55。这种收敛使得从不同的视角绘制新的合成图像能够很好地代表场景。

另外,在训练过程中对高斯分布进行优化,可以从高斯中心提取密集的点云。当然,团队坦诚方法存在局限性,因为外部预处理的SfM数据的结果优于内部HoloLens数据的结果,所以在训练过程中达到更高的最大PSNR,并且与内部HoloLens数据相比,渲染的图像看起来更少模糊,包含更少的浮动伪影。

同时,使用HoloLens对致密点云进行3D重建的几何精度平均弱10倍,但这可能是由于权重较大的浮子伪影造成。研究人员怀疑这种差异的原因在于HoloLens内部数据的RGB图像的camera姿态不太精确,导致渲染图像中的模糊结果和伪影以及密集的点云。

再者,可以假设从深度传感器得到的初始点云可能与RGB图像在坐标系中的正确位置不匹配。然而,由于PSNR在训练过程中不会随着高斯分布的增长、收缩或移除而继续增加,所以研究人员拒绝将这个假设作为潜在原因。

所以,首先,考虑到三维映射方面,可以考虑将HoloLens仅作为三维映射系统使用而不考虑计算机图形学的三维场景重建方面,直接使用HoloLens传感器数据的深度图和生成的点云。这就产生了一个高点密度和精细细节的点云。

其次,从计算机图形学的角度来看,研究人员依然认为HoloLens和Gaussian Splatting的结合是合适的。如果正如所怀疑的那样,较弱的结果是由于RGB camera姿态,则建议在训练过程中优化RGB camera姿态。通过在训练过程中对camera姿态进行优化,在不增加预处理时间的情况下,Gaussian Splatting的渲染质量和密集点云可以达到SfM的质量。另外,HoloLens的实时能力提供了在优化过程中将数据插入Gaussian Splatting的潜力。

通常,对于SfM和HoloLens数据,密集点云中都存在间隙,如图9所示。间隙可能是由颜色相同的区域造成,比如场景“Denker”中雕像腿周围的区域和场景“Ficus”中植物的低纹理花盆。

因此,对于密集的点云提取,仅仅提取高斯中心是不够的,因为在低纹理表面上存在浮动伪影和不均匀的点密度,其中只有少数单个高斯存在均匀的颜色。另外,究竟是高斯中心还是高斯曲面最能代表物体几何的表面,目前尚不清楚。

总之,尽管存在挑战,但团队看到了将微软HoloLens 2与Gaussian Splatting相结合,从而实现即时3D场景重建和点云提取的潜力。

相关论文HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2

概括而言,HoloGS可以直接从微软HoloLens 2的内部传感器数据中使用3D Gaussian Splatting进行即时3D场景重建。尽管与使用外部计算的SfM数据的方法相比,这一解决方案的结果显示出一定的弱点,例如较低的PSNR,渲染图像中的浮动伪影和模糊,以及提取的点云中的伪影,但团队依然看到了进一步优化的潜力。

特别是,在训练过程中改进RGB camera姿态可以改善结果,并使用最先进的方法和HoloLens等娱乐设备实现实时3D重建。因此,他们表示HoloGS代表了使用微软HoloLens 2进行即时3D Gaussian Splatting的富有前景的解决方案,并在摄影测量、计算机视觉和计算机图形学领域提供了进一步的研究潜力。

HoloLens QQ交流群493967447

您可能还喜欢...

专栏