三菱研发FreBIS神经隐式表面表示技术提升3D重建精度

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

新颖的神经隐式表面表示方法

映维网Nweon 2025年08月15日)神经隐式表面表示技术对于增强现实/虚拟现实等领域的技术进步十分重要。这类技术能够将场景中物体的表面建模为一个连续函数,并已经取得了显著进展,尤其是在相对于经典的3D表面重建方法(例如使用体素或点云的方法)时。然而,相关方法在处理具有多样且复杂表面的场景时存在困难,主要是因为它们使用单一的编码器网络来建模任何给定场景,而网络需要同时捕获场景中从低频到高频的所有表面信息。

为了克服这一挑战,日本三菱团队在一项研究中提出了一种新颖的神经隐式表面表示方法FreBIS。FreBIS的工作原理是根据表面的频率将场景分层为多个频率层级,每个层级(或一组层级)由一个专用的编码器进行编码。另外,FreBIS通过一种新颖的冗余感知加权模块来促进编码特征之间的互异性,从而鼓励编码器捕获互补信息。

在具有挑战性的BlendedMVS数据集进行的实证评估表明,将现成的神经表面重建方法中的标准编码器替换为所提出的频率分层编码器,能带来显著的改进。相关改进在重建的3D表面质量以及从任何视角进行渲染的保真度上均显而易见。

三菱研发FreBIS神经隐式表面表示技术提升3D重建精度

尽管一张图片胜过千言万语,但2D图像理解方法会遗漏关键细节,包括深度线索和被遮挡的结构。这推动了对从图像重建完整3D表面的技术研究。3D表面重建方法在增强现实和虚拟现实等广泛应用领域大显身手,可帮助用户轻松创建3D内容。

传统的3D场景重建方法利用显式表示,如体素和点云,其重建网格的分辨率由体素或3D点的粒度决定,限制了重建质量。神经隐式表面表示方法通过学习连续函数(包括有符号距离函数和占用)来建模3D表面,从而克服了这一挑战。这些隐式表示能够以无限分辨率编码3D几何体,并降低内存需求,从而实现从2D图像进行高保真3D表面重建。

先前关于神经隐式表面表示及其变体的研究可以重建高细节的3D表面。然而,它们同时表示复杂表面的正确形状并捕获其精细细节的能力有限。这主要是因为它们采用单一的编码器网络,试图同时捕获场景中存在的所有不同表面频率(可能从极低到极高)。

在一项研究中,日本三菱团队提出Frequency-Based Stratification for Neural Implicit Surface Representation (FreBIS) ,一种新颖的神经隐式表面表示方法。在所提出方法中,多个编码器网络专门用于编码不同的频带,使得每个编码器都能捕获场景的互补信息,从而允许FreBIS能够有效地同时学习从低频到高频的信息。

在实践中,FreBIS采用三个编码器,分别致力于从场景中捕获低频、中频和高频带的信息(如图1(a)所示)。信息随后由一个单一的解码器网络进行融合和解码,以估算SDF值和一个编码颜色信息的RGB特征向量。因此,对应于不同频带的特征可以从三个不同的编码器导出,而非采用统一的潜在特征编码。

为了有效结合不同编码器学习到的不同信息,FreBIS引入了一个新颖的冗余感知加权模块(如图1(b)所示)。给定不同的特征编码,模块为每个编码估算归一化的重要性分数,并将其用作权重来组合这些编码,从而得到一个统一的表示。随后,解码器模块解码该统一表示,以预测对应于场景中某个3D点的SDF值和RGB特征。FreBIS使得重建包含各种细节层次的3D场景的高质量表面成为可能。另外,它提供了一种灵活的机制,可将分层编码器与任何现成的解码器主干网络结合使用。

在具有挑战性的BlendedMVS数据集上的实证评估表明,这种基于频率分层的策略改进了3D表面的重建,同时更好地保留了从任何给定视角进行渲染的保真度。

三菱研发FreBIS神经隐式表面表示技术提升3D重建精度

表1总结了所提出方法与VolSDF和Scaled-up VolSDF的定量比较结果。除了纹理较简单、细节较少的Bread场景外,FreBIS在数据集所有场景上都取得了最高的PSNR和SSIM分数以及最低的LPIPS分数,在整体评估上比Scaled-up VolSDF基线在SSIM上提升了高达2%。Doll、Bull和Robot场景的渲染图像定性比较如图4所示。

三菱研发FreBIS神经隐式表面表示技术提升3D重建精度

如图所示,FreBIS显著提高了渲染质量,尤其是物体的精细细节。重建网格的定性比较如图5所示。特别地,FreBIS重建的表面具有更高的保真度,能更好地保留细节,例如:Doll衣服上的条纹、Bull的马鞍、Robot的枪和脸。另外,可以注意到,VolSDF和Scaled-up VolSDF不恰当地将Doll的眼球重建为凹面,而FreBIS的重建效果更好。可以看到,FreBIS在场景渲染和表面重建质量方面都优于VolSDF和Scaled-up VolSDF。这些结果证明了所提出方法的有效性,并表明性能的提升不能简单地归因于参数数量的增加。

为了验证每个区域使用了适当的频带以及编码器学习了互补特征,团队可视化了每个频带的、具有冗余感知的加权特征(F · diag(w))的范数,以及为每个频带获得的网格质量。

各频带加权特征范数:图6展示了Bull场景的重建网格,其中顶点颜色表示加权特征的范数。在这个可视化中,低、中、高频特征分别映射到红、绿、蓝通道。请注意,范数被缩放到 [0.4, 1.0] 以增强可视性。可以看到高频信息(蓝色)在具有更精细细节的区域(例如装饰性雕刻)更占主导,而低频信息(红色)主要用于细节缺失的未观察区域和插值区域。所提出的编码器成功地区分了光滑和粗糙的表面区域,并用不同的频带对其进行建模。

三菱研发FreBIS神经隐式表面表示技术提升3D重建精度

对于各频域表面重建,为检验每个编码器是否学习了互补特征,研究人员独立解码每个频率编码器的输出并可视化结果。图7a, 7b, 7c 分别展示了从 Bull 场景的低频(fL)、中频(fM)、高频(fH)特征向量重建的网格。如图7所示,低频网格很好地捕获了场景的全局结构,中频网格获得了物体的大致形状和一些细节,而高频网格则捕获了精细细节。相关结果表明编码器成功学习了互补的、依赖于频率的特征。

对于冗余感知加权模块的消融,为评估冗余感知加权模块的效果,取不同编码器特征的平均值来代替应用冗余感知加权。如表3所示,Scaled-up VolSDF和不使用冗余感知加权的版本均比所提出的FreBIS表现差,从而证明了模块的有效性。

团队同时构建了模型变体,为编码器不均匀地分配频率层级(总频率层级数 N 设为 6)。表2显示了此设置下不同配置的定量结果。尽管最优的频域分配似乎因场景而异,但均匀分布((NL, NM, NH) = (2, 2, 2))在各种场景中表现最为稳定。

相关论文FreBIS: Frequency-Based Stratification for Neural Implicit Surface Representations

https://arxiv.org/pdf/2504.20222

总的来说,FreBIS是一种新颖的神经隐式表面表示方法。FreBIS根据表面频率将场景分层为多个频率层级,并利用一种新颖的冗余感知加权模块,通过促进编码特征之间的互异性来有效捕获互补信息。实证结果表明,将FreBIS编码器与VolSDF解码器结合,提高了重建网格的质量以及基于视角的表面渲染质量。

展望未来,团队计划在其他数据集和主干网络上评估FreBIS。将FreBIS与对象组合框架(如ObjectSDF和RICO)相结合,应能重建包含多个物体的更复杂场景,从而可用于更高保真度的复杂3D模拟以及AR/VR的3D内容生成。

本文链接https://news.nweon.com/131654
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯