多特征平衡网络MDBNet为VR/AR环境构建提供更鲁棒的3D场景理解方案
语义场景补全
(映维网Nweon 2025年04月30日)语义场景补全(Semantic Scene Completion/SSC)是计算机视觉中的一项关键任务,在虚拟现实等应用中得到了广泛应用。
SSC旨在通过将单个2D图像转换为3D表示,为每个体素分配语义标签,从局部视图构建详细的3D模型。这个任务的主要挑战在于以有限的信息补全3D体三维。为了解决这个问题,英国南安普顿大学和沙特伊玛目穆罕默德·本·沙特伊斯兰大学团队提出了多特征数据平衡网络(MDBNet)。
这是一个用于RGB和深度数据(F-TSDF)输入的dual-head模型。所提出的混合编码器-解码器架构能够有效地管理F-TSDF中的各种信号。研究人员评估了RGB特征融合策略,并对2D RGB特征使用组合损失函数交叉熵,对3D SSC预测使用加权交叉熵。
在NYU数据集的测试表明,MDBNet的结果超过了可比较的最先进(SOTA)方法,并证明了方法的有效性。
场景理解是计算机视觉的一个基本方面,因为它对于各种现实世界的应用是必不可少的,包括虚拟现实和增强现实。
语义场景补全(SSC)旨在通过预测场景中对象的占用率和语义类别,从局部视图生成详细和完整的3D模型,而它通常利用深度图或RGB图像。SSC的一个显著例子是SSCNet,它集成了室内环境的场景补全和语义分割,说明了任务的相互依赖性和它们的相互增强。
由于输入数据的部分视图性质,SSC面临着重大挑战,特别是在遮挡区域丢失3D信息。另外,由于数据集不平衡、类内多样性和类间歧义等因素,在3D空间内分配准确的语义标签变得复杂。
尽管有的研究通过加权损失函数解决了数据不平衡问题,但它们往往忽略了数据集中的类别不平衡。
另外,有研究人员通过引入加权交叉熵函数,结合基于重采样和无监督聚类的重加权方法来解决类不平衡问题。尽管这种方法提高了对特定类别的识别,但它在识别窗户和电视等具有挑战性的对象时却遇到了困难。因为窗户通常具有反射或透明的表面,而电视与其他类别具有相同的视觉特征,这使得在NYUv2和NYUCAD等数据集中仅使用深度信息很难区分它们。
为了解决挑战,英国南安普顿大学和沙特伊玛目穆罕默德·本·沙特伊斯兰大学团队中扩展了所述方法,并提出了一个具有组合损失函数的dual-head网络。
相关解决方案集成了3D Identity Transformed within full pre-activation Residual Module(ITRM)。设计在同一性特征引入双曲正切激活(Tanh),能够有效地处理来自F-TSDF输入的正负信号,同时对-1和1之间的特征分布进行归一化。
所提出的MDBNet架构如图1所示。模型具有dual-head网络,便于在单个管道内从每个network head同时学习。系统使用两种不同的模式处理每个场景:由分辨率为640×480的RGB图像组成的2D输入,以及作为F-TSDF形式预处理的深度图数据,用于3D空间中的数据表示,捕获尺寸为240×144×240的几何信息。
团队利用用于图像语义分割的预训练transfomer模型Segformer来提取2D语义特征,随后将其投影到3D空间。对于3D输入,采用3D U-Net CNN的基本结构,并自定义自适应残差块。这一改编包括添加Tanh的身份特征。该模型生成一个大小为60×36×60×12的四维结构的输出。12个通道表示从0到11的数据集类。类别0被指定为空白空间,而其余类别代表在NYUv2[14]和NYUCAD[15]数据集中发现的各种对象类别,包括天花板、地板、墙壁、窗户、椅子、床、沙发、桌子、电视、家具和对象。关于这个体系结构的更多细节将在后面的小节中讨论
使用NYUv2和NYUCAD数据集进行了实验,以评估所提出方法在场景补全和语义场景补全任务中的性能。
研究人员将MDBNet与使用混合架构的SOTA方法进行比较,重点关注NYUv2数据集基于体素的语义分割。结果显示,相关方法显著优于当前的SOTA模型,mIoU分数比之前领先的方法AMMNetSegformer和PCANet分别提高了3.1和2.7 pp。
另外,MDBNet的有效性在NYUCAD数据集得到了进一步的证实。与之前的方法(如PCANet)相比,MDBNet的平均mIoU分数有所增加。
相关论文:Semantic Scene Completion with Multi-Feature Data Balancing Network
总的来说,英国南安普顿大学和沙特伊玛目穆罕默德·本·沙特伊斯兰大学团队提出了多特征数据平衡网络(MDBNet)。
这是一个用于RGB和深度数据(F-TSDF)输入的dual-head模型。所提出的混合编码器-解码器架构能够有效地管理F-TSDF中的各种信号。研究人员评估了RGB特征融合策略,并对2D RGB特征使用组合损失函数交叉熵,对3D SSC预测使用加权交叉熵。
在NYU数据集的测试表明,MDBNet的结果超过了可比较的最先进(SOTA)方法,并证明了方法的有效性。