雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

中国团队研究基于体素Transformer和稀疏卷积的点云属性压缩方法用于3D广播

查看引用/信息源请点击:映维网Nweon

点云属性压缩

映维网Nweon 2024年12月31日)点云已经成为虚拟现实和增强现实等先进3D应用的主流代表。然而,点云的海量数据是传输和存储最具挑战性的问题之一。在一项研究中,中国科学院,同济大学,宁波大学团队针对点云广播提出了一种基于端到端体素Transformer和稀疏卷积的点云属性压缩(TSC-PCAC)。

首先,TSC-PCAC框架包括基于Transformer和稀疏卷积模块 (TSCM)的变分自编码器和信道上下文模块。然后,研究人员提出了一个两阶段的TSCM,其中第一阶段侧重于对点云的局部依赖关系和特征表示进行建模,第二阶段则通过包含更大接受域的空间和通道池来捕获全局特征。模块有效地提取了全局和局部点间相关性,减少了信息冗余。

接下来,团队设计了一个基于TSCM的信道上下文模块,利用信道间的相关性,改善了量化latent表示的预测概率分布,从而降低了比特率。

实验结果表明,与Sparse-PCAC、NF-PCAC和G-PCC v23方法相比,TSC-PCAC方法的比特率平均分别降低了38.53%、21.30%和11.19%。与Sparse-PCAC相比,编码/解码时间成本平均降低了97.68%/98.78%。

随着信息技术的发展,人们对更逼真视觉娱乐的需求不断快速上升。3D视觉应用已成为当今的一个关键趋势,因为它提供了3D深度感知和沉浸式视觉体验。其中,点云是3D视觉领域中不可或缺的表达形式,在一系列的领域有着广泛的应用,尤其是AR/VR。

然而,一个高质量的大规模点云瞬间包含数百万个点,每个点由三维几何和高维属性组成,如颜色、透明度、反射率等。海量的数据给传输和广播带来巨大的挑战,阻碍了点云的广泛应用。因此,迫切需要对点云数据进行压缩,从而大幅减小点云数据的大小。

不过,与二维平面密集而有规则分布的图像不同,三维点云不规则且稀疏,导致三维模式不规则,相邻点之间的相关性较低。所述固有特性给点云压缩带来了巨大的挑战。

为了有效地压缩点云,MPEG提出了两种传统的点云压缩方法,即基于几何的点云压缩(G-PCC)和基于视频的点云压缩(V-PCC)。

G-PCC直接对三维空间中的点云进行八叉树结构编码。另一方面,V-PCC将3D点云投影成2D图像,然后使用传统的2D空间编解码器进行编码。

除了传统的压缩方法外,鉴于基于深度学习的图像压缩技术取得的显著成就,一系列研究人员开始探索基于深度学习的点云压缩技术的潜力,包括几何和属性。

尽管在几何压缩方面取得了一些成就,但在属性压缩方面,基于点的压缩方法难以利用优秀的特征提取算子,例如卷积,或者基于体素的压缩网络仅由卷积堆栈组成。这可能会导致网络难以消除高度相关体素之间的冗余,从而导致次优压缩效率。

针对所述问题,团队针对点云广播提出了一种基于端到端体素Transformer和稀疏卷积的点云属性压缩(TSC-PCAC)。

首先,TSC-PCAC框架包括基于Transformer和稀疏卷积模块 (TSCM)的变分自编码器和信道上下文模块。然后,研究人员提出了一个两阶段的TSCM,其中第一阶段侧重于对点云的局部依赖关系和特征表示进行建模,第二阶段则通过包含更大接受域的空间和通道池来捕获全局特征。模块有效地提取了全局和局部点间相关性,减少了信息冗余。

接下来,团队设计了一个基于TSCM的信道上下文模块,利用信道间的相关性,改善了量化latent表示的预测概率分布,从而降低了比特率。

实验结果表明,与Sparse-PCAC、NF-PCAC和G-PCC v23方法相比,TSC-PCAC方法的比特率平均分别降低了38.53%、21.30%和11.19%。与Sparse-PCAC相比,编码/解码时间成本平均降低了97.68%/98.78%。另外,基于深度学习的Sparse-PCAC、NF-PCAC和TSC-PCAC仅用于属性编码,需要对不同速率点进行多次训练。

相关论文TSC-PCAC: Voxel Transformer and Sparse Convolution Based Point Cloud Attribute Compression for 3D Broadcasting

总的来说,TSCM集成了点云的局部依赖关系和全局空间通道特征,对体素之间的局部相关性进行建模,并捕获全局特征以消除冗余。另外,基于TSCM的信道上下文模块利用信道间相关性来改善量化潜在表征的预测概率分布。

总体而言,提出的TSC-PCAC对点云属性编码是有效的。未来,研究人员将研究更高压缩比的深度网络,以及联合几何和属性编码。

本文链接https://news.nweon.com/126778
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯