上海交通大学,密苏里大学堪萨斯分校和字节跳动发布大规模DPCQA数据库
名为DPCD的大规模DPCQA数据库
(映维网Nweon 2025年10月21日)近年来,虚拟现实/增强现实技术的进步推动了对动态点云(Dynamic Point Clouds/DPC)的需求。与静态点云不同,DPC能够捕获物体或场景内部的时间变化,从而提供对真实世界更精确的模拟。尽管静态点云的质量评估研究已取得显著进展,但业界对动态点云质量评估(Dynamic Point Cloud Quality Assessment/DPCQA)的研究却十分少,这阻碍了质量应用的发展,例如实际场景中的帧间压缩和传输。
在一项研究中,上海交通大学,密苏里大学堪萨斯分校和字节跳动团队引入了一个名为DPCD的大规模DPCQA数据库,包含15个参考DPC和525个经过七种有损压缩和噪点失真类型处理后的失真DPC。通过将样本渲染为处理后视频序列,研究人员进行了一项全面的主观实验,收集了21位观看者的平均意见得分进行分析。
通过展示内容特性、各种失真的影响以及MOS的准确性,他们验证了所提出数据库的异构性和可靠性,另外评估了几种客观度量在DPCD的性能。实验结果表明,DPCQA比静态点云质量评估更具挑战性。
点云(Point Clouds/PC)作为沉浸式媒体中最具代表性的数据形式之一,在AR等众多领域的需求日益增长。点云由一系列离散点组成,每个点由其三维空间中的坐标以及颜色、法向量等附加属性来描述。鉴于实际应用中点云不可避免地会引入失真并影响感知质量,点云质量评估(PCQA)已成为研究热点。
PCQA大致可分为主观质量评估和客观质量评估。主观质量评估被认为是最可靠的方法,它需要邀请观看者在受控的测试环境中评估失真点云的质量。客观质量评估则探索与人类感知质量高度相关的度量标准,旨在实际应用中替代主观评估,从而减少时间和成本。
近年来,3D采集设备的进步使得VR和AR比以往任何时候都更容易获得。为了给用户提供更具交互性和沉浸感的体验,DPC受到了广泛关注。与静态点云不同,DPC包含时间维度,能够更真实地表示三维环境,模拟真实世界的动态特性。然而,由于DPC包含的数据量巨大,在实际应用之前需要更高效的压缩和传输技术。与静态点云类似,相关过程会产生失真并影响感知质量。所以,动态点云质量评估(DPCQA)已成为工业界和学术界日益重要的研究焦点。
目前,静态点云质量评估(Static Point Cloud Quality Assessment/SPCQA)已取得显著进展,但业界对DPCQA的研究依然有限。为便于比较,团队在表I中列出了现有的PCQA数据库。
以往的研究通过提出新的基准测试来进行DPCQA评估。例如,vsenseVVDB和vsenseVVDB2研究了压缩对点云的影响。然而,这些数据库存在两个主要缺点:
1)规模有限:与SPCQA数据库相比,现有的DPCQA数据库(无论是参考样本还是失真样本)规模通常较小。
2)缺乏失真类型:这些数据库仅关注传统压缩算法,忽视了新兴的基于学习的压缩技术以及其他场景产生的失真。
上述弱点限制了这些数据库的泛化能力,同时阻碍了客观DPCQA度量的开发和验证。特别是在运动图像专家组内部,关于基于学习的DPC压缩技术的提案征集突显了对可靠客观DPCQA度量的需求。另外,尽管已经开发出许多高性能的客观SPCQA度量,但它们是否适用于DPC尚不确定。
鉴于上述挑战,为有效促进DPCQA及相关算法(如DPC的压缩和传输)的发展,上海交通大学,密苏里大学堪萨斯分校和字节跳动团队创建了一个名为DPCD的大规模DPCQA数据库,而它包含丰富的内容和多种失真类型。
研究人员选取了15个高质量的参考DPC序列,并注入了七种不同强度的失真类型,总共生成了525个失真DPC。为了进行主观实验,所有样本都被渲染成处理后视频序列,并邀请参与者在实验室环境中对其进行评分以收集MOS。团队展示了源内容的多样性、MOS的准确性以及不同类型失真的影响,并在最后评估了多种客观度量的性能并对结果进行了详细分析,从而为未来的DPCQA研究提供有益的见解。
考虑到缺乏对客观DPCQA的研究,他们在DPCD测试了现有客观SPCQA度量的性能。度量主要分为三类:基于点、基于图像和基于视频的度量。研究人员选取了MPEG采用的9种基于点的度量、10种广泛使用的基于图像的度量以及1种基于视频的度量。对于基于点和基于图像的度量,对每个DPC的300帧得分取平均值。采用三个常见指标来量化客观度量的效率:斯皮尔曼等级相关系数(SRCC)、皮尔逊线性相关系数(PLCC)和均方根误差(RMSE)。
为确保预测得分与MOS值范围的一致性,采用了一个非线性四参数逻辑拟合函数来调整它们的范围。度量在整个数据库上的性能如表III的“Overall”列所示。基于结果,可以得出以下结论:
在基于点的度量中,两种基于MSE的P2Point方法表现最佳。相比之下,P2Plane表现较差,这可能是由于在估计法向量时引入了误差。此外,使用边界框对计算结果进行归一化并将其转换为相应的PSNR值,通过标准化尺度提高了性能。
在基于图像的度量中,DISTS和LPIPS表现最佳。通过利用在大规模图像数据集上预训练的网络,这些度量能有效捕捉代表性特征,从而增强了其泛化能力。
基于视频的度量VMAF虽然考虑了时间信息,但并未产生优越的结果。这可能是因为VMAF主要关注自然场景中的时间变化,而我们的数据库包含的是独立的人体点云样本。
尽管基于图像的度量存在固有的信息损失,但其性能可与基于点的度量相媲美。这主要归因于基于图像的度量擅长提取纹理信息,而基于点的度量往往更关注几何信息,可能未能充分利用多模态数据。
与全参考度量相比,所有无参考度量的性能都明显较差。缺乏参考样本作为基准使得无法准确评估失真,从而限制了评估的准确性。
为了进行更全面的分析,在表III中进一步提供了针对不同失真类型的SRCC结果。从结果可以得出以下结论:
两种基于MSE的P2Point方法在G-PCC上表现出最佳性能。由于G-PCC通常引入几何失真,P2Point度量直接测量失真点云与参考点云中对应点之间的欧几里得距离,对此类失真更为敏感。
P2Plane MSE PSNR在V-PCC上表现最佳,而P2Plane MSE在DDPCC上表现最佳。基于MSE的度量优于基于豪斯多夫距离的度量,因为后者涉及最大池化,这可能导致点云中坐标值较大的离群点对最终结果产生负面影响。
DISTS在各种失真上表现出鲁棒性,并在CN、DS和GGN上取得了最佳结果(SRCC值分别约为0.929、0.879和0.955),这得益于其有效捕捉局部和全局信息的能力。
总体而言,当前度量存在若干局限性,总结如下:
对于基于点的度量,虽然基于MSE的P2Point度量表现良好,但仍有改进空间。此外,其高计算复杂度使其难以在实际应用中落地。
基于图像和视频的度量可能在投影过程中遭受信息损失,从而可能掩盖原始失真。此外,它们的性能可能受到背景信息的影响,导致在不同内容上的得分不稳定。
没有任何一种方法能在所有失真类型上始终表现良好。具体来说,P2Point对传统压缩敏感,但在测量颜色失真方面表现不佳。LPIPS和DISTS对CN有效,但在传统压缩方法上表现较差。此外,大多数度量在基于学习的DPC压缩上表现不佳。传统的基于点的度量,以及现有的基于图像和基于视频的度量,可能忽略了DPC的独特特性和失真,导致在特定失真上的质量预测不准确。因此,迫切需要专门为DPC量身定制的有效客观度量。而我们提出的数据库可能有助于设计此类度量。
相关论文:DPCD: A Quality Assessment Database for Dynamic Point Clouds
总的来说,团队创建了一个大规模动态点云数据库DPCD,包含15个参考DPC和511个具有精确MOS的失真样本。他们对数据库进行了全面分析,验证了其内容多样性,阐释了不同失真类型的特性,并评估了其MOS的准确性。另外,团队在DPCD上评估了几种常用客观度量。最佳的全参考度量取得了约0.90的相关性,而所有无参考度量在预测DPC质量方面表现挣扎,相关性仅为0.28至0.57。凭借精确且大规模的MOS标签,数据库可作为客观度量的基准,并在未来进一步促进与DPC相关的算法发展。