研究员提出缺陷感知3D人体姿态估计新方法DeProPose

查看引用/信息源请点击:映维网Nweon

3D人体姿态估计

映维网Nweon 2025年06月18日)3D人体姿态估计在虚拟现实等领域有着广泛的应用。但在现实场景中,遮挡、噪点干扰和视点缺失等问题会严重影响姿势估计。为了解决所述挑战,西安电子科技大学和湖南大学团队提出了缺陷感知3D姿态估计的任务。

传统的3D姿态估计方法通常依赖于多阶段网络和模块化组合,而这可能导致累积误差和增加训练复杂性,使其无法有效地解决缺陷感知估计。所以,研究人员提出了一种灵活的DeProPose方法。它简化了网络架构,以降低多阶段设计中的训练复杂度并避免信息丢失。

另外,模型创新性地引入了基于相对投影误差的多视点特征融合机制,有效地利用了多视点信息并动态分配权重,实现了高效集成和增强的鲁棒性,克服了缺陷感知3D姿态估计的挑战。

同时,为了彻底评估这种端到端多视图3D人体姿态估计模型并推进与遮挡相关的研究,他们开发了一种新的3D人体姿态估计数据集,Deficiency-Aware 3D Pose Estimation(DA-3DPE)。所述数据集包含了广泛的缺陷场景,包括噪点干扰、缺失视点和遮挡挑战。与最先进的方法相比,DeProPose不仅在解决缺陷感知问题方面表现出色,而且在传统场景中同样表现出改进,为3D人体姿态估计提供了强大且用户友好的解决方案。

人体姿态在一系列领域具有重要的应用价值。然而,这项技术的实现往往依赖于大型和复杂的数据集,并引入了诸多具有挑战性的问题,如数据稀缺性、注释难度、非刚性运动和个体差异。所以,业界已经开发了各种方法来解决3D人体姿态估计中的挑战性问题。

在3D人体姿态估计任务中,由于摄像头硬件性能和环境因素的变化,生成的图像数据的质量可能会波动,使其容易受到传感器噪点、视点变化和图像失真的干扰。相关干扰可能导致遮挡、数据丢失和噪点的发生,而这是缺陷感知场景的典型例子。

所述问题会降低3D姿态估计的整体精度,并在实际应用场景中提出重大挑战。因此,开发能够有效降低噪点和遮挡干扰的模型或系统,同时提高特定条件下的性能至关重要。

尽管业界已经提出了数种3D人体姿态估计模型,但大多数模型主要集中在单视图场景,未能充分利用多视图数据集的特征信息。这种限制不仅阻碍了预测性能的提高,而且在面对缺陷感知场景时会导致模型性能的显著下降。针对这一问题,研究人员将研究重点转向了多视角3D人体姿态估计,目标是通过融合不同视点的信息来提高姿态估计的精度。然而,如何有效地整合多视角特征,充分利用不同视点的互补性,依然是多视角3D姿态估计的核心挑战。

传统的多视图方法通常依靠简单的叠加或平均策略来组合来自不同视点的特征。尽管容易实现,但它们不能充分利用视点之间的互补信息,甚至可能引入冗余信息,导致模型精度降低。由于它们不能有效地从不同的角度区分特征的重要性,简单的融合技术可能会将冗余或噪点信息传递到模型中,从而对特征的质量产生负面影响。这在复杂的环境中尤其成问题,因为视点之间的互补性没有得到充分利用,从而限制了模型的性能。

近年来,尽管在多视图融合方面取得了显著进展,但大多数方法依然侧重于没有遮挡和噪点的理想场景,忽略了视图不完整和退化条件对性能的影响,这限制了它们在复杂环境中的有效性。另外,大多数3D人体姿态估计模型采用两阶段方法:首先进行二维姿态估计,然后将其映射到三维空间。尽管在特定场景下是有效的,但它依赖于多级模块化设计,将CNN、LSTM、GCN等模块组合在一起,导致计算负担高,处理时间长,难以满足实时性要求。系统的高复杂性需要大量的超参数调优,模块之间的强依赖性和信息丢失问题也会影响整体性能。

同时,模块之间不一致的优化目标和信息冗余问题进一步限制了准确性。因此,开发一种简单、高效、能有效解决缺陷感知估计的多视角3D姿态估计模型成为一个重要的挑战。

为了解决上述挑战,西安电子科技大学和湖南大学团队提出了一种端到端的3D人体姿态估计模型DeProPose。

DeProPose旨在建立一个有效的框架,以有效地处理各种类型的缺陷意识问题。与两阶段方法不同,DeProPose直接从图像中提取3D姿态特征,简化了模型架构,减少了冗余信息的传递,降低了超参数调优和训练的成本。模型利用高效的特征提取和自关注机制,能够同捕获捉多视图图像的时空关系。

为了解决多视图融合中的信息利用和缺陷感知问题,他们进一步提出了一种基于投影误差和绝对误差的特征融合机制。如图1所示,所述机制根据不同视点的误差分布自适应调整特征权重,从而实现姿态信息的精确提取。这一方法不仅减少了冗余信息,而且提高了复杂场景下的估计精度。

最后,DeProPose通过多视角特征融合,自动聚焦干扰较少的视点,有效处理缺陷感知估计,确保在复杂环境下都能高精度地恢复姿态。同时,由于在多视图人体姿态域中缺陷感知问题的探索有限,他们生成了一个新的数据集Deficiency-Aware 3D Pose Estimation(DA-3DPE),专门用于解决多视图3D人体姿态估计中的挑战。

所述数据集涵盖三个关键问题:数据缺失、噪点干扰和视点遮挡。所述问题经常发生在复杂的现实场景中,严重影响了现有方法的准确性和鲁棒性。与现有数据集不同,DA-3DPE数据集侧重于为多视图3D姿态估计提供更现实和更具挑战性的样本,特别是在人类姿态识别过程中出现不完整视点或数据不一致的情况下。

相关论文DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion

总的来说,团队提出的高效端到端多视角3D人体姿态识别模型在解决复杂场景中的遮挡、噪点干扰和视点不足等挑战方面具有显著优势。与依赖于多阶段网络和模块组合的传统方法不同,模型简化了网络架构,显著降低了超参数调优的难度,同时增强了可扩展性。

其核心创新点在于基于投影和绝对误差的多视图特征融合机制的发展。机制自适应地为不同视角的特征分配不同的权重,准确整合多个视角的信息,从而有效解决多视角复杂场景下的遮挡和噪点问题。

另外,他们生成了一个包含噪点和缺失数据的新型多视图数据集,为端到端多视图3D人体姿态识别模型的综合测试提供了基础。数据集不仅丰富了测试场景,而且推动了3D人体姿态识别中遮挡问题的研究。

实验结果表明,尽管数据集中存在各种类型的遮挡和噪点,但模型在复杂场景下依然保持较高的精度,表现出优异的鲁棒性和效率。这一特性在虚拟现实等领域具有广阔的应用前景。通过减少模型对高质量标注数据的依赖和优化训练过程,所述方法不仅在实际应用中实现了高效率,而且在处理遮挡、噪点等挑战方面也表现出色。

未来的研究可以进一步扩展模型以处理更广泛的遮挡类型,并探索如何在更复杂的姿势和环境变化中提高模型的准确性和鲁棒性。另外,随着3D姿态识别技术的不断进步,进一步的研究将推动其在虚拟现实和增强现实等领域的广泛应用。

本文链接https://news.nweon.com/130412
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯