雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

深圳大学提出GatedUniPose姿态估计方法,提高复杂场景下的性能

查看引用/信息源请点击:映维网Nweon

可以以相对较小的参数数量实现了相当甚至更好的性能,突出了其效率和有效性

映维网Nweon 2025年02月18日)姿态估计是计算机视觉中的一项重要任务,在动捕和虚拟现实等领域有着广泛的应用。然而,现有的方法在实现高精度方面依然面临挑战,特别是复杂场景。

在一项研究中,深圳大学团队提出了一种全新的姿态估计方法GatedUniPose。它将UniRepLKNet和Gated Convolution相结合,并引入了GLACE模块进行嵌入。另外,通过使用DySample上采样来增强head layer的特征映射拼接方法。

与现有方法相比,GatedUniPose在处理复杂场景和遮挡挑战方面表现出色。在COCO、MPII和CrowdPose数据集的实验结果表明,GatedUniPose在相对较少的参数下实现了显著的性能改进,而与具有相似或更大参数大小的模型相比,它产生了更好或可比较的结果。

人体姿态估计是计算机视觉中的一项基本任务,涉及从图像中估计人体关节位置。这项任务对于各种应用至关重要,包括动捕和虚拟现实。通过网络架构、训练方法和融合策略的创新,人体姿态估计的最新进展显著提高了公共数据集的准确性。

尽管取得了进步,但现有方法在复杂场景中依然面临重大挑战,例如遮挡和光照变化,这限制了它们在现实应用中的有效性。

当前的2D和3D姿态估计器通常使用坐标向量或热图嵌入来表示姿态。然而,这种表示通常不能对关节之间的依赖关系进行建模,从而导致在具有挑战性的场景中出现不现实的姿态估计。

另一方面,人类可以毫不费力地利用上下文信息预测完整的姿势。这一观察结果表明,环境对准确的姿势估计至关重要。

以人类使用上下文信息进行姿势预测的能力作为灵感,深圳大学团队的研究旨在学习关节之间的依赖关系,而不是依赖于人工设计的规则。

他们提出了一种全新的姿态估计方法GatedUniPose,将UniRepLKNet和Gated Convolution相结合以改进特征提取,并引入了GLACE模块进行嵌入来提高精度。

另外,通过使用DySample上采样来增强head layer的特征映射拼接方法,这解决了PCT中的遮挡处理限制、UniHCP中的特定任务性能限制、以及BUCTD中复杂场景的泛化能力问题。

GatedUniPose的整体架构如图所示。输入图像大小为[3,256,192]。首先,使用GLACE将图像下采样到[768,128,96],然后输入到改进的GatedUniPose主干中。主干网中每个阶段的第一个下采样层使用GLACE实现,并将Gated Convolution集成到块中。接下来,使用DySample模块将最终的特征映射上采样到相同的大小,并在head layer中连接,最后馈送到解码器层。

实验结果表明,GatedUniPose在复杂场景中表现出色,特别是在涉及遮挡和光照变化的场景中。与其他先进方法相比,所提出方法在多任务处理方面表现出卓越的效率,有效地减少了资源消耗。另外,GatedUniPose在处理遮挡问题和特定任务方面表现出增强的性能。值得注意的是,GatedUniPose可以以相对较小的参数数量实现了相当甚至更好的性能,突出了其效率和有效性。

相关论文GatedUniPose: A Novel Approach for Pose Estimation Combining UniRepLKNet and Gated Convolution
相关论文GateAttentionPose: Enhancing Pose Estimation with Agent Attention and Improved Gated Convolutions

总的来说,团队在这项研究中引入了一种新的姿态估计方法GatedUniPose,它利用了UniRepLKNet和Gated Convolution的优势,同时结合了GLACE模块来增强嵌入。另外,使用DySample上采样改进head layer的特征映射拼接。COCO和MPII数据集的大量实验表明,GatedUniPose相较于现有方法实现了显着的性能改进。值得注意的是,GatedUniPose在处理复杂场景和遮挡挑战方面表现出色,同时保持相对较小的参数计数。

本文链接https://news.nweon.com/127799
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯