中国科学院大学与北京理工大学联合开发VM-BHINet手部交互重建系统

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

将平均每个关节位置误差(MPJPE)和平均每个顶点位置误差(MPVPE)降低了2-3%

映维网Nweon 2025年08月08日)对于逼真的3D姿态和形状重建,理解双手交互必不可少。然而,现有的方法存在遮挡、模糊和计算效率低等挑战。为了解决相关问题,中国科学院大学和北京理工大学团队提出了VM-BHINet,将状态空间模型(ssm)引入手部重建,以增强交互建模,同时提高计算效率。核心组件Vision Mamba Interaction Feature Extraction Block(VM-IFEBlock)将状态空间模型与局部和全局特征操作相结合,能够深入理解手的交互。

在InterHand2.6M数据集的实验表明,VM-BHINet将平均每个关节位置误差(MPJPE)和平均每个顶点位置误差(MPVPE)降低了2-3%,显著优于目前最先进的方法。

双手交互是人类活动的基础,如协作任务、情感表达和意图交流。理解双手交互对于增强现实/虚拟现实应用至关重要。对双手交互进行准确的建模和实时重建,不仅可以提高系统的响应能力,而且能够通过实现自然和直观的交互改善用户体验。

中国科学院大学与北京理工大学联合开发VM-BHINet手部交互重建系统

近年来,利用单目RGB图像进行3D手部姿态估计取得了重大进展。与早期依赖于多视图设置的方法不同,单目方法具有实际的优势,可以降低部署成本和硬件要求。然而,它们面临着独特的挑战,特别是在涉及交互场景。严重的遮挡,模糊的手部外观和动态的手部运动引入了显著的复杂性。

另外,现有的方法往往不能模拟两只相互作用的手之间复杂的关系,导致不准确和不自然的重建。为了解决相关限制,中国科学院大学和北京理工大学团队提出了VM-BHINet。

这个框架首次将状态空间模型(ssm)集成到3D交互手部重建中,实现了动态特征建模,提高了计算效率。Vision Mamba Interaction Feature Extraction Block(VM-IFEBlock)是核心组件,它将局部卷积操作与全局特征表示相结合,以增强对复杂手交互的理解。通过利用状态空间模型,模型可以捕获双手之间的长期依赖关系和动态交互,有效地解决了遮挡和外观模糊等挑战。如图1所示,VM-BHINet在各种手部姿势下的视觉表现都非常出色。

中国科学院大学与北京理工大学联合开发VM-BHINet手部交互重建系统

如图2所示,VM-BHINet由五个主要组件组成:主干网络、IFEM、HJFE、JVMBlock和DHPR。每个组件在处理和微调输入数据中起着至关重要的作用,可以逐步提高模型输出的准确性和鲁棒性,包括复杂的3D手网格重建和交互细节。

所提出的结构首先通过一个主干网络(Backbone)获取左右手特征 FL 和 FR。特征随后拼接并输入到 VM-IFEBlock 中。在模块中,拼接后的特征 Fconcat 首先通过 VMBlock 进行增强处理。增强后的特征 Fenh 随后沿通道维度再次切分为左右手特征 FLenh 和 FRenh。

接下来,交互特征提取模块(Interaction Feature Extraction Module, IFEM)利用非局部注意力机制(non-local attention mechanisms)提取双手之间的深层交互特征 Finter。交互特征 Finter 通过后续的卷积层与原始特征融合,得到 FLfused 和 FRfused,从而进一步增强了特征表示的丰富性和判别力。这种融合使得融合后的特征能够提供更准确、更全面的数据表示,从而提升模型的性能、泛化能力和鲁棒性。

然后,手部关节特征提取器(Hand Joint Feature Extractor, HJFE)首先使用卷积层从增强后的手部特征 FLfused 和 FRfused 中估计每只手的 2.5D 关节坐标。然后,通过对 2.5D 热图应用 soft-argmax 操作,获得每只手的精确关节坐标 JL 和 JR,并提取相应的关节特征(FJL 和 FJR)。特征为精确的手部姿态估计和 3D 网格重建提供了必需的位置信息和上下文特征,构成了精确、自然的手部重建和交互的基础。

随后的 JVMBlock 通过 VMBlock 处理每只手的关节特征,输出增强后的关节特征 FLJ_enh 和 FRJ_enh。

最后,双手参数回归器(Dual Hand Parameter Regressor, DHPR)回归 MANO 模型的姿态参数(θL 和 θR)和形状参数(βL 和 βR),并通过全局平均池化和全连接层计算双手之间的 3D 相对平移。

为了验证所提出方法VM-BHINet的有效性,团队进行了烧蚀研究,以评估不同成分对模型性能的影响。表1显示了不同模块组合对参数计数(Params)、计算复杂度(GFLOPS)和预测精度(MPVPE和MPJPE)的影响。MPVPE和MPJPE值报告单手、双手和整体场景。

中国科学院大学与北京理工大学联合开发VM-BHINet手部交互重建系统

烧蚀研究结果表明:当VM-IFEBlock和JVMBlock同时使用时,模型在3D手部网格重建中MPVPE和MPJPE值最低,精度表现最佳。如表1所示,与基线模型相比,具有两个组件的模型显示出显著的改进。在参数数量和计算复杂度方面,VM-IFEBlock和JVMBlock结合使用,参数数量减少到3699.8万个,GFLOPS减少到12974个,相比单独使用VM-IFEBlock(6115万个参数,13854个GFLOPS)或JVMBlock(11206.9万个参数,27613个GFLOPS)要低得多。这种参数和计算复杂度的降低突出了所提出设计的效率。

仅使用VM-IFEBlock时,单手、双手和整体的MPVPE分别为5.17、7.04和5.99,MPJPE分别为4.89、6.36和5.62。同样地,仅使用JVMBlock可以提高性能,单手、双手和整体场景的MPVPE值分别为5.26、7.14和6.04,MPJPE值分别为4.97、6.43和5.70。然而,当这两个组件一起使用时,性能改善最为显著,单手、双手和整体场景的MPVPE值分别为4.69、6.32和5.44,MPJPE值分别为4.41、5.77和5.09。

为了补充定量结果,研究人员对InterHand2.6M数据集进行了定性消融研究,以更直观的方式说明每个组件的影响。图4显示了去除每个组件VM-IFEBlock和JVMBlock的效果,并显示了完整模型在3D手动网格恢复中达到了最佳的视觉精度,突出了使用完整模型比单独使用单个组件的优势。

中国科学院大学与北京理工大学联合开发VM-BHINet手部交互重建系统

总体而言,烧蚀研究表明,VM-IFEBlock和JVMBlock的结合不仅提高了模型的预测精度,而且通过减少参数计数和GFLOPS显著提高了计算效率。烧蚀研究强调了这两个模块在提高模型整体性能方面的重要性,证实了它们的集成在3D手工网格重建任务中提供了最佳结果。这些发现强调了所提出的方法在同时实现高精度和高效率方面的有效性。

VM-BHINet在精度和计算效率之间取得了最佳平衡,实现了更少的参数(36.99M)和更低的GFLOPS(12.97)。这使得它成为实时应用的一个非常有前途的解决方案。结果清楚地表明,VM-BHINet在性能和效率方面都优于现有方法,使其成为交互式手网格恢复的最先进方法。

中国科学院大学与北京理工大学联合开发VM-BHINet手部交互重建系统

图5展示了在InterHand2.6M数据集与之前最先进的方法IntagHand 和EANet的视觉比较。结果表明,VM-BHINet在准确估计手部姿势和相互作用方面具有优越的性能。

相关论文VM-BHINet:Vision Mamba Bimanual Hand Interaction Network for 3D Interacting Hand Mesh Recovery From a Single RGB Image

https://dl.acm.org/doi/pdf/10.1145/3728308

总的来说,VM-BHINet是一种3D交互手部网格恢复的新方法。通过结合状态空间模型,所提出方法有效地解决了遮挡等挑战。核心创新VM-IFEBlock可以捕获复杂的手依赖,同时优化计算效率。实验表明,它优于最先进的方法,在3D交互手网格恢复基准测试中,在精度和效率方面都取得了卓越的表现。

当然,当前模型在复杂背景和极端光照条件下的鲁棒性有待提高,实时性有待进一步优化以适应实际应用。另外,模型的跨域泛化能力和处理多手交互场景的能力有待增强。未来的研究可以探索更轻量级的架构、自监督学习方法和用户反馈机制,以减少对标记数据的依赖,提高复杂环境下的性能。

本文链接https://news.nweon.com/131531
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯