芝浦工大提出Vote-based多模态融合框架,手持物体姿态估计精度提升13.9%
查看引用/信息源请点击:techxplore
姿态估计
(映维网Nweon 2025年05月06日)对于AR等用例,估计手持物体姿态是一项重要但具有挑战性的任务。一个前景方向是利用多模态数据,如颜色RGB和深度图像。随着3D传感器的日益普及,一系列的机器学习方法已经出现。
然而,现有的方法面临两个主要挑战。首先,当手遮挡所持物体时,它们会面临精度下降的问题,从而模糊了姿态估计所需的关键特征。另外,手-对象交互引入了非刚性转换,令问题进一步复杂化。当手改变握着物体的形状或结构时,就会发生这种情况,比如挤压一个软球时,会扭曲物体的感知形状。
其次,目前大多数技术从单独的RGB和RGB- D主干中提取特征,然后在特征级别进行融合。由于这两个主干处理本质上不同的模态,这种融合可能导致表征分布的变化,意味着从RGB图像中学习到的特征可能与从RGB- D输入中提取的特征不一致,从而影响姿态估计。另外在微调期间,两个主干网之间的密集交互会导致性能中断,并限制了合并RGB特性的好处。
为了解决相关问题,日本芝浦工业大学团队开发了一种创新的深度神经网络,专门用于使用RGB-D图像进行姿态估计。
研究人员指出:“我们深度学习框架的关键创新在于基于Vote的融合机制,有效地集成了2D (RGB)和3D(深度)关键点,同时解决了手引起的遮挡和融合多模态数据的困难。另外,它解耦了学习过程,并结合了一个基于自注意的手-物交互模型,从而产生了实质性的改进。”
所提出的深度学习框架由四个部分组成:从2D图像和3D点云数据中提取高维特征的主干、Vote模块、基于Vote的新型融合模块和手部感知对象姿态估计模块。
一开始,2D和3D骨架从RGB-D图像中预测手和物体的2D和3D关键点。关键点是指输入图像中有意义的位置,有助于描述手和物体的姿态。接下来,每个骨干中的Vote模块独立地为各自的关键点投票。
然后通过基于Vote的融合模型对投票进行整合。模型使用基于半径的邻域投影和通道关注机制动态地将2D和3D投票组合在一起。前者保留局部信息,而后者适应不同的输入条件,从而确保鲁棒性和准确性。
这种基于Vote的融合有效地利用了RGB和深度信息的优势,减轻了手引起的遮挡和不对齐的影响,从而实现了准确的手-物体姿态估计。
最后一个组件是手感知物体姿态估计模块,通过使用自注意机制捕获手和物体关键点之间的复杂关系,进一步提高了精度。这允许系统考虑由不同手的姿态和握持引起的非刚性转换。
为了测试框架,研究人员在三个公共数据集进行了实验。结果表明,与最先进的方法相比,所述方法在准确性(高达15%)和稳健性方面有了显著提高。
另外,现场实验表明,平均精度为76.8%,与现有方法相比性能提高高达13.9%。不仅只是这样,框架在没有细化的情况下实现了40毫秒和200毫秒的推理时间,证明了现实世界的适用性。
团队表示:“我们的方法不仅更准确,而且比许多现有技术更简单。它有可能加速人工智能系统的部署,比如沉浸式AR/VR技术。”
相关论文:Vote-based multimodal fusion for hand-held object pose estimation
总的来说,这种创新的方法可以帮助推进AR技术,帮助模拟更逼真的手-物交互。