芝浦工大提出Vote-based多模态融合框架,手持物体姿态估计精度提升13.9%
查看引用/信息源请点击:techxplore
姿态估计
(映维网Nweon 2025年05月06日)对于AR等用例,估计手持物体姿态是一项重要但具有挑战性的任务。一个前景方向是利用多模态数据,如颜色RGB和深度图像。随着3D传感器的日益普及,一系列的机器学习方法已经出现。
然而,现有的方法面临两个主要挑战。首先,当手遮挡所持物体时,它们会面临精度下降的问题,从而模糊了姿态估计所需的关键特征。另外,手-对象交互引入了非刚性转换,令问题进一步复杂化。当手改变握着物体的形状或结构时,就会发生这种情况,比如挤压一个软球时,会扭曲物体的感知形状。
其次,目前大多数技术从单独的RGB和RGB- D主干中提取特征,然后在特征级别进行融合。由于这两个主干处理本质上不同的模态,这种融合可能导致表征分布的变化,意味着从RGB图像中学习到的特征可能与从RGB- D输入中提取的特征不一致,从而影响姿态估计。另外在微调期间,两个主干网之间的密集交互会导致性能中断,并限制了合并RGB特性的好处。
为了解决相关问题,日本芝浦工业大学团队开发了一种创新的深度神经网络,专门用于使用RGB-D图像进行姿态估计。
......(全文 1081 字,剩余 672 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限