希腊色萨利大学提出无需相机参数的单目3D手部姿态估计方法

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

从单张彩色图像估计3D手部关节

映维网Nweon 2025年10月27日)从单张彩色图像估计3D手部关节是一个重要的问题,在增强现实和虚拟现实等技术中都有应用。除了缺乏深度信息外,遮挡、关节活动的复杂性以及需要知晓camera参数都带来了额外的挑战。在一项研究中,希腊色萨利大学和Moverse团队提出了一个从2D关键点输入估计3D手部关节的优化流程,其中包括一个关键点对齐步骤和一个指尖损失,以克服需要知晓或估计camera参数的需求。

研究人员在EgoDexter和Dexter+Object基准上评估了所提出方法,结果表明其性能与最先进技术相比具有竞争力,同时在处理没有任何先验camera知识的in-the-wild图像时同样展现了其鲁棒性。尽管使用了手部先验知识,但定量分析凸显了2D关键点估计精度的重要性。

从单个RGB图像重建关节化的3D手部是计算机视觉中一个具有广泛应用,包括增强现实和虚拟现实。然而,由于缺乏深度信息、频繁的物体相关遮挡和自遮挡、未知的camera内参以及手部复杂的关节结构,这是一项艰巨的任务。在研究中,希腊色萨利大学和Moverse团队提出了一种无需先验camera参数知识的单目3D手部姿态估计的替代方法。

所提出方法利用了MediaPipe强大的2D关键点检测能力,结合一个两阶段优化流程,将MANO手部模型拟合到检测到的2D关键点。第一阶段执行刚性变换,将初始的MANO手部模型与2D检测结果对齐,建立粗略的3D姿态估计。第二阶段使用指尖对齐损失和解剖学约束来细化此估计,以确保物理上合理的手部配置。

通过避免依赖已知的camera参数,所提出方法能够在保持精度的同时在in-the-wild环境中执行。解剖学约束充当正则化器,防止不真实的手部姿态,而指尖对齐损失则提高了关键区域的精度。实验证明,即使不知道camera内参,所提出方法与最先进方法相比都能达到有竞争力的性能,这使其成为现实世界应用中的一个实用解决方案。

为了解决从单个RGB图像拟合关节化3D手部的问题,研究人员设计了如图2所示的流程。输入是包含人手的标准RGB图像,输出是具有完全相同姿态和方向的3D手部。流程的第一步是将输入图像通过MediaPipe Hand模型估计器以提取21个手部关键点以及左右手信息(手是左手还是右手)。此过程生成一个对应于输入图像中像素位置的关键点列表,随后将其用作拟合MANO手部模型的ground truth参数。

对于优化步骤,目标是将MANO模型的关键点拟合到从MediaPipe提取的“真实值”关键点。给定MANO的姿态和形状参数,可以通过线性插值获得21个手部关节点位置。MANO将45个姿态参数、10个形状参数和3个全局旋转参数作为输入,生成代表独特手部配置的3D网格。

拟合过程从一个中性的“零”姿态和形状开始。通过一系列变换和迭代优化,调整MANO参数,通过最小化损失函数使其21个关键点与估计的MediaPipe关键点对齐。

一个关键的挑战是当输入手部处于与MANO默认姿态不同的全局旋转时。问题的根源在于初始化:由于没有关于输入手部方向的先验信息,MANO以中性姿态、形状和旋转开始,并且将每个参数初始化为零。然而,如果输入图像中的手部具有显著不同的旋转,例如处于“握手”位置,优化过程会失败,导致完全不合理的手部网格。

为了解决这一挑战,计算一个刚性变换,将中性的MANO关键点与MediaPipe关键点对齐。另外,在开始优化过程之前,应用缩放以确保两组关键点正确对齐。完整的优化流程如图3所示。

使用六个稳定的手掌关节点(即图1中所示的关键点[0,1,5,9,13,17])计算刚性变换,以最小化手指关节活动的影响。为了计算该变换,实现一个自定义函数。其中,所述函数返回一个4×4的变换矩阵,其中左上角的3×3块代表旋转,右上角的3×1列是平移向量,底行用于齐次坐标。

对于缩放,使用目标关键点和MANO关键点中关键点0和5(手腕到食指掌指关节)之间的距离来计算一个比例因子,以确保解剖学上成比例的对齐。在初始对齐之后,使用scipy.minimize来优化MANO参数,特别利用BFGS或L-BFGS方法。

为了提高指尖对齐的准确性,团队探索了加权损失函数,因为他们观察到大多数关键点密集集中在手掌周围。由于损失函数的性质,优化过程主要侧重于最小化这些密集区域的误差,通常导致指尖对齐精度较低。然而,在现实世界的手部运动中,指尖在定义手势和姿态方面起着关键作用,因此其精确定位至关重要。

为了解决这个问题,在所有三种损失函数变体应用了加权损失函数,赋予指尖关键点更高的重要性以确保它们的正确对齐。另外,他们尝试将解剖学关节约束整合到损失函数中,以强制执行物理上合理的手部姿态。然而,这种方法被证明效果不佳,因为它过于严格地限制了优化过程。尽管尝试了各种加权方案,结果并未改善。

相反,团队采用了两阶段优化策略:

阶段1: 使用标准的MSE损失函数来获得手部姿态的初始估计。

阶段2: 使用解剖学损失约束结合仅应用于2D关键点的MSE损失来细化阶段1的输出。这确保了估计的手部保持在现实的解剖学界限内。

优化后,反转刚性变换,以恢复原始比例、方向和位置的MANO关键点和网格。将用于初始化的旋转矩阵、平移向量和比例因子进行逆变换,以将优化后的MANO结果映射回目标坐标系,以便可以直观地检查结果。

为了确定根部姿态,计算从刚性变换导出的旋转矩阵的轴角表示,并将其纳入MANO模型参数中。这确保了全局旋转在最终输出中得到准确表示。这意味着现在得到了一个具有正确全局方向和姿态的3D手部,但形状为零。

希腊色萨利大学提出无需相机参数的单目3D手部姿态估计方法

表1展示了在两个数据集为评估方法而测试的不同实验配置。每个实验由一个字母(ID)标识,并对应特定的优化器和损失函数组合。虽然使用LBFGS优化器测试了所有损失函数组合,但选择性地使用BFGS优化器测试了他们认为最有希望的损失函数设置。

希腊色萨利大学提出无需相机参数的单目3D手部姿态估计方法

表2展示了实验的定量结果,并报告了两个数据集的端点误差(以毫米为单位)和PCK的AUC。发现表明,大多数实验表现良好,结果彼此相当。这种一致性符合预期,因为不同的损失函数都是MSE损失的变体,目标是提高对异常值的鲁棒性。每个指标上表现最好的结果以粗体突出显示,尽管在许多情况下,多种配置实现了相似的结果。

观察表明,加权指尖损失函数倾向于在所有指标上产生稍好的性能。然而,标准损失函数也取得了有竞争力的结果,而加权指尖损失函数的更好结果可能归因于评估数据集主要关注指尖关键点。另外在实验H中,这种集成解剖学约束的两阶段方法导致整体性能更差,尽管它成功纠正了特定情况下由MediaPipe的3D预测引起的深度相关错误。

总体而言,结果表明,最有效的优化器-损失组合是实验A和实验G。这一结果符合预期,因为LBFGS和BFGS密切相关,L-BFGS是内存高效的变体。如果考虑计算效率和准确性,使用带有加权MSE损失组合的L-BFGS的实验A成为最佳选择。

希腊色萨利大学提出无需相机参数的单目3D手部姿态估计方法

图4a和图4b分别比较了上述方法在EgoDexter和Dexter+Object数据集上的性能。在两种情况下,包含解剖学约束的方法表现最差。对于EgoDexter数据集,团队观察到使用加权指尖损失函数的方法优于使用标准损失函数的方法,形成了一个明显的高性能模型簇。但在Dexter+Object数据集上,这种区别不太明显。

表3展示了所提出方法与SotA方法的比较,报告了在Dexter+Object和EgoDexter数据集上的PCK AUC。该表包括基于优化和基于学习的方法。所提出方法在EgoDexter数据集上取得了最高的AUC,优于所有其他方法。对于Dexter+Object数据集,所提出方法与性能最佳的方法几乎不相上下,仅有0.002的微小差异。值得注意的是,所提出方法不仅超越了其他基于优化的方法,而且还优于几种基于学习的方法。这一点尤其重要,因为基于学习的方法通常需要大量的计算资源进行训练。

另外,通过比较表3和表2,团队观察到不仅性能最佳的配置达到了SotA结果,甚至数个替代设置都与该领域的顶级方法保持竞争力。需要强调的是,用于评估的数据集未包含在任何基于学习的方法的训练阶段中,确保了与SotA方法的公平比较。

为了进一步评估所提出方法的性能,图5a–5f中展示了各种场景下的定性结果。图5a和图5b展示了来自EgoDexter数据集的示例。在较简单的情况下(图5a),所提出方法准确预测了手部关键点。然而,在更具挑战性的场景中(图5b),即发生物体交互导致的遮挡时,所提出方法仍然表现得相当好,尽管出现了一些微小的不准确之处。

图5c和图5d比较了不同损失函数对Dexter+Object数据集的影响。简单的MSE损失(图5c)导致预测准确性较低,尤其是在指尖位置。相比之下,使用强调指尖的加权MSE损失(图5d)改善了预测。

图5e展示了一个由极端遮挡引起的失败案例。EgoDexter数据集未为此类情况提供真实值关键点,使得评估变得困难。另外,MediaPipe在此场景中未能检测到手部,这直接影响了所提出方法,因为它依赖其初始关键点预测,而不是数据集中的真实值标注。然而,在MediaPipe成功检测到手部的挑战性较小的情况下,所提出方法仍然有效。

最后,图5f通过估计蒙娜丽莎绘画图像中的手部姿态,证明了所提出方法能够泛化到结构化数据集之外。这表明所提出方法不依赖camera参数,并且可以在in-the-wild RGB图像上运行,使其适用于多样化的现实世界场景。

相关论文Monocular 3D Hand Pose Estimation with Implicit Camera Alignment

https://arxiv.org/pdf/2506.11133

总的来说,团队提出了一种基于优化的解决方案,用于在不知道camera内参的情况下,从单个RGB图像估计人手的3D关节活动。所提出方法利用MediaPipe关键点检测器获得手部关节在2D空间的初始估计,并执行一个使用MANO参数模型的拟合阶段以获得3D关节旋转。对于拟合阶段,结合指尖对齐损失和解剖学约束。广泛的评估表明,所提出方法能够鲁棒地在in-the-wild环境中运行,无需先验的camera参数信息,同时与SotA数据驱动模型相比具有竞争力。

本文链接https://news.nweon.com/135455
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯