Linux平台OpenXR Monado手部追踪实现与优化

编辑：刘余欣 | 分类：快讯 | 2022年7月19日

加入映维网会员

手部追踪管道

（映维网Nweon 2022年07月19日）成立于2005年的Collabora主要从事开源软件的咨询、培训和项目管理，同时是一系列开源软件的贡献者和维护者。这家组织同时是Khronos的成员，并已经发布了开源的OpenXR运行时Monado。

对于这个项目，团队一直在积极实现和优化手部追踪管道。日前，实习生摩西斯·特纳（Moses Turner）撰文介绍了他在2021年夏天时参与相关项目的经历。下面是映维网的具体整理：

Linux平台OpenXR Monado手部追踪实现与优化

作为在Collabora实习的一环，我选择了Monado的手部追踪项目。今天，我将概述我在2021夏天的经历。需要注意的是，团队已从我的撰文描述不断前进，并取得了相当大的进步。最重要的是，这篇文章主要是为了说明在Collabora实习是多么的棒。

我是在项目进行到一半的时候参与其中。当时团队已经完成了模型架构方面的工作，并开发了训练模型的独特技术。对于我加入的时候，团队正在将经过训练的模型部署到Monado。XR的光学手部追踪是一项非常困难的追踪任务。事实上，它涉及获取训练数据，训练神经网络，并将其部署在实时、低延迟的环境中，比如说XR。当我开始工作时，我对计算机视觉几乎没有什么经验。但是，总有人需要承担起工作。所以，上就上吧。

数个月后，Monado运行着这个手部追踪管道：

使用Valve Index：

使用我定制的North Star设置：

性能不是非常好，但据我所知，这依然是迄今为止适合XR和支持Linux的最佳光学手部追踪。据我所知，我是地球第一个利用Valve Index机载摄像头进行光学手部追踪的人员。

1. 工作原理

1.1 机器学习模型

我们使用了Mediapipe的模型架构，但我们使用自己的训练数据和训练管道。

1.2 使用ONNX运行时而不是Tensorflow-Lite进行推理

我们决定不使用Mediapipe，因为它的C++库非常繁重，并且是使用Bazel构建。如果你想与CMake/Meson兼容，Bazel的恼人可是出了名的。Monado非常轻盈，易于构建，所以两者不是非常合适。

相反，我们使用ONNX Runtime来运行ML模型，这是一个非常好的选择。在我们的测试中，它比Tensorflow Lite快得多，而且它是一个简单的CMake build。另外，它可以与热门开放文件格式，同时是机器学习模型的事实标准ONNX一起运行。使用ONNX使得尝试其他推理平台变得更加容易。在今天这个年代，似乎什么都有办法在ONNX及其本机格式之间来回切换。互操作性+1。

1.3 基于关键点三角剖分的绝对深度

我们的ML模型在“2.5d坐标”中估计手部landmark，其中关键点位置在像素坐标和相对于手腕的深度中预测。模型没有直接说明手相对于camera的绝对深度。这是一个问题，因为我们非常关心相对于camera的绝对深度。

如果你的虚拟手部没有出现在与真实手部相同的位置，并且没有像真实手部一样在空间中移动，你就会觉得非常奇怪，难以使用。所以，我们在两个视图中运行所有模型，找到手部的关键点，并将其扩展为从camera中发出的光线。我们估计每组光线之间最近相交处的每个手部关节。

效果相当好，但抖动可能同样相当明显。

如你所见，抖动相当明显。仅仅使用三角测量尚不够好。考虑到时间短，我们选择了最简单的方法来纠正抖动。

1.4 Euro Filtering

考虑到时间有限，我们使用了One Euro Filter。对于平滑我们充满噪点的样本，这是一种常用的、可以快速实现的方法。作为一种Infinite Impulse Response filter，One Euro Filter储存内部状态（在本例中为3D位置向量），对于接收到的第一个样本，它将内部状态设置成与第一个样本一模一样。然后，在接收到新样本后，它会在其内部状态和新样本之间的某个位置进行插值。

如果插值太接近新采样，则延迟很低，但抖动不会减少太多。如果不进行太多插值，它会相当平滑，但会有很多延迟。所以，我们调整One Euro Filter，使其在手指测量只是抖动时不进行太多插值，但在我们认为手部实际上在移动时进行大量插值。有很多方法可以进行滤波，而One Euro Filter非常容易实现。但在大多数情况下，它们会增加太多的延迟，无法在XR中使用，因此我们已经选择了新的追踪方法。

1.5 其他

我想谈的有很多，下面简单地过一遍：

这个管道使用的机器学习模型并没有推断出惯用手，所以我想出了一个非常巧妙的启发式方法来解决这个问题。对于四个手指中的每一个，它取每个关节指向的方向与下一关节指向的方向的叉积。由于手关节（通常）只向一个方向卷曲，如果大多数叉积指向拇指，我们猜测它是右手；否则，我们猜是左手。这是一种非常愚蠢的方式，但就其本身而言，它的效果却出奇地好。
对于这个管道，在每一帧中都会重新检测所有手。为了找出当前观察到的手和以前观察到的手之间的对应关系，我编写了一个相当复杂的排序方法。
“关键点估计器”（估计手部关键点的神经网络）只估计手上的21个关键点，而忽略了靠近手掌底部的四个掌骨关节。但是，OpenXR的 XR_EXT_hand_tracking需要我们对其进行估计，因此我们只需在近端关节和腕关节之间进行线性插值。

2. 限制和如何解决

2.1 每帧运行检测模型

官方的Mediapipe实现只会偶尔运行一次手部检测模型，然后对于所有后续帧，它会以像素坐标预测新手应该在哪里，只根据过去两帧中预测的关键点进行预测。由于手部目标区域有一点额外的空间，因此预测的目标区域不必完美，只需以合理的规模包含整个手部。因此，当你的手缓慢移动时，这会好得多，因为：

它将每帧的计算量减少了大约60%；
检测模型预测的目标区域存在大量的抖动，使用这种预测方法会更加平滑。

但当你的手移动得太快时，Mediapipe的方法会失败，而我们的方法则不会。这是一种折衷。如果这是一种二分法，正常的Mediapipe方式可能会更好。但事实并非如此。当然，还有第三种选择。

2.2 左右手混在一起

如果你只是完全平放双手，它会弄糊涂。

解决方法非常简单，训练一个对手进行分类的神经网络。

2.3 目标区域定位

Mediapipe的关键点估计模型期望旋转输入图像，使手指位于顶部。所以，如果你把你的手像这样平放会怎么样呢：

嗯，没什么好。你可以看到追踪完全崩溃。问题是，如果手指在中间，旋转变化会很大。它会做点什么，但不是你想要的结果。其他大多数Mediapipe实现都能更好地处理这一问题，但在所有情况下，这都是一个明显的痛点，因为它的失败远远超出了你的预期。另一个简单的解决方法是，我们训练了不期望手在某些特定方向出现的新模型，而它们的效果非常好。

2.5 棘手的拳头姿势

如视频所示，检测模型和关键点模型都以失败告终。我的猜测是，训练数据中没有太多拳头的例子。解决方案非常：只需在训练数据中加入更多的拳头。

2.6 无运动约束

由于我们只是简单地对关键点进行三角测量，如果有一些模型失败，深度可能会大错特错，而且你的手会有数米长。正确的做法是使用某种方法来约束骨骼长度随时间保持不变，同时强制虚拟手指仅以人类手指可以弯曲的方式弯曲。正确地做到这一点很复杂，但今天我们几乎可以做到。

2.7 RGB摄像头的光效较低

许多用于计算机视觉的摄像头，尤其是大多数WMR头显和Quest头显的摄像头都无法提供彩色图像。传感器的每个“细胞”只看到一个光强度值，无法区分颜色。这种摄像头与你熟悉和喜爱的普通RGB摄像头之间的唯一区别是，灰度摄像头在传感器单元上没有滤色器。所以，它们是色盲，但每个传感器都能看到所有照射到它的光。因此，它们可以接收到更多的光，所以我们说灰度摄像头通常比RGB摄像头更“高效”。

在这里，看到尽可能多的光线非常重要。如果太暗，摄像头必须长时间曝光，手就会变得模糊，有时很难区分手指。如果我们训练对灰度图像进行操作的神经网络，我们就可以利用灰度摄像头的更高效率，并能够在更恶劣的条件下追踪手部。

2.8 好于预期，下一步！

考虑到项目这一部分的时间跨度很短，而且我刚开始时知道的很少，所以这个管道能正常工作令这我非常惊讶。我对迄今为止的进展感到兴奋。

自这个夏季项目结束以来，我们将学到的所有知识应用于训练更好的手部追踪管道。我们不想在这里深究，但简单介绍一下不会有什么坏处：

这是我最近录制的一个演示。所有一切都还在进行研发之中，而最终的产品会更好。在它真正成熟之前，我们还有很多工作要做。

3. 要不要试试我们的手部追踪？

当然，我向你展示的追踪性能尚不足以令人感到惊讶，但它是Linux端最好的产品，值得一试。如果你有Valve Index，你可以使用libsurvive构建Monado，并遵循这里的说明。

4. 想在Collabora从事类似的工作吗？

我认为这个项目真的很酷。在过去的四年里，我一直对开源软件、人机界面、计算机视觉以及知识共享无限制的自由非常感兴趣。获得实习机会对我来说是梦想成真。这意味着我可以在压力最小、工作与生活平衡良好的情况下全职从事我真正热爱的工作。

在加入项目之后，我学到了很多新东西。在Collabora，我训练了我的第一个神经网络。从那以后，我一直在学习并直接应用我所能学到的一切知识。在加入Collabora之前，我对Kalman Filters和One Euro Filters只是略知一二，但我从未在现实世界中应用过它们。我原来只是在学习理论，但现在我可以进行实际应用。

如果以上听起来像是随机的技术性话题，这正是目的。在Collabora，我可以毫不分心地深入研究机器视觉问题。

下面看看Collbora的XR团队中正在开展的工作吧：

我们致力于SLAM/VIO，这是一个完全不同的领域！光学手部追踪与SLAM唯一真正的共同点是，它使用相同的摄像头，而且运行速度非常快。
我们开发并维护xrdesktop，这是一个专为与传统桌面应用程序进行空间交互而设计的库。这是完全不同的领域。它的主要关注点不是追踪，而是计算机图形和用户体验。我们在去年夏天已经成功地完成了代码工作。
我们是Khronos OpenXR工作组的积极参与者，并致力于为你带来开放的、跨平台的、可互操作的XR。
当然，我们有Monado，我们正在与开源社区一起构建的OpenXR运行时！

对于XR而言，现在是一个非常吸引人的时刻，有大量有趣的项目等着你。几乎每天我都会出门工作而感到由衷的兴奋。毫无疑问，我热爱我所做的工作，能够在公开场合进行研究真的非常令人惊讶。我有幸知道，它将永远对所有人开放。无论我走到哪里，我都可以自由地使用、应用和讨论我现在正在做的工作。

如果你对软件自由感兴趣，对XR的low level生活感兴趣，我建议你申请成为实习生，或者是向Collabora申请工程职位。我保证你不会后悔，你会遇到一群不可思议的人，并且你会学到很多东西。