研究员提出基于Focalpose改进单RGB图像关节6D姿态和camera焦距估计准确性
韩国庆北国立大学
(映维网Nweon 2024年08月19日)增强现实已迅速成为计算机视觉领域的一项关键技术。能够数字世界与物理世界无缝融合的增强现实能够提高用户参与度和操作效率的有效性。然而,这在很大程度上依赖于6D姿态估计的精度。
随着增强现实从媒体和娱乐扩展到工业和医疗应用,6D姿势估计的进步变得越来越重要。然而,使用不受控制的“in the wild”图像的AR应用程序的兴起带来了新的挑战。这种图像通常缺乏关键的元数据(如焦距),从而对传统的姿态估计方法提出了重大挑战。
所以,韩国庆北国立大学从Focalpose的神经渲染和比较策略汲取灵感,提出了一种能够有效分解从焦距估计z轴平移的方法。团队指出,这种改进不仅简化了估计过程,而且能够在各种实际应用中确保鲁棒性和准确性。
在研究中,团队提出了一种基于Focalpose的方法,而它可以改进单个RGB图像的关节6D姿态和camera焦距估计的准确性。相关改进主要集中在优化神经渲染和比较策略,通过分解焦距和z轴平移的同时估计。
姿态估计的“渲染和比较”涉及到在各种姿势中生成对象的合成图像,然后将渲染与现实世界的图像进行比较。这种技术利用深度学习算法来改进姿态预测,通过最小化渲染合成图像与真实图像之间的差异来确保准确性。
计算机视觉中的“in the wild”图像是指在自然、不受控制的环境中拍摄的照片或视觉数据,而不是在工作室等受控环境中拍摄的照片或视觉数据。在这种图像中,用于捕获图像的摄像头的焦距通常是未知的或未提供的。焦距是传统摄影和计算机视觉中的一个重要参数,因为它影响着视场和图像对象的感知深度和尺度。
尽管大多数研究工作都集中在基于受控图像的单个RGB图像的姿态估计,但基于非受控图像的Focalpose等研究工作很少。
在韩国庆北国立大学的研究中中,团队解决了Focalpose固有的模糊性,亦即z轴平移和焦距的同时预测可能重叠,并导致不确定的结果。这个问题的产生是由于同时估计两个参数,造成类似于在方程中寻找变量的情况。其中的变量是常数,允许多个有效解。
通过固定z轴平移,研究人员显著降低了这种复杂性,并获得了更精确和独特的结果。在AR的背景下,这种精度对于在现实世界场景中准确放置虚拟对象至关重要。通过稳定z轴平移,同时准确估计姿态和焦距,研究人员提高了对象的深度和尺度估计,确保虚拟对象在正确的尺寸和位置呈现。
另外,准确了解摄像头的焦距对于有效校准AR系统至关重要。正确的校准是对齐虚拟和现实坐标的关键,这对于无缝的AR体验至关重要。不正确的焦距会导致对象大小和距离的不匹配,从而减损AR错觉。
当然,尽管固定z轴平移带来了确定它的挑战,但在AR中,可以采用光线投射等技术进行应对。使用光线投射,来自摄像头的光线通过与场景对象相交来识别深度,从而能够在一致的真实世界深度上精确放置虚拟对象。这稳定了z轴平移,提高了姿态和焦距估计,确保了虚拟对象在尺寸和位置上的准确渲染。