台湾大学分享基于单目SLAM的多用户AR定位系统,实现厘米级协同与真实遮挡
多用户定位系统
(映维网Nweon 2025年04月23日)近年来,随着AR技术的快速发展,对多用户协同体验的需求日益增长。与单用户体验不同,确保每个用户的空间定位并保持多个用户之间定位和方向的同步和一致性是一个重大挑战。
在一项研究中,台湾大学和JorJin Technologies基于Unity 3D游戏引擎,以单目RGB图像为开发平台,提出了一种基于ORB-SLAM2的多用户定位系统。
系统不仅执行用户定位,而且将一个通用的虚拟对象放置在环境中的平面,以便每个用户都能正确地透视该对象。生成的虚拟对象可作为多用户位置同步的参考点,而定位信息通过中央服务器在每个用户的AR设备之间传递。
以其为基础,其他用户在特定用户空间中的相对位置和运动通过虚拟化身呈现。另外,使用深度学习技术从单个RGB图像中估计图像的深度图,以解决AR应用中的遮挡问题,令虚拟对象在AR场景中显得更加自然。
增强现实技术将3D虚拟模型、图像和声音叠加到现实世界中,允许人们使用智能手机、平板电脑和AR眼镜等设备看到虚拟对象并与之交互。随着AR技术在过去数年间的快速发展,越来越多的AR应用正朝着多用户体验的方向发展。
无论在哪个领域,AR应用通常都需要实现诸如用户定位和追踪、环境场景理解和遮挡处理等技术。
多用户定位和追踪是AR应用中的一项关键技术。其主要目的是确定用户在现实世界中的位置和方向,并利用网络通信技术将每个用户的位置信息传输到其他用户的设备,以实现虚拟对象的精确放置。
定位技术通常包括基于标记和无标记的定位方法。基于标记的AR定位需要放置特定的现实世界标记,如QR码或图像,并使用摄像头识别和追踪它们。这个方法可以实现较高的定位精度,因为标记提供了清晰的位置和方向信息,所以可以很容易地将虚拟物体放置在精确的位置。我们可以很容易地根据标记计算和同步每个用户的位置和方向。但是,如果在用户的视场范围内没有标记,则追踪功能无法继续。
另一方面,无标记AR定位技术可以通过识别场景中的特征点来确定虚拟对象的位置,不需要特殊的标记,更加方便。这种方法利用摄像头或其他传感器捕获真实场景中的特征点,如墙壁、桌子和椅子,并使用计算机视觉技术进行识别和追踪。
诸如ORB-SLAM2的无标记定位使用环境中的特征点来确定用户的摄像头姿势。然而,目前只有少数成熟的方法利用所述技术对多个用户分别停留在不同位置的多个坐标系进行对齐。
环境场景理解技术是AR应用中最重要的技术之一,通常用于确定虚拟对象应该放置的适当位置,例如现实世界中的桌子表面。
遮挡同时是AR应用中需要解决的一个重要问题。遮挡是指虚拟对象被现实世界物体遮挡或隐藏的准确表现。在传统的AR应用中,虚拟对象直接叠加在图像上,使得虚拟物体持续出现在真实物体之上并遮挡真实物体。这将极大地影响AR应用程序的真实感和交互性。
所以在这项研究中,团队提出了一种解决了同步多个用户在不同空间定位的挑战的全新AR系统,这样用户就可以在他们的物理空间中查看所有其他人的Avatar,并通过确定适当的平面来放置虚拟对象供所有人查看。另外,系统旨在从单个RGB图像中估计环境的深度图,专门为遮挡处理设计。
图2给出了设计的多用户定位系统架构,概念目标应用如图1所示。一群戴着AR眼镜的人围坐在一张工作桌旁进行讨论,其中一个虚拟化身作为远程参与者。这允许参与者跨越物理边界进行交流,并在他们的环境中看到虚拟对象和信息。
所提出的系统可以分为四个主要组成:
-
定位模块利用摄像头拍摄的RGB图像,通过SLAM算法,准确估计用户的摄像头姿态,并用于在Unity中更新虚拟摄像头,从而从用户的角度正确渲染虚拟对象。
-
平面估计模块,利用SLAM过程生成的映射信息,在环境中识别出适合放置虚拟对象的平面
-
协调服务器,在多个用户之间协调坐标系统和平面信息,促进所有参与者之间的信息交换和协作。
-
深度服务器采用深度学习模型估计每帧真实环境的深度图,并在Unity中处理深度图的遮挡问题,增强AR体验的整体真实感。
相关论文:A Monocular SLAM-based Multi-User Positioning System with Image Occlusion in Augmented Reality
总的来说,团队主要提出了一个多用户定位系统,它能够准确地将虚拟对象放置在桌面,并使用ORB-SLAM2以正确的角度呈现它们。
为了实现远程协作,他们利用估计的平面作为参考框架来对齐多个参与者的SLAM坐标系,从而在AR环境中展示同步的角色运动。另外,结合了Midas的单目深度估计模型来模拟遮挡效果。
研究人员指出,这一系统可以作为开发人员的工具,为开发多用户AR应用程序提供必要的技术。他们对系统中的不同模块进行了一系列的实验来验证它们的性能。比例尺标定过程和平面估计模块的定性结果表明,系统能够准确计算SLAM映射与真实环境之间的比例尺,并精确地将虚拟对象放置在桌子表面。
定位模块的定量和定性结果则表明,系统可以准确地追踪用户的姿势,并将虚拟对象保持在期望的位置。
与商业解决方案Vuforia相比,定位模块在RMSE方面只有0.0065米的平移误差和0.6302度的旋转误差。
当然,他们认识到,随着用户数量的增加,系统不能很好地扩展,所以,未来的研究将继续进行探索。