雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Pathformer3D: 基于三维球坐标系的360°图像扫描路径预测与时空依赖建模

查看引用/信息源请点击:映维网Nweon

三维扫描路径转换器Pathformer3D

映维网Nweon 2025年01月02日)360度图像的扫描路径预测有助于在虚拟现实/增强现实应用中实现快速渲染和更好的用户交互。然而,现有的360度图像扫描路径预测模型都是在二维等矩形投影平面进行扫描路径预测,而二维平面的畸变和坐标不连续导致计算误差较大。

在一项研究中,南京航空航天大学对三维球面坐标系下的360度图像进行扫描路径预测,并提出了一种新的三维扫描路径转换器Pathformer3D。

具体来说,首先使用3D Transformer编码器来提取360度图像的3D上下文特征表示。然后,将上下文特征表示和历史注视信息输入到Transformer解码器中,输出当前时间步长的注视嵌入。其中自注意模块模仿人类视觉系统的视觉工作记忆机制,直接建模注视之间的时间依赖性。

最后,从每个注视点嵌入中学习一个三维高斯分布,并从中采样注视位置。对四个全景眼动追踪数据集的评估表明,Pathformer3D优于当前最先进的方法。

近年来,虚拟现实和增强现实技术取得了重大进展。同时,理解和模仿人类探索虚拟环境360度图像的方式变得越来越重要,因为它可以帮助实现更实用和快速的渲染,从而提高沉浸式环境中的用户交互。

360度图像扫描路径预测是指在360度图像探索过程中,预测人类的视线移动路径。现有的扫描路径预测研究主要集中在二维图像,而360度图像是VR/AR环境的明显特征。360度图像提供了身临其境的交互环境,用户可以通过物理移动头部来改变视角,从而产生了更广泛的注视分布。

360度图像包含了更丰富的视觉信息,用户需要更多的时间来处理和吸收。另外,360度图像的数据结构与二维图像不同,对数据处理和分析提出了新的要求。所以,现有的二维图像扫描路径预测方法不能直接应用于360度图像的扫描路径预测。

早期用于预测360度图像扫描路径的方法涉及基于显著性信息的采样注视点,以获得整个扫描路径。随着生成对抗网络的发展,有研究人员利用生成网络直接从360度图像中生成整个路径。相关方法已经有了初步的结果,但忽略了注视间时间依赖性的建模,而注视间时间依赖性是人类视觉注意机制的一个非常重要的特征,所以往往导致预测结果不稳定。

最近,有研究人员认识到需要对时间依赖性进行综合处理,并通过循环神经网络或马尔可夫链对其进行建模。然而,相关方法将所有历史注视点信息集成到单个隐藏单元中,并仅从所述隐藏单元生成当前注视点。在这种情况下,注视点之间的时间依赖关系只能间接建模,所以历史注视点的影响将大大削弱。

另外,上述方法均预测360度图像二维等矩形投影的注视点,而这存在经度引起的坐标不连续问题,不同位置的畸变程度不同。所以,在此2D等矩形投影预测的注视点将有很大的误差范围。

为了解决上述问题,南京航空航天大学团队提出了一种360度图像扫描路径预测模型Pathformer3D。它可以在360度图像的三维球坐标中预测注视点,并直接建模注视点之间的时间依赖关系,从而更逼真地模拟人类在沉浸式环境中的浏览行为。

具体而言,给定一幅360度图像的二维等矩形投影,首先将其转换为三维球面坐标系,然后利用球面卷积提取其视觉特征。在提取3D视觉特征后,利用3D Transformer编码器来学习每个360度图像区域的上下文特征表示,考虑它们之间的长距离空间依赖关系。

接下来,利用Transformer解码器直接从整个图像的视觉特征和历史注视中学习每个时间步的注视嵌入。其中,使用自注意模块模拟人类视觉工作记忆机制来模拟当前注视与所有历史注视之间的时间依赖关系。

在获得每个时间步长的注视点嵌入后,采用三维混合密度网络学习每个注视点的三维高斯分布,并从中采样注视点位置。利用三维高斯分布对三维空间中注视点的位置似然进行建模,考虑不同个体扫描路径的差异,可以得到更加鲁棒和真实的扫描路径。

相关论文Pathformer3D: A 3D Scanpath Transformer for 360° Images

总的来说,团队针对360度图像二维等矩形投影存在畸变和坐标不连续的问题,提出在三维球坐标系下对360度图像进行扫描路径预测。相应地,他们提出了一种名为Pathformer3D的新型3D扫描路径转换器。

其中,首先使用3D Transformer编码器来获得360度图像的3D上下文特征表示。然后,Pathformer3D将3D上下文特征表示和历史注视信息输入到Transformer解码器中,以预测每次注视的隐藏状态。然后将每个注视点的隐藏状态输入到三维混合密度网络中,输出注视点的三维高斯分布,从中可以采样注视点位置。

最后,研究人员将Pathformer3D模型与三种最先进的360度图像扫描路径预测模型进行了比较,并证明了其性能的优越性。

本文链接https://news.nweon.com/126811
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯