Meta研究量化AR头显抖动伪影的可感知性,将感知科学多纳入AR/VR系统设计工程
将感知科学更多地纳入AR和VR系统的设计和工程
(映维网Nweon 2022年11月02日)诸如微软HoloLens 2等AR头显正在不断发展优化,而构建这样的系统需要解决一系列独特的工程挑战。AR之于VR的一个重要区别是,它渲染的虚拟内容仿佛锁定在现实世界之中,亦即所谓的世界锁定World Lock(WL)。
然而,用于实现WL算法的系统架构可能会出现估计错误。例如,渲染和显示每个帧所需的时间要求算法根据先前估计的姿势实时预测用户的六自由度头部姿势。这种延迟可能相对较大,并且在位置快速变化时尤其是一个问题。尽管研究人员尝试通过预测算法来进行补偿,但用户的移动是存在噪点的并且属于非线性,从而导致了实际上不可避免的空间渲染问题,比如说抖动。
对于不同预测算法产生的抖动,Meta认为在量化抖动如何影响整体用户体验之前,明确视觉系统对抖动的基本敏感性至关重要。换言之,如果不清楚用户可以感知到的抖动幅度,就无法开始正确地解释抖动伪影。
简单来说,当使用AR头显时,用户对虚拟内容的感知可能会因渲染和显示管道架构产生的各种感知伪影而降低。特别是,在真实世界中呈现为静止(世界锁定)的虚拟内容可能容易受到空间和时间3D位置误差的影响。误差的一个子集称为抖动,是由空间定位、渲染和显示管道之间的不匹配造成,并且可以表现为预期静止内容的感知运动。
所以,Meta希望使用心理物理方法来量化AR头显抖动伪影的可感知性。在实验中,团队发现抖动感知能力会随着观看距离的增加而增加,并随着背景亮度的增加而降低。不过,虚拟内容的对比度、年龄或AR/VR体验会对抖动感知能力造成太多影响。
综上所述,这项研究量化了用户在AR头显中感知到的抖动程度。所以研究团队指出,在设计下一代空间计算平台时,考虑人类视觉系统的能力和限制至关重要。
1. 实验
Meta展开的研究旨在表征用户对3D WL抖动伪影的感知。他们采用心理物理阶梯程序来测量附加抖动的大小,从而可靠地区分抖动和静止WL虚拟内容。其中,被试通过微软HoloLens 2查看WL内容。在每一次实验中,一个静止的立方体和一个抖动的立方体将随机顺序呈现,然后由被试报告哪个对象出现抖动。
团队将根据抖动幅度的响应模式来估计阈值,通过操纵以下因素来确定抖动感知能力随条件的变化:虚拟内容的查看距离、真实世界的亮度和对比度。
如图A所示,被试将坐在一个开放式房间里,面对一堵白色墙壁,墙壁安装着水平的灰色栏杆,距离5.5米。虚拟内容由微软HoloLens 2显示。然后,无线键盘通过蓝牙与HoloLens 2配对,并记录用户输入和响应。
用于实验的刺激是在左右和上下轴的视场中心呈现的灰度3D立方体。立方体每一侧的对角线对向10°视角。每个立方体围绕垂直于视线的平面旋转45°,使一个边缘指向被试
每一次试验都展示了两个立方体,而它们会根据增加的3D抖动大小而变化。其中,一个立方体(参考)总是在没有添加3D抖动的情况下渲染,所以唯一检测到的抖动是由HoloLens 2追踪系统产生的抖动。另一个立方体(目标)则渲染为使用抖动的时空模型有节奏地变化。
抖动模型的规格如下:
-
3D位置根据10Hz频率振荡而变化;
-
同时操纵[X,Y,Z]抖动方向,形成潜在抖动方向的3D“球体”
-
从均匀分布的潜在球面角中为每个振荡周期选择一个独特的角度方向
-
以及从均匀分布中随机选择每个周期的振幅。
被试共完成了3次实验,并在结束后报告了第一个或第二个立方体是否出现了更多的抖动。团队操纵了三个独立变量,以确定抖动感知如何随观看条件而变化:
-
渲染对象的深度观看距离
-
背景亮度
-
虚拟内容的对比度。
为了精确确定显示预期对比度所需的显示亮度,研究人员测量了使用的每个背景亮度水平的HoloLens2伽马曲线。为确保没有光污染,测量是在一个带遮光窗帘的封闭橱柜内进行。然后他们使用可调节的头顶光源来近似每个背景亮度水平。一个定制的Unity应用程序提供了一个灰度3D立方体,并系统地改变了从最小到最大显示能力的亮度。所得伽马曲线用于确定后续实验中使用的亮度设置。随后的研究中使用了用于测量的特定HoloLens 2,从而确保实验中使用的设置准确。
接下来,Meta团队使用心理物理阶梯程序调整了添加到目标的抖动幅度,并获得阈值的估计值。心里物理阶梯的逻辑如下。当目标和参考之间的抖动幅度差异较大时,被试将始终正确地辨别哪个立方体被渲染为抖动。这时,应该通过减少添加到目标的抖动幅度来减少抖动幅度的差异,从而呈现接近观察者阈值的值。
当目标和参考之间的抖动幅度差异足够小时,应该增加添加到目标的抖动幅度。在试验过程中,返回的抖动幅度会动态减小/增加。上面的图B显示了返回的一系列抖动值。
为了获得80%正确阈值的估计值,研究人员首先将每个试验的抖动幅度从公制单位转换为视网膜角度单位(弧分)。对于每个阶梯,他们计算了每个反转点的抖动幅度的平均值,结果是每个被试的估计阈值,以及观看距离、背景亮度和对比度的组合。
2. 结果
2.1 抖动阈值表示亚像素可感知性
团队首先确定了抖动阈值的大小与用于进行研究的HoloLens 2的像素间距相比如何。HoloLens 2的像素间距没有明确的、公开的值。微软的设备规格报告称,HoloLens 2的“全息密度”大于2500弧度(每个雷达的光点),假设从光点到像素的映射为1:1,则转换为每像素1.4弧分。作为对比,独立报告支出估计像素间距为每像素3弧分。
Meta团队将这两个估计值视为潜在像素间距值的近似范围,并用于比较研究中的测量结果。背景亮度、视距和对比度的每个组合的估计阈值如图2所示。每个图分别描绘了每个背景亮度水平的数据(左:10 Cd/m2,中:60 Cd/m3,右:100 Cd/m4)。
在每个图中,横坐标对应于观看距离,而阈值则绘制在纵坐标上。对比度根据右侧的图例进行颜色编码。每个圆圈标记是所有被试的平均阈值,误差条代表95%的置信区间。单个被试阈值用灰色三角形表示。潜在像素间距的范围用红色虚线表示。
很明显,在大多数情况下,平均阈值等于或低于3弧分的像素间距上限估计值。这一观察得到了定量证实:82%(187/228)的单个被试阈值和92.6%(25/27)的平均阈值小于或等于3。如果使用更保守的标准,27.6%(63/228)的单个被试阈值和3.7%(1/27)的平均阈值小于或等于1.4弧分。
综上所述,所述数据表明有被试感知到了亚像素抖动。
2.2 自变量的影响
接下来,通过评估回归模型中相应参数的统计显著性,团队确定自变量是否调制了抖动感知能力。
参数估计值和估计p值如表1所示。对于视距,阈值随距离的增加而降低:1m处的阈值明显大于2m处的阈值,2m处的大于5m处的阈值。对于背景亮度,在10 Cd/m2时阈值小于在60 Cd/m 2时阈值(β=0.75,S.E.=0.330,t194.1=2.26,p<0.05),而在10 Cd/m2时,阈值略小于在100 Cd/m3时阈值(α=0.90,S.E.0.482,t194.06=1.86,p=0.06)。
对比度水平之间的参数测试差异均不显著(所有p均>0.1)。为了计算影响大小的度量,研究人员使用嵌套模型方法进行了似然比测试,即通过指定越来越复杂的模型来构建完整模型。通过计算较简单和较复杂模型之间的对数似然比(LR),所述方法量化了由于添加参数而增加的模型复杂度是否会导致性能(拟合优度)比单独通过偶然获得的更大的改善。
更大的LR表示更复杂模型的拟合优度提高。在零模型(因变量由其总体平均值预测)中,添加视距的主要影响会导致显著更好的拟合(LR=35.01,p<0.001),而对比度(LR=2.89,p>.05)或背景亮度(LR=1.23,p>.005)的主要影响则不是如此。
包括交互在内的完整模型的表现明显优于仅具有主要影响的模型(LR=7.09,p<0.05)。
2.3 年龄和AR/VR经验的影响
回归模型包括参与被试和使用AR/VR的经验年数作为协变量,从而确保自变量的参数估计不受混杂变量的影响。
这里,团队提供了WL虚拟内容抖动感知能力的第一个心理物理测量。阈值和可感知性呈负相关:阈值越大,表示在观看条件下抖动越不易感知,而阈值越小,表示抖动越容易感知。
研究人员观察到,随着距观察者观看距离的增加,阈值降低。对于1m处与2m处相比阈值增加的一个合理解释是,观察者在观看任意距离处的虚拟立方体时所经历的视觉辐辏调节冲突(VAC)大小存在差异。
HoloLens 2的近似焦距为2米,这表明在此距离处呈现的立方体的VAC应该很少。然而,对于1米条件,观察者必须调节2米(0.5 D)的距离,并会聚在1米(1 D)处,导致VAC约为0.5 D。先前的研究报告,在固定焦距AR显示器任一侧出现超过0.5 D的虚拟内容会看起来模糊,而采用VR显示器的其他研究发现,观看距离显示器焦平面超过0.5D的刺激会导致不适。
研究人员提出在未来的研究中测试更大范围的VAC,同时控制物理物体的接近度。另外,未来的研究应该测试中间视觉范围内的背景亮度水平,并且使用具有已知头部追踪和WL渲染性能水平的实验测试台来确定相关因素如何调节抖动感知能力。
但证据表明,在本研究中测试的超阈值范围内,抖动感知能力不随对比度而变化。类似的逻辑适用于我们模型中包含的年龄变量。特别是,由于年龄相关的视觉处理障碍,老年观察者在某些视觉任务中表现较差,这表明老年人的抖动阈值更大(感知能力降低)。在研究中,参与者的平均年龄是34.9岁,而年龄最大的参与者是53岁。这意味着样本可能太年轻,无法观察到任何年龄差异。所以,未来的研究应该包括更广泛的人口统计数据。
最后,团队发现一些参与者在观看条件的子集下感知到亚像素抖动并不一定直观,因为这与普遍认为像素是可渲染精度的最小单位的概念相冲突。这一假设不成立的原因至少有三个,而且并非相互排斥。
-
首先,任何光栅显示器都可以通过将给定像素的强度值分布到相邻像素(即抗锯齿),并以亚像素分辨率进行渲染。本研究中使用的虚拟立方体在Unity程序中确实是抗锯齿。
-
第二,位深度大于1的显示器可以在将边缘投影到显示像素上之前,在虚拟纹理空间中渲染边缘,这与抗锯齿一起产生的有效渲染分辨率明显高于显示器的像素间距。
-
第三,观察者对渲染对象的感知是一个复杂的估计过程的结果,其依赖于通过神经活动群体对视觉信息的编码和解码。大脑对物体位置的估计不是基于像素或渲染引擎,而是基于物体视觉特性的概率时空表示。因此,即使在一个极端的假设情况下,抖动立方体呈现为纯离散像素时都没有抗锯齿,神经活动的诱发模式可能会产生亚像素量级的平稳振荡运动。
综上所述,本研究中的观察者完全有可能感知到亚像素抖动,而他们在估计HoloLens 2像素间距范围内或以下的阈值测量结果表明,一些观察者确实感知到了亚像素抖动。
当然,团队承认本次实验存在一定的限制。例如,测量不能提供绝对抖动感知能力的测量,以及与HoloLens 2渲染管道和显示功能细节相关的不确定性使得结果不一定适用于其他AR头显等等。
相关论文:Perceptibility of Jitter in Augmented Reality Head-Mounted Displays
总的来说,越发有声音主张将感知科学更多地纳入AR和VR系统的设计和工程。Meta研究中采用的心理物理方法为量化和理解感知体验提供了有价值的工具。另外,心理物理方法已经发展了几十年,并在现代基础和应用研究中广泛应用,而这使得研究人员能够使用既成熟又新颖的方法来回答基本的感知问题。总之,Meta表示:如果不了解每个方面对用户感知系统的影响,就无法构建令人信服的AR/VR设备。