显示技术专家Karl:Vision Pro图像质量问题之初印象
Apple Vision Pro的图像质量问题–初印象
(映维网Nweon 2024年02月21日)自Vision Pro在2023年6月发布以来,近眼显示技术专家卡尔·古塔格(Karl Guttag)就一直在分享他对苹果Vision Pro的技术分析,包括与Quest Pro的对比,Pancake光学元件分析等等。
延伸阅读:显示技术专家Karl:Vision Pro vs Quest Pro 的技术对比
延伸阅读:显示技术专家Karl:Vision Pro的硬件问题分析探讨
延伸阅读:显示技术专家Karl:从FOV分析Vision Pro的观影体验效果
延伸阅读:显示技术专家Karl:Vision Pro的Pancake光学元件分析
延伸阅读:显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法
延伸阅读:显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法-Part B
延伸阅读:专家Karl Guttag分享Vision Pro原生办公Excel app实测效果
对于日前发布的最新博文,古塔格主要介绍了他对Vision Pro图像质量问题的初步印象。
引言
我经常这样说和写:“简单的测试图案通常是显示系统最难搞定的,因为眼睛会知道什么时候出了问题。如果显示的是平面白色图像,而你看到的是彩色图像,你马上就会知道出了问题。人类对绝对颜色的判断非常糟糕,包括各种白色的温度,但眼睛对颜色的变化十分敏感。正如下面所示,Apple Vision Pro(AVP)无法通过简单的(大部分)白色显示测试。尽管不像其他头显那么可怕,但你永远不会买到一个白色均匀度这么差的现代电视或电脑显示器。
本文使用的测试图案
对于测试分辨率,最简单的方法是设置“线对”,看看是否能看到正确的线数,以及它们是否模糊。正如即将展示的结果,AVP存在问题。今天的主要测试图案将结合一个大部分是白色的图像和一系列的线条来测试白色的均匀性,一系列的垂直线和水平线。AVP在显示基于基本采样理论的中等分辨率内容时存在严重的问题(详见《显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法》),而且由于AVP的处理,它出现了“不寻常的”,比预期更糟糕的行为。
对于经常出现在“简单的办公应用程序”中的简单的二维图像,AVP或任何头显在三维空间中呈现静止的平面对象通常是最具挑战性的任务。除了处理3D转换之外,AVP的光学系统同时具有高度畸变。结果是,二维图像中的每个像素必须至少重新采样一次,如果不是多次采样的话,即使是分辨率远低于AVP显示器的二维图像,也不可避免地会失去保真度。
任何具有数字图像和信号处理基本知识的人都应该知道,它们都是非常基本的问题。这并不是说AVP做了什么特别错误的事情,而是考虑到需要光学校正,基本的采样理论,AVP显示分辨率低于眼睛的分辨率,这是一个不可能解决的问题。
畸变光学
AVP(上)和Meta Quest 3(下)
好心的iFixit借给我从AVP拆出来的显示器,Pancake模组,以及从Meta Quest 3拆出来的显示器和Pancake模组。我从外壳中取出透镜,并拍了一张通过光学元件看MacBook 14显示的电子表格网格的照片(上图,从离眼睛“很远”的位置拍摄)。因为圆形偏振镜是粘在显示设备上面。我从一副REALD-type3-D眼镜取下了一个圆偏光片。
有关Pancake光学元件的更多信息以及为什么我需要添加圆偏振器,请参阅《显示技术专家Karl:Vision Pro的Pancake光学元件分析》。若你喜欢光学方面的知识,有趣的是,AVP和MQ3(Meta Quest 3)的光学元件需要相反的左圆偏振光和右圆偏振光(幸运的是,REALD-type眼镜各有一个)。
iFixit同时为AVP的OLED显示屏拍摄了一张移除光学元件后的照片(上)。这张照片说明了由于光学元件的畸变,图像必须预先校正多少。
下面有一张通过AVP和MQP(Meta Quest Pro)的Pancake光学元件看MacBook 14显示的电子表格网格的照片。相机靠近光学元件(最宽视场)。MacBook像素比AVP像素线性大13.33倍,或者说一个MacBook像素可以容纳178个AVP像素。另外,从显示器到光学器件的距离不精确。所以,下面的图片只给出了光学畸变的粗略概念。如果你点开图片,你会看到红色、绿色和蓝色正在分离(色差)。由于Macbook像素比AVP大,多个AVP像素色差大约存在于视场外的1/3处。
AVP Micro-OLED显示屏的宽度约为1.1英寸,而MQ3显示屏的宽度约为1.8英寸,所以为了获得相同的视场,AVP必须放大约1.6倍。因此,字母“H”对于AVP的光学元件而言看起来更大。我们正在寻找线条扭曲和字母大小的变化率。
上图将AVP的畸变线(红色)覆盖在MQ3。尽管AVP放大了1.6倍,但畸变看起来相似,这是一个了不起的成就,但两者依然具有高度的几何畸变,就像几乎所有的VR光学元件一样。
为了用相对较小的显示器(相对于Meta Quest Pro和Quest 3)支持宽视场,苹果采用了一种更激进的方法:弯曲四分之一波板,并在光学元件的眼睛一侧设置一个凹透镜(下图左)。相比之下,Meta的Pancake(下图右)在眼睛和显示器两侧都有一个平坦的四分之一波板和凸透镜。
苹果的凹面设计被认为需要眼动追踪校正才能正常工作,不会出现光瞳游离和颜色问题。如果眼动追踪变得“混乱”,比如说戴着眼镜或者眼睛眯成一条缝,则显示的图像在几何形状和颜色方面就会变得“不稳定”。
根据定义,四分之一波片(QWP)是颜色=波长,并且它们在颜色和偏振上同样受到入射光角度的显著影响。由于光学设计的需要,QWP具有一定的曲线特性。
没有免费的数字预校正午餐。为了消除畸变而进行的重采样是以分辨率为代价。视场中心的显示像素放大较小,而从中心向外移动的像素放大较大。一条细线可能是视场中心的一个像素大小,小于视场外部像素大小的三分之一。
我以Meta Quest Pro为例讨论了Apple Vision Pro中的光学畸变问题。在最好的情况下,畸变校正可以结合渲染和三维映射来完成,这样重采样分辨率损失只需要一次。但通常,为了实用性和软件的简单性,在3D空间中对位图图像进行多次重新采样。我不知道AVP是不是这种情况,但我怀疑是这样。首先重采样到更大的图像尺寸,然后重采样到三维空间。在AVP的情况下,对于注视点区域和非注视点区有明显不同的重采样。
眼动追踪矫正
除了注视点渲染之外,苹果同时使用眼动追踪来校正光学元件,而且在大多数情况下,由于眼动追踪和处理技术,用户将不会意识到所有正在应用的动态校正。偶尔,基于眼动追踪的渲染可能会出现非常严重的错误。当增强与注视点渲染相结合时,AVP可以显示相当奇怪的结果。
尽管我之前写过原生电子表格会导致严重的问题,但我同时看到过一些静态位图带来的类似眼动追踪问题。眼动追踪和注视点渲染显然是用位图图像完成。
我在两种情况下看到的AVP的一个问题是,注视点部分通常具有“对比度增强”,其副作用是不保持平均亮度,从而令注视点区域边界可见。在注视点渲染区域同样有增加的混叠闪烁。
公平地说,大多数时候AVP的注视点渲染做得很好。但某些图像可能经常失败,或者偶尔在其他图像失败。故障是否可见取决于图像的来源(本机或MacBook Pro的镜像)。
眼球运动包括平移和旋转。这样,眼睛就会通过光学元件在不同的地方和不同的角度感知画面。这种位置和角度的变化会导致光学系统的行为不同,并通常会导致“光瞳游离”。这是一种随眼球运动而变化的扭曲。AVP的Pancake光学元件同时会随着眼球运动而引起大面积的颜色变化。总的来说,AVP似乎在数字消除光瞳游离和色差方面做得很好。
Almalence开发的一种软件可以根据眼动追踪来纠正眼动引起的各种光学问题。他们甚至展示了提高分辨率的能力,我在使用PixMax时看到了这一点。Almalence已经为几种不同的头显开发了一种眼球追踪校正技术。上面的视频展示了“光瞳游离”问题的前后视图。Almalence使用这种“眼睛模拟器”来开发基于眼动追踪的光学校正。
光学元件要正常工作,眼动追踪是必须项
当你把营销重点都集中在使用眼动追踪来选择输入时,眼动追踪对于生成一个好的图像至关重要,比光学元件更重要。这同时有助于解释为什么视力矫正需要非常特殊的光学插片。
就我的经验和实际使用,基于眼动追踪和手部跟踪的选择作为第二种选择方法是“不错的”。但你确实需要一个触控板或鼠标和键盘来对待真正的工作。是的,能够在不需要另一个物理设备的情况下进行选择非常好。尽管如此,作为主要/唯一的输入设备,它同时可能是一个非常耗时的麻烦。当使用物理设备时,你的眼睛会在点击时自然地朝前看,但使用AVP时,这会导致你点击错误的选项。从无意的眼睛或手指运动中恢复过来可能是一件痛苦的事情。另外,它无法准确地挑选小物品。
基于眼睛距离,AVP的视场高度可变,但只有一个非常小的变化在放大倍率
下面是两张通过AVP的左眼光学系统拍摄的照片,显示了使用蔡司光学插片和25W面部适配器拍摄的视场。为了使光学插片能够正确地矫正视力,它们必须保持一个顶点距离(从眼睛到镜片的距离),因此如果你订购光学插片,通常建议使用更深的面部适配器。正如广泛报道的那样,如果你取下Light Seal并将眼睛尽可能靠近光学元件(右下),AVP的视场就会急剧增加。
上面的两张照片都是在移除遮光罩和光学插片的情况下拍摄,因为遮光罩会产生机械干扰,而光学插片会在光学上扰乱相机。相机移动到一个带有“微距聚焦轨道”的三脚架,以定位相机并接近我眼睛所看到的视场。
有趣的是,视场发生巨大变化时,当相机/眼睛靠近,两幅图像之间的放大倍率只增加了约1%(1.01倍)。
使用的测试图
镜后图(用相机拍摄通过显示透镜看到的影像)
下面的图片显示了我通过蔡司光学插片看到的大致视场。这张照片是由佳能R5用16mm镜头拍摄,使用相机的9路像素偏移产生了400万像素的初始图像。然后,这张图片线性缩小了3倍。测试图案可以在这个页面找到或者点击上面的图像。
测试图案的分辨率为1920 × 1080像素,或者是AVP OLED显示屏分辨率的一半多一点(根据iFixit,点亮区域总计为3660 × 3200像素)。由于电子表格不能填充视场,测试图案中的1920个水平像素由于光学畸变校正被映射成非常大约3000个不同大小的AVP像素。AVP在校正光学的几何畸变方面做得很好。
色彩均匀性问题
正如我在引言中所写的那样,简单的、大部分是白色的图像测试了显示器的色彩均匀性。相机更加“客观”,因为人类的视觉系统会动态地调整不同图像之间和单个图像内的颜色,所以相机会使问题看起来比眼睛看到的更糟。不过,我亲眼看到的AVP的颜色均匀性肯定有问题。每个图像的外部都有一个青色环(缺少红色),屏幕中心有色斑(通常是红色/粉红色)。
在电影和照片等典型的彩色场景中,颜色变化的数量并不明显。尽管如此,当大部分屏幕显示为白色时就会很明显了,就像网页浏览、文字处理或电子表格通常发生的那样。
外青色环和中心红色斑点的大小和形状将随着眼睛离光学器件的远近而变化。众所周知,AVP的眼动追踪是用来纠正颜色变化。当失去眼动追踪时,我看到了奇怪的色彩效果。
拉近看中心细节
下图是从原始4亿像素图片的中心裁剪出来。
AVP的一个非常有用的功能是我所说的“眼球追踪光标”,它可在AVP的“辅助功能菜单”中找到。我用一个红色环修改了光标来突出强调。光标可以点击三次数码旋钮来打开和关闭。这个光标在拍照时特别重要,它可以让AVP知道“眼睛”指向的位置。当使用眼动追踪作为选择设备时,它同样非常有用。对于第一组图片,眼动追踪的光标在我想要的屏幕中央,并确认眼动追踪没有“丢失”。
图像中心每度约44.4像素(PPD) -中心视力约为20/30,其他地方更差
我一直在比较和缩放窄视场50mm镜头的高分辨率图像(其中像素边界清晰可见),并将其与视场宽得多的16mm镜头的图像进行拟合,以确定AVP屏幕中心每度的像素。我得到的结果是,在图像的中心大约有44.4个像素/度(PPD)。
约44.4 PDD意味着的中心视力约为20/30。这是最好的情况,通过相机更差(更像是20/35到20/40)。如果你的视线超出视场中心的1/3,分辨率就会下降(即便使用了眼动追踪的注视点渲染)。对于AVP,你的视力会变得有点差,它似乎试图通过默认将所有元素都变大来弥补这一点(稍后会详细介绍)。
重采样的问题
用50mm镜头拍摄,我做了“像素尺子”(红线行和列)来显示像素边界与测试图案中的各种特征。右下角标记为1c的是高分辨率图像和尺子的放大特写。
在整个测试图案中有四条线,然后是两个像素的间隙,然后是四条线。如果你看一下插图1a,你会注意到AVP把两组四行线都变成了三行线。如果你看看较长的一组,例如,在大的#1下面,你会看到线条在间隙和间距中“摇摆”,但最多只有三行。即便你保持头部稳定,这些线都会不断摆动。如果你看一下大#1右边的四条竖线,它们几乎无法区分为多条线。
同样的四行变成三行发生在中心测试目标。参见上面放大后的1b。正如根据采样理论所期望的那样,要在三维空间中表示任意方向的线,需要两倍以上的显示器分辨率。静态图片中没有显示的是所有一切都在“闪烁”(显示像素大小的闪烁),并随着任何微观或宏观的头部运动而摆动。
计算机生成的具有锐利边缘的图像,包括日常应用程序,如文字处理、简单的演示图形和图表以及电子表格,在被锁定在3-D空间中时很难复制。
注视点渲染
回到上面的原始全相机图像,一个大的虚线正方形大致表示注视点渲染边界。下图采用全分辨率裁剪,显示水平边界(2a)和垂直边界(2b)。
看看这两组四条线,由于光学畸变和重新采样,显示器的分辨率已经下降到比原来的四条线更接近四条线的地方。所以,即便没有注视点,分辨率都会下降到这个程度。
AVP的“把所有一切都做得大而粗”的“伎俩”
AVP处理和经常过度处理图像。无论是AVP原生还是Macbook镜像,AVP的默认设置让所有一切都变大。我认为这是一种使AVP的分辨率看起来更好的“伎俩”。在本机窗口的情况下,我必须修复窗口,然后再从它移回来解决这些限制。MacBook镜像窗口大小的限制较少,但默认设置是让窗口及其内容变大。
AVP同时喜欢尝试提高对比度,并会放大文本等小内容的边缘,这使得所有内容看起来都像是用粗体打印。尽管这可能会令内容更容易阅读,但并不能忠实地代表要显示的内容。这个问题在“原生”渲染(绘制电子表格)和显示位图图像时都会出现。由于人类认为更好的对比度意味着更高的分辨率,所以让显示元素看起来更大胆是另一种处理技巧,可以给人以更高分辨率的印象。
我发现,在AVP进行原生渲染(比如运行Excel)、在AVP显示文件中保存的位图、在网页显示位图图像以及镜像MacBook的内容时,会发生不同的处理和伪影。对于每个测试图像,观察它在不同显示图案下的不同显示方式是一种冒险。
当它复制MacBook的显示屏时,尺寸限制基本消失。我用的是14″3024 x 1964的MacBook Pro M3 Pro,宽高比约为1.54:1。镜面MacBook显示屏的宽高比为~1.78:1(16:9)。
根据其他报告和我的观察,从显示列表中原生渲染图像与显示位图图像并镜像MacBook时,AVP的处理方式不同。
根据The Verge关于Mac镜像的报道:
这里有很多非常复杂的显示缩放在幕后进行,但简单来想就是你基本上得到了一个27英寸的视网膜显示屏。你的Mac认为它连接到分辨率为5120 x 2880的5K显示器上,它运行的macOS的逻辑分辨率为2560 x 1440,就像5K显示器一样。然后,虚拟显示器会以4K 3560 x 2880视频的形式传输到Vision Pro,而你可以随心所欲地放大它。所有这一切的结果是4K内容以原生4K分辨率运行。但无论你把Mac的显示空间设得多大,你只有2560 x 1440的窗口可以放置,而且你看不到像素完美的5K图像。
这当然是有道理的,并且似乎与我所看到的一致。看起来AVP首先以高于原生分辨率的分辨率渲染图像,然后将高分辨率的图像缩放/重新采样到3D空间。问题是,即便你将位图缩放到更高的分辨率,你都会丢失一定的细节。
对于直接存储在AVP的位图,这个过程似乎不同,因为我似乎看到了不同的伪影,这取决于源是来自AVP文件、网页还是镜像Macbook(我正在对这个问题进行更多的研究)。
当在AVP窗口中打开Macbook电子表格时,默认是将字体的角度放大1.6倍。它们的可读性需要和14″MacBook Pro差不多。再加上更宽的宽高比,默认大小的窗口是14″Macbook Pro水平视场的2.7倍,对我来说是“典型的打字距离”,而且太宽了,我需要转过头才能看到全部。
我能听到人们这样说,“它更大,那又如何。如果依然可读,那不好吗?”从信息/内容密度下降的意义上说,这是不好的。为了阅读同样的内容,眼睛必须移动更多。
OptoFidelity和Gamma Scientific光学性能研究
我的研究使用传统的相机设备来捕捉眼睛所看到的画面。研发和生产所需的详细评估需要专门的摄像头和机器人来模拟眼睛和头部运动。
在AR/VR/MR大会,我拜见了Gamma Scientific和Optofidelity,这两家公司都生产头显测试设备,并且正在评估Apple Vision Pro的光学系统。Optofidelity做了更多的动态运动分析,而Gamma Scientific做了更详细的光学研究。看看他们不同形式的测试结果会很有趣。
引用Gamma Scientific和OptoFidelity的公开声明:
Gamma Scientific利用他们的NED RoboticEye测试平台对Apple Vision Pro进行参考光学质量测量,客观地描述用户将如何体验VR显示内容。指标包括亮度均匀性、色彩均匀性、注视点对比度、合格视场、视窗体积等关键指标。它们的报告将对AVP与最新的AR/VR显示计量国际标准进行基准测试至关重要。
OptoFidelity公告:我们非常高兴地通知你,我们将使用BUDDY测试系统对Apple Vision Pro进行全面评估。我们的测试将涵盖Vision Pro的一系列性能指标,包括:角运动到光子的延迟;静止位置的角抖动;运动过程中的角抖动;姿势重复性;透视延迟(光子到光子)
我计划在这个博客分享Gamma Scientific和OptoFidelity的结果。
Optofidelity已经在发布了第一批结果:AVP的“光到光子”延迟不到12毫秒,并且显示延迟比Meta和HTC最新的透式MR产品少了近四倍。Quest Pro、Quest 3和AVP都使用预测运动来实现持续运动,其中AVP尤甚。
别人怎么想
当我准备发表这篇文章时,我们正处于AVP向公众发售的两周纪念。我们正开始度过“狂热”阶段,人们刚刚开始看到更表面的缺陷,比如重量、适合度和外部电池。我们正在翻篇“演示软件”,并开始询问“这可以为我的日常带来什么。”
我的分析可能会引起争议,YouTube有很多Up主,社交媒体有很多大V都称赞AVP的分辨率和显示质量。正如我常说:“任何看过电视或昨晚在Holiday Inn睡过觉的人都认为自己是展示专家。”
我看过很多关于AVP的视频和文章,但没有看到任何人认真讨论颜色均匀性问题(当然可能有人讨论过而我没看到)。Snazzy Labs的最新视频是我所见过的唯一一个讨论抗锯齿和动画文本效果以及将图像/文本默认设置为较大以隐藏问题的视频。Snazzy和其他人讨论了光学系统的眩光问题(我计划在后面的文章中展示和讨论)。从“用户体验”的角度来看,我同意The Verge在过去两周的大部分文章和播客评论。我最喜欢的一句话源自于艾迪·罗伯森(Adi Robertson):“它十分神奇,直到它不再神奇。”
结论和我的评论
简而言之,AVP的显示质量要好于几乎所有其他VR头显,但与价格适中的现代电脑显示器相比却非常差。今天的消费者不会花100美元买一个看起来像AVP一样糟糕的电脑显示器。
正如我之前所说,苹果无法打破采样理论,即便每只眼睛有8K,你都会有一定的重新采样问题。
对于“空间计算应用”,AVP的取巧方案是把所有一切都放大。但这样做会丢失信息密度,让用户更多地移动眼睛和头部以看到相同数量的内容,而你根本无法一次看到那么多。将字体加粗可能会使文本更容易阅读,但它会降低原始图像的可信度。大多数时候,注视点渲染都有效,但有时它会严重失败。
我是在黑AVP吗?在某种程度上,是的,但我想公平地对待它。我知道它的分辨率不符合某些应用程序的要求。我采用了“调试者的方法”,使用我在显示光学和图像处理方面的知识来看看AVP是如何工作得,然后我可以构建测试用例来显示它是如何失败。这或多或少是我在20世纪80年代和90年代使用的方法,当时我是德州仪器的CPU架构师,我必须进行各种验证,从如何设计出可行产品到思考“我如何才能让它失败”。
按照我的惯例,我展示了我的结果,包括提供测试图案以便其他人可以进行验证。
附录-关于重采样和Nyquist Rate
在《显示技术专家Karl谈Vision Pro:用虚拟屏替代物理屏是荒谬想法》的一篇文章中,我讨论过在低于Nyquist Rate的情况下重新采样,这是不可避免的问题。然而,在补偿AVP的光学畸变和注视点眼动追踪时,它们会变得更糟。
一条简单的水平线在频域中看起来像一个垂直于这条线的具有无限次奇次谐波的方形脉冲函数——一个方点在两个方向上具有无限次谐波。因此,即便显示器的分辨率是源图像的两倍,都会有一些“错误”作为伪影显示出来。然后,随着任何运动,错误移动/改变,吸引眼睛来感知错误。过度简化Nyquist,当在3-D空间中渲染(重新采样)一个2-D对象时,大多数情况下,要不出现重大问题,你需要比原始图像高两倍以上的分辨率才能渲染它。软件抗混叠只能以模糊图像为代价来减少一些不良影响。即使AVP有两倍的像素(约8K显示),都会存在“具有挑战性”的图案。