变焦光学已接近成熟!Facebook FRL显示技术总监最新演讲全文分享
变焦光学元件已经“接近成熟(almost ready for primetime)”
(映维网 2020年07月28日)道格拉斯·兰曼(Douglas Lanman)是Facebook Reality Labs的Display Systems Research(显示系统研究)团队负责人。他早前的研究主要集中在头戴式显示器,非眼镜式3D显示器,光场相机,以及用于3D重建和交互的主动照明。
他于2002年毕业于加州理工学院应用物理学系,然后分别在2006年和2010年在布朗大学获得了电气工程的硕士与博士学位。他于2002年至2005年曾作为麻省理工学院林肯实验室的助理研究员,2010年至2012年期间担任麻省理工学院媒体实验室的博士后助理,而2012年至2014年期间则成为了英伟达研究院的高级研究员。道格拉斯·兰曼后面加入了Oculus,并一直负责与XR相关的研究工作。
道格拉斯·兰曼于今年年初在SPIE AR VR MR 2020大会进行了演讲,并介绍了团队在HDR和光瞳控制显示器方面的研究进展。这位资深研究科学家同时表示,变焦光学元件已经“接近成熟(almost ready for primetime)”。
下面是具体的视频及字幕中文整理:
下面我们有请道格(道格拉斯·兰曼/Douglas Lanman)上台。
非常高兴回到SPIE XR。我在过去三年间一直有参加这个大会,而现在出席SPIE XR已经开始有了回家的感觉。我是认真的。我职业生涯的大部分时间都是在不同的领域之间度过,而之前没有一个大会能给我家的感觉。
诸如变焦显示器这样的话题不仅只局限于一个大会。它们横跨光学元件,计算机图形,视觉科学。我最为人熟悉的计算显示器同样是这样。所以我要感谢伯纳德(伯纳德·克雷斯/Bernard Kress)促成了本次活动,并为我们所有显示领域从业者创建了一个可以称作家的地方。
感谢伯纳德最好的方式就是出席大会,告诉你新的东西并与社区分享。我会这样做。我在Facebook Reality Labs(FRL)工作了五年半,并建立了一支名为Display Systems Research(DSR;显示系统研究)的团队。我非常自豪FRL允许我们广泛地和自由地谈论我们的工作,从而推动这个行业向前发展。
在过去的三年里,你听到了大量关于Half Dome原型的消息,而今天你们会听到更多。但为了贯彻我对伯纳德的承诺,你们同时会听到关于高动态范围显示器以及视网膜投影的全新研究。DSR充满了致力于为新兴显示技术构建原型,并通过出版物与大家分享的研究人员。下面我们挑选了部分研究进行介绍。
你可以看到我们致力于通过任何必要的手段来实现眼镜形态的设备。我们的很多研究都涉及到计算显示器,但有时同样会涉及到非常复杂的工程。但我们一直在寻找一个乐于倾听的社区。
一直以来我们都是选择SIGGRAPH大会。人们经常问我,为什么要在SIGGRAPH上发表显示领域的研究呢?那不是电脑图形大会吗?好吧,在这次演讲中,我将尝试向你们说明显示器是计算机图形学中最难解决的问题,而我们已经在这条路上走了非常长的时间。这就是为什么我的团队的工作不仅仅是渲染,而是在很大程度上试图解决图形中剩下的挑战。
所有优秀的团队都需要一个使命宣言。我和戈登·韦茨斯坦(Gordon Wetzstein)有着相同的使命宣言。非常简单。它比电梯推介还要短,所以它甚至不是电梯推介。
我们希望通过视觉图灵测试。我们要打造摄像头,渲染算法,传输压缩存储,重建和显示算法,以及实现完美创建现实的端到端流程。现在,这不仅仅是因为我们想要优秀的远程呈现系统。
如果我们能向人类视觉系统提供它所需要的一切,我们就可以实现更为有趣的事情,前往任何一个现实进行冒险。这就是伊凡·苏泽兰(Ivan Sutherland)在开启这整个领域时所说的话语。我要向你们说明显示器为何是当今计算机图形学的核心,让我向你们展示什么是现代计算机图形学。
因为你们都接触了那么长的时间,所以它已经变得不怎么起眼。如果你有足够的计算能力、足够的功率和足够的耐心等待帧渲染,你就可以拥有照片真实感。你在数年前就可以拥有它。如果我没有指出来,你可能不会注意到这辆汽车属于人工合成。
逐渐地,实时计算机图形,甚至移动图形将越来越能够赶上最先进的水平。所以在这里参加大会的我们都是站在充满绝佳机会的最前沿,而不是说研究的终点。我想它已经到来,因为每次我走进电子商店都能看到我在童年时所看到的一切。
当然,CRT变成了LCD,但它们一直都是在墙上发光的扁平矩形。现在是视网膜分辨率。我们要实现1000尼特,色域每年都有进步。坦率地说,这正变得无聊起来,因为我们没有推进显示技术的前沿。
所以五年半前我认为也许我们已经受够了墙上的矩形。让我们看看一种允许你体验人类视觉系统所能感知到的一切的真正显示技术到底能做什么。所以我想这就是我和我的团队致力于虚拟现实和增强现实的原因。
不是因为它是玩具或十分有趣。这是因为它是我们能想象到的唯一一种能够提供完整人类体验的显示技术。什么是杀手级应用?这一直是个问题,即便在今天的走廊中,你都会听到‘VR和AR的杀手级应用是什么?’
我不认为这个问题很难回答,因为如果你考虑虚拟现实,它是3D,3D交互,3D音频,当然还有3D显示。所以,Display Systems Research团队尝试从基础知识开始。所以如果你询问一个视觉科学家,我们需要做些什么来完整刺激人类的深度感知?他们会给你指出这篇文章。
维斯顿(彼得·维斯顿/Peter M. Vishton)和切丁(詹姆斯·切丁/James E. Cutting)在1996年对这一领域进行了大量研究。他们研究了所有能刺激深度知觉的线索。你可能见过这个。课本上通常拥有左边的内容,一系列的深度线索,空气透视,双眼视差,这些你应该都已听过。
如果你读过切丁和维斯顿的论文,最为有趣的是他们询问了一个简单的问题。‘为什么有这么多?’因为如果你想想人类的其他感官,对声音的感知,触觉,味觉,它们几乎不会使用那么多的多感官线索来合成信号。所以,为什么呢?
切丁和维斯顿认为这是因为深度感知存在于三个不同的空间。一直以来,电视都是处理所谓的Vista Space。出去走走,去电报山散散步吧。你就会知道什么是Vista Space。
你会看到天际线和滚滚的云朵。问题是,几十年来我们一直在解决Vista Space的显示问题。遮挡、相对大小、空气透视等等……我们可以在现代电视完美地描绘出所有这些,我们早在几年前就可以做到。
所以,我不认为很难回答什么是VR的杀手级应用。答案是存在于我们人类所存在的空间之中。这就是所谓的Personal Space和Action Space。
什么是Action Space?有多远?我可以用这个遥控器精确地瞄准你。这就是Action Space。
当然,Personal Space是你可以触及和交互的空间。这就是为什么VR和AR如此有趣,因为电视不能做到这一点。有了虚拟现实技术之后,它就变得微不足道了。
双目视差,运动视差,对吧?是的,我们正在处理这些。这是表格中的待解决问题。所以,看着这个表格,和友好的视觉科学家谈谈,你会发现有一件事遗漏了,而且它只对VR和AR有用,亦即视觉辐辏和视觉调节。
对于SPIE这样的活动,很多时候有人会询问这样的问题,‘为什么要研究视觉调节呢?因为这太微妙了。切丁和维斯顿会同意你的观点。这是最不重要的深度线索,但对于像我这样的科学家来说,这是一个你必须传达的信息。
所以,我们在多年前就制定了一个目标,即构建世界上第一个能够精确地描绘出视觉辐辏和视觉调节线索的完整显示系统。这真的只能在诸如Display Systems Research这样的地方进行。在这里我们有工程师让控制系统工作。今天你们会听到更多关于这方面的介绍,但我只想给你们建立一个框架。
我意识到,做这样的事情需要一支军队。你需要灵感启发,是吧?我的职业生涯是从研究生学院的学术研究开始。我没有能力组织一支团队来研究它。我需要一些可以走的道路。
而且你只有为数不多的灵感借鉴,所以如果你想借鉴灵感,建议你从太空总署那里获得灵感。那么,美国宇航局是如何把一辆月球车送上月球的呢?嗯,他们仓促行事。到了20世纪60年代末,他们说我们真的需要一个更为正式的程序。
把那辆月球车弄到月球的过程有点乱糟糟。我们该怎么办呢?观众席上的节目经理们笑了,因为我马上要谈到你们。比如说你在爬梯子。
我知道有时候你不想把自己想象成一位研究人员。你会说,我能做到,我可以发货一件产品。美国宇航局不会同意你的意见。
这个房间里的每个人都站在不同的阶梯上。如果你是一个学者,你通常是第二到第四阶梯。如果你是一名真正的科学家,你就是在第一阶。我们从这里听到很多创业者的意见,而他们认为有必要把向世界说明这一点。他们站在第六,第七阶。
我们这些大公司的人,我们几乎完全赞同这个表格。我们去中国。我们环游世界,我们在第七阶和第八阶,第九阶,我们把这个带给世界上的每一个人。但我提到了我和我的团队。我们是经典的第二阶到第四阶人群。
所以当我和戈登在MIT Media Lab的时候,我们非常喜欢这个阶梯的工作。我们有一个锤子,一个压缩显示器。我们当时说,如果我们能够打造前所未有的裸眼3D电视,这不是很好吗?那就是第三阶的工作。
然后,如果大家关心,这不是很好吗?但当然,你是做这一个。在你的职业生涯里,你从研究生学院开始,然后你在第二阶,第三阶,第四阶。
到了某个时候,你走进电子商店,你会看到第九阶。这时你会想,我会一直重复第二阶到第四阶吗?我除了提出好点子之外要怎样真正改变世界呢?
在MIT的时候,我们想出了一个解决方案。如果你是个学者,这是最好的解决办法。你希望有其他人啃这块硬骨头。你写一篇论文,然后在谷歌上搜索。
我查过了。对于我在Media Lab及以后写的所有论文,每一次的结论都是一模一样:“我们希望激励他人。”我们希望激励他人,因为我们在第二阶、第三阶、第四阶的乐趣实在太多,无法投身于创业生活,无法投身于在一家大公司里并用十年的时间把压缩显示器这个聪明的想法带到电子商店。
所以,从某种意义上说,我已经到了职业生涯的中期。我很幸运在Facebook Reality Labs有一支庞大的团队。这是老生常谈,但我意识到我们必须探究更高的动态范围。
因此,Display Systems Research团队的真正独特之处在于,我们不是一家初创企业,不是一家大公司,也不是一群学术界人士。我们是从绝对的基础视觉科学到非常精良的原型,这种原型比大多数初创公司的还要精巧。我们正在尝试做一件事情,那就是改变电子商店里的东西。但我们可以公开讨论。
我们是一群奇怪的人。这在世界上并不多见,所以我很高兴能够公开谈谈我们所做的研究。所以让我们开始吧。
你在一个科技大会。这个大会只是给房间里的项目经理进行演示。我也喜欢你。谢谢你参加这次大会。
现在我要和科学家们谈谈。你像是在说,‘我懂了,我懂了,快点说你的第二阶吧。’好吧,我要给你讲更好的东西。
让我们向你介绍一下变焦显示器的最新进展。我们花了四年多的时间来研发左边的设备。我愿意说,这是因为我为它感到骄傲,它是世界上最好的变焦显示器,140度视场,集成眼动追踪,绝对静音的变焦。这很酷,非常酷。
当然,不久前我们已经向全世界展示了它,但你知道总有更好的东西在后头,对吧?如果你是一个魔术师,你总是会藏着下一个魔术。我们在几个月前非常自豪地展示了Half Dome 3,因为它不是一个产品。它是第六阶。
它不是一篇刊物。不止只是这样。它更像是第五阶,已经快到成熟时节,所以下面让我来告诉你吧。
Half Dome 3是一款超紧凑型VR头显,采用折叠光学元件,没有运动组件,电子变焦。再次说明,我真的非常喜欢对外公开。事情就是这样。请随意引用。
这是我们制作Half Dome 1时的马达和机械装置。左边是Half Dome 3。我们会说,看,我们有我们的演示内容。如果我们是一家初创公司,现在每一个尝试过Half Dome 1的人都会相信变焦头显值得一试。接下来让我们把马达全部扔掉。
幸运的是,我们有优秀的博士后、实习生和液晶科学家,他们经常一起吃午饭。在过去的两年里,一个从实习开始的想法,加上科学家是在这段实习前就开始播种,其在后来演变成了这个概念。我认为在虚拟现实中解决焦点的一种非常实用的方法是,堆叠液晶元件,可变相位透镜和可切换的半波片混合在一起。
这些都是你期待显示行业能够实现的事情,加上光学科学家和其他坐在这里的人的关怀,然后将其放到一个非常棒的模块之中。所以让我带你去看看。首先,你有两个平面。双平面属于业内最先进。
让我们来看看怎么做这两个平面。通过改变可切换半波片上的电压,你可以对焦近距离,你也可以对焦远距离。这是一个透视场景,但当然我们是为虚拟现实设计。
所以你有一对数字双焦。这很酷,但我们开始构建连续变焦距系统是因为我们想通过视觉图灵测试,而不是说这是最低可行的产品测试。所以我们需要一种方法来创建更平滑的焦点,而它可以做到。
通过堆叠六个元件,你是以二次方增加。你得到的是64个焦点状态。这是一段真实的视频。显然,这是一个好视频。我们在组装部件时非常小心。
如果这还不够,你可以再加一个可切换半波片,再加一个PDP,这样你就可以达到128个焦点状态,256个焦点状态。根据马蒂·班克斯(Marty Banks)和其他人的研究,在某种程度上,人类的视觉系统无法解析这种差异。
这就是当你从第一原理开始的电子变焦系统。你会问,当光源是偏振光,照明是变色,分辨率不是视网膜分辨率的时候,我可以用虚拟现实做什么?你最终会得到这样的东西,为虚拟现实量身定做,而你会展示给别人看。
这就是它的样子。这是通过一个真实原型拍摄的画面,它包含了真实原型所面临的所有挑战。就像这里的其他创业公司一样,你什么也看不到,因为这是我们的目标。你不会注意到闪烁,亮度的变化,颜色的变化。当然,这需要大量的研究人员在第五阶能力下实现。
好。这很好。在一家没有风险的创业公司是一件令人兴奋的事情。在某个时候我会推荐给你们所有人。那是我们的创业公司。
现在,我们是科学家。我们撰写这些论文的原因是我们喜欢这个阶段的开始,构思一些古怪的想法并将它们实现。所以我想和大家分享一些Display Systems Research认为属于通过视觉图灵测试任务一部分的古怪新想法。
首先是对我来说非常珍贵的东西。在这个演讲中,我已经告诉过你好几次了,我走进电子商店,我很失望,因为我一遍又一遍地看到同样的电视。我告诉你,当来第一次看到高动态范围电视时,我感到无比振奋。我当时说,好,好,好。这真是了不起。
感觉就像我第一次看到高清电视。感觉就像是阳光下的新鲜事。到目前为止,还没有人尝试过虚拟现实中的HDR。原理非常好理解,因为这很难做到。
我们甚至不知道这是否重要。我喜欢解决那些我们不知道是否重要的问题。视觉调节是否重要呢?我们很快就会知道。
HDR是否重要呢?嗯,我当然知道这可以带来非常好的体验,但必须有人来构建这个功能。这是DSR喜欢做的事情,或者说至少我喜欢做这样的事情。
当然,我们想要的是更亮。我真的很想前往虚拟现实海滩,并感受太阳光射进眼睛的感觉。当然,我想看到黑色更黑。现在,为了说服某人,你需要告诉他们不需要在虚拟现实中佩戴墨镜。
所以拿出一个亮度计,走进一个正常的办公环境,你会发现虚拟现实并不能创造出所需的亮度范围。请看看显示器后面的数字,它比最亮的VR头显要高出2.5倍。所以,我们在虚拟现实中的亮度大约为100尼特。
最好的消费类电视大约是2000尼特。很明显,它们需要接到墙壁的插座。它们比VR头显的背光要厚得多。当然,为了实现逼真的现实,我们需要10亿尼特。
对于AR,我们担心的是能不能在10000亿尼特里面保留10亿?在虚拟现实中保留10亿尼特是一个非常不同的问题。同样,这是推动这一领域向前发展的早期研究。
下面是Yang Zhao,团队里面的实习生和其他人的想法。他们说,‘从第一原理来看,我们知道HDR VR需要改变一些事情。首先,我们应该小心我们的光线。
从光源,LED或者其他什么开始。聚焦。让它经过一个工程设计的扩散器。这就是我们所说的定向背光。
因为虚拟现实独一无二,不像墙上的那些电视,它们只需要为我工作,一次只能为一只眼睛工作。这意味着每一个光子都可以瞄准视窗。这将有助于提高亮度,然后你可以利用双重调制的老把戏来获得对比度。
但下面是你还没有看到一个VR头显的原因。你需要一个目镜。如果你使用菲涅耳透镜或其他光学元件,你通常会失去通过这种双重调制方式产生的所有对比度。
所以我们建造了一个时间机器。我们很多研究就是这样开始。这是第一阶,因为没有学术委员会会接受它。因为它太过基础了。
但我们需要看看我们是否认为HDR值得做。所以这是我们建造的原型。一个DMD投影仪和一个可见于VR头显的LCD。这是一个(听不清)高动态范围显示器。
但我们把它和高对比度目镜结合起来,我们没有选择菲涅耳透镜。它太大,太重了,不能放到头显里面,但它能够在6000尼特的水平下维持了亮度和对比度。
我们继续说下去。你会看到一台非常好的HDR电视,因为这不是头戴式。没有对它进行追踪。它只是向我们说明了这种组件可行,亦即如果你愿意接受一个巨大的目镜,它可以保持显示器的对比度。
所以你问,我们有没有制造一个可以穿戴的头显呢?非常接近。我们是来分享我们的研究。所以Yang Zhao和他的实习生发表了这个。
创造世界上第一个HDR头显的第一步,这是一个折叠光学。从一个(听不清)风格的投影仪开始,你可以将其组合成一个导光板,在设计上要小心,你可以折叠所有的一切。这个你可以戴在头上。
再次强调,我们是研究人员。我们会做创业者的事情。我们会让你为变焦设备感到惊叹,但真正让我们兴奋的是这些东西,亦即不确定它是否值得研究的最开始。
好吧。我想再告诉你一个项目。你可以通过论文了解这个项目。很多人可能对虚拟现实持怀疑态度。所以你来这里是因为这是一个AR大会。
好吧,我告诉你,我的团队意见不统一。像我一样,有些人相信虚拟现实是最伟大的叙事媒介。它是尝试捕捉和再现现实的漫长历史链条的最终结局。
但是AR,AR本身就非常有趣。所以,对于你之前看到的那些论文,我的团队中大约有一半的人,包括加入FRL之前和之后的人,他们都专注于制造AR眼镜,眼镜形态,大视场,大视窗,精美的系统。而且在这篇论文中,我们所采用的许多方法并不是波导显示,而是另一种选择:视网膜投影。
我们团队的安德鲁·马洛尼(Andrew Maimone)最近首创了使用全息透镜近眼离轴投影仪的想法,通过光学折叠方式创建出非常宽视场的眼镜。你们中的许多人应该熟悉这项研究。如果你没有,请谷歌搜索一下。你会喜欢的。这是一项了不起的研究。
唯一的问题是光学扩展量。当然,他在论文中实现了一个非常宽的视场,但你必须在论文中睁大双眼寻找视窗,因为视窗并不存在。所以现在视网膜投影的问题是,如果你转动旋钮,你可以获得一个很大的视场,但没有视窗。
也就是说你戴上这个设备的时候,图像就会消失。或者你更实际一点。你转动旋钮使兴奋感降低。你得到了一个不太令人兴奋的视场和一个不错的视窗。这是我们在墙对面没有看到大量自由空间视网膜投影的原因之一。
大多数人在不同的设计空间努力,因为他们还没有完全破解这个光学扩展量难题。我们正在探究一些想法,非常早期的想法,并希望以此来来激励大家。不仅仅是为了推动公司向前发展,同时要鼓励大家,告诉大家这个方向或许存在一定的机会。这就是安德鲁发表这篇论文的初衷,他是为了鼓励大家,告诉大家进行关于自由空间的研究或许会很有趣。
所以这里有了一个解决方案。当然,我们可以回到大视场设计,让眼睛动起来,你知道解决办法是什么。你们都听到了。它的变焦方式不同。
如果我们有一个眼动追踪器和一个自适应光学系统,我们可以控制出射光瞳。就像你听过注视点追踪概念。再次说明,就像变焦系统。这个控制回路是由自适应光学和眼动追踪共同处理。
光瞳控制如果有效,我们就有可能解决视网膜投影的问题。我相信你们很多人都在朝这方面努力。你可能没有无法这么自由地谈论你正在做的事情。我希望你能解决这个问题,因为这可能是一个解决AR挑战的好方法。
你们中的很多人研究它的方式可能和我们一样,第二阶,第三阶,第四阶。你有了一个想法。我们把激光阵列放在眼镜对应太阳穴的位置怎么样。我们采用一种非常有奇特的全息光学元件怎么样。
这就是我午餐时喜欢谈论的话题。你会在一小时内找到50个点子。如果你在面试中询问别人,你会得到较少但更好的想法,因为他们想获得这份工作。如果你询问一个全职研究员,你会得到更少但可能是一个有效的想法。
这是一个解决研究问题的好方法。不过,我认为在行业内部,我有机会在更基础的阶梯工作。所以在我们的团队里,我们实际上是从第一阶开始。我们聘请了一位博士后卡维塔·拉特南(Kavitha Ratnam),我们让她不要去考虑你会怎么控制,而是考虑控制的要求。
所以,从第一原理开始,卡维塔和斯坦福大学的罗伯特·康拉德(Robert Konrad)合作,从你们都知道的和喜欢的眼睛模型开始。他们提出了一个简单的问题:我们需要控制吗?需要。
我们是否只需要在二维空间中实现控制呢?当眼睛在三维空间中移动时,我们需要控制吗?例如,当你的眼睛在眼窝里旋转时,适眼距就会改变。我们是否需要通过改变投影仪的纵摇,横摇和垂摇来实现控制呢,或者至少调整非冗余的两度呢?
据我们所知,没有人探究过这个简单的问题。每个人都跳到第二阶、第三阶、第四阶。所以我想你得从基础开始。
你的出射光瞳有多大?你的入射瞳孔有多大?你需要多大程度的控制?因为它属于5D,所以会很快变得很难。也许每个从事其他架构的人都是对的。
所以我鼓励你看看卡维塔和罗伯特的研究。他们已经建立了一个端到端的ZMAX模型,在这里你可以研究Vignetting、MTF和模拟需求。所以当你裁剪的时候,是否可以失去一半的图像?这些都是你可以问的简单问题。请读一下具体的论文。
相关论文:Retinal image quality in near-eye pupil-steered systems
好了,是时候被人踢下台了。我们来总结一下PPT。这是我在Display Systems Research团队的最新进展。五年半之后,与我们大多数过去的工作相比,在更广泛的研究领域里工作要更加有趣。
从第一阶开始,我们试图推动基础视觉科学,从而推动我们的系统需求。在第二阶到第四阶的黄金时间里,我们还有很多还没有准备好的想法。我们偶尔会进入初创公司模式,在第五阶或更高阶领域做一些事情,比如Half Dome。我们很高兴能在SPIE XR抛砖引玉。当然,我们希望能激励其他人。