36个视频+图片,Oculus首席科学家7000字详述人机交互的未来
文章相关引用及参考:oculus
“VR有潜力大幅度扩大人类的体验范畴,如果成功,这肯定会成为我们时代最重要的技术之一。”
(映维网 2017年7月25日)日前在由中国工程院、美国国家工程院和英国皇家工程院联合主办的全球重大挑战峰会(Global Grand Challenges Summit)上,Oculus首席科学家迈克尔·亚伯拉什发表了主题演讲。映维网很高兴可以与大家分享亚伯拉什的独到见解,以下是具体内容:
我很高兴今天来到这里讨论虚拟现实面临的巨大挑战,而且在时间量程,技术的广度和深度,以及对我们生活方式的潜在影响上,它确实是一个巨大的挑战。
VR可以一直追溯到伊凡·苏泽兰(后来被誉为计算机图形之父和虚拟现实之父)在1968年发明的“The Sword of Damocles(达摩克利斯之剑)”,但我们在将近半个世纪之后才刚刚开始踏上了最终VR的漫长路途。当讨论什么是VR的最终形态时,我们才开始清楚了解到VR的潜在影响到底有多大。我们可以从人类体验的本质入手。
我们体验的现实是构建于我们的心中,基于建立在我们基因中的许多假设,并在我们的生命中学习到,以及通过我们感官而来的非常稀疏的数据。
一.所有的现实都是虚拟
这是一个强有力的声明,如果你以前没有想过,这不会很明显。所以我再说一遍,我们体验的现实是我们心中一个基于高度不完整数据的结构。它通常与现实世界相匹配,这在进化上并不奇怪,但它不是对现实的真实反映,它只是对世界上最可能的状态进行推论,并基于我们在特定时间的知识。
下面让我们看看几个例子,这将会解释我们对现实的感知实际上只是最佳推论。
看到桌子下面的白色瓷砖,以及桌子之外的黑色瓷砖吗?
好,现在让我们把所有东西都遮盖起来。
它们都是完全一样的灰色阴影。
但如果其中一个位于阴影之中,而且是灰色的阴影,那它一定是白色的。如果另一个位于明亮的光线中,而且是灰色的阴影,那它一定是黑色的。光强度是基于上下文情景的推论,你的视觉系统会自动为你推论,所以你实际看到的是白色和黑色,而不是灰色。
这是另一个例子。请你判断一下两张桌面中哪一个更宽,哪一个更长(如图中2D形状所测量),假设你可以旋转比较。
准备好了吗?
它们的大小完全相同。跟光强度一样,大小是基于上下文情景的推论。
现在我们来看看一些不匹配现实的高级推论的有趣例子。
很明显,我们看到的并不可能。
窗户上的几个线索暗示了一个不存在的视角,因此你的视觉系统得出结论说,窗户必须向后旋转一半。要使其正确,秸秆必须通过窗户旋转,所以这是你看到的情形,虽然这不仅没有发生,实际上更是不可能。
窗户上的几个线索暗示了一个不存在的视角,因此你的视觉系统得出结论说,窗户必须向后旋转一半。要使其正确,秸秆必须正好通过窗户旋转,所以这是你看到的情景,虽然这不仅没有发生,实际上更是不可能。
下面让我们再看另一个例子。
再一次,这不可能。
想重复一次,我们的感知系统作出了一个非常合理的假设,在这种情况下,对象(特别是面部)往往是会出现凸面现象。
下面是真正有趣的部分,我们可以尝试不要让面部再次出现凸面。
有些人可以做到这一点,但尽管你知道真实的形状,你还是很难避免这种情况。
最后,我们来看一个我认为是最令人信服的例证,亦即我们所体验的现实只不过是一个最佳推论。首先播放这个视频:
很明显,她在说“Bar,bar,bar”。好,下面让我们观看另一段视频:
这一次,我们很明显听到她说“Far, far, far”。有趣的是,她并不是说“far”。视频显示她说“far”,但音轨却表明她在说“bar”,就像她在第一段视频那样。我会重复一遍,因为很难相信她是说“bar”,而不是“far”。然而,我们确实是听到她在说“far”,因为视觉暗示了声音。
这可能有点令人混乱,或者它可能像是一种伎俩,所以让我们通过一种不同的方式来继续观察。再一次,音轨会说“bar”,但这次会出现一个分屏,一边在说“far”,另一边在说“bar”。在这种情况下,请你把眼睛从一边移到另一边,观察你听到的变化。再一次说明,眼睛两边来回移动,然后看看你所听到的内容。
在我看来,如果经历了麦格克效应但不相信你所体验的现实只是一个推论,不是真实世界的反映,这将是不可能的事情。当你听到“far”的时候,傅立叶变换会表明房间里没有这个声音的存在,“far”这个声音从来没有穿过你的耳膜,这只是根据视觉和听觉证据推断的最有可能的声音,所以你才会听到这个声音。(注:麦格克效应是一个感性的认知现象,表现出在语音感知过程中听觉和视觉之间的相互作用,有时人类的听觉会过多的受到视觉的影响,从而产生误听的现象。)
这是VR的关键点:无论来源如何,我们体验的现实都是大脑以感知输入作为依据所得出的推论。所以如果VR能够提供正确的感知输入,我们可以拥有任何我们想要的体验,这些体验会感觉真实,它们将会是真实的体验。
当我第一次站在虚拟边沿,感到膝盖紧绷,并有一种难以克制的急切要后退时,我理解了这一点。我有意识知道我并不是接近于掉下去,但我的个人现实表明我有堕落的危险。现在将其扩展到世界各地的传送,使用虚拟对象,并与任何地方的任何人进行交互,这时VR的潜在力量便开始变得明显。
我个人所希望的一个例子是(我认为许多人都一样)一个虚拟的工作空间,包含完全可配置的虚拟显示屏,全息图,以及可以瞬时切换工作空间的能力。其他人可以传送进来与我交谈,我可以传送到他们的工作空间。我的效率会更高,工作也会更有趣,这就像我第一次获得个人电脑一样。
事实上,这里有一个跟个人电脑有关的直接比喻。40多年前,J.C.R.立克里德(J.C.R. Licklider)的愿景和施乐帕克研究所致力于创建个人计算机的工作,特别是在鲍勃·泰勒(Bob Taylor)治下的计算机科学实验室,带来了我们今天使用的计算设备。这是人类计算领域的第一次大跃进。
我相信VR将成为第二次大跃进。不再是通过平面屏幕与数字世界交互,我们将能够在任意时刻居住在数字空间。
二.要实现这一点到底需要什么呢?
所以这是我对VR将如何改变世界的看法。但要实现这一点,我们需要非常多的技术进步,而这一切都非常具有挑战性。下面让我们看看VR要成为我们工作,娱乐和彼此连接的关键,其到底需要什么?
由于VR在于驱动感知系统,所以我们可以从感官入手:视觉、音频(听觉)、触觉、嗅觉、味觉和前庭觉。在我看来,虚拟现实在可预见的未来不会实现最后三个,但今天的视觉、音频和触觉已经在不同程度起到了作用,所有这三个方面都有潜在的发展路径。
对于视觉,我们需要将视场提升至完整的人类范围,增加视网膜极限的分辨率和清晰度,将动态范围增加到现实世界的水平,并实施适当的景深。
音频(声音)需要适当的空间化(你的声音来自何方),完整的空间传播(如何在虚拟空间中传播声音)和合成(从物理运动和碰撞的建模中产生声音)。
触觉特别具有挑战性。最重要的触觉来自于双手,这也是我们与世界交互的主要手段,而其主要是依靠触觉反馈回路。我们现在所能做的只是产生粗糙的振动和实现阻力。未来有一天,或许一些手套或外骨骼可以让我们自然地与虚拟对象进行交互,但这是一个真正的研究课题。
除了把虚拟信息导入感知系统之外,VR还需要机器感知,亦即感知、重建和理解现实世界的能力。这可以让我们安全地移动,并把现实世界的对象(如书桌、键盘和家具)带到虚拟世界,甚至潜在地重塑它们。把真实的人类带入虚拟世界更有价值,这将实现真正的远程临场,在那里你可以与世界任何地点的任何人会面、工作和游戏,基本上可以做任何事情。
我相信这将是让VR更加普及的最重要因素,因为人类是世界上最有趣的事情。遗憾的是,我们对人类的细微差别也非常敏感,因此虚拟人类是VR中最难的部分之一。
最后,VR是迄今为止最全面的感知技术,所有这一切都是人类感知的难题。VR的关键不在于开发的技术,而是技术如何与感知系统相互作用来创建体验。
总而言之,VR需要推进的广泛领域形成了巨大的研究空间,涵盖了所有人类感知和六个感知和重建领域。探索这个空间将需要从计算光学到材料科学,再到传感器技术等领域的世界级研究。它还需要大量的多学科工作,因为它是使VR行之有效的多种技术的交汇点。
作为一个例子,请细想上面我概述的虚拟工作空间。作为灵巧的操纵者,你显然需要使用双手以实现与现实世界一样的高效,而这当然是个难题。但让我们想象一下,我们以某种方式解决了这个问题,但我们又遇到了一个问题:VR头显的固定透镜聚焦在两米远,这样的后果是位于一米范围内的一切事物都变得模糊,并且不适合长时间观看,而一米就是一只手臂长的距离。
总之,直到我们解决景深问题之前,我们无法从双手获得全部的价值。同样,我们希望声音的正确空间化起源于手臂的长度,这是另一个未解决的问题。我们想要足够高的分辨率,以便虚拟显示器与真实的显示器一样清晰;我们希望能够感知和重建我们的桌面、键盘、鼠标和椅子;我们希望能够实现虚拟人类…很快你就会意识到,要构建一个可以提供正确体验的系统,你需要我所提及的每个研究领域。
下面让我们快速浏览一下VR面临的三个挑战,从显示开始。
三.聚焦:VR显示屏
当前VR头显中的显示系统本质上只是一款屏幕和一个放大镜。从透镜望出去,你所看到的是单个焦距的单个放大图像。
问题是:我们应该把固定焦点放在哪里呢?
在右边,我们把VR焦点放置在无限远的窗外。所以右侧和左侧,虚拟和现实看起来都很相似。两者存在一些区别,但现在我们先忽略它们。
最大的区别是:与左边的现实世界不同,当你在右边VR世界中查看近距离对象时,最近的植物本应是锐利清晰,现在却十分模糊,因为屏幕聚焦在远处,而你的眼睛聚焦在近处。
所以我们需要一个更好的方法来聚焦头显。
我没有时间讲解所有的理论,但我至少可以向大家讲讲过去几十年来提出的几个潜在解决方案。
请看这个简单的3D游戏场景。
在验光单位中,这从4屈光度(车前25厘米处)延伸到0屈光度,光学无限远。
再一次说明,今天的VR头显提供的单一焦点位于,比如说0.5屈光度处。
显然,接近于你的对象十分远离焦平面,因此变得模糊。
一个想法是(而且很多人都提出了这一点)提供一个以上的焦平面,同时显示或快速连续显示。
知觉科学家会告诉你,你不会希望焦平面彼此距离太远,否则它们之间会变得模糊,所以你将无法创建足够的焦平面来把一切都置放于4屈光度的焦点范围内。
这没关系,下一个想法是调整这些焦平面。
理光的研究人员最近尝试了这一点,他们的研究表明,没错,如果你拥有适合的光学自适应光学系统,你可以移动这些焦平面,但焦平面之间的对象会变得模糊。于是,Oculus研究院的松田内森(Nathan Matsuda)、亚历克斯·费克斯(Alex Fix)和道格·兰曼(Doug Lanman)就想:“不如让我们看看让每个焦平面变得更有能力,而不是增加更多的焦平面。我们来去掉一些焦平面,并调整其他焦平面。”
因此,如果我们使用更复杂的自适应光学元件,我们可以拥有这些弯曲表面,这样其中一个或几个可以触及场景中的每一个物体。
首先,让我们看看下面的模拟。
首先聚焦的是远处的背景,然后是前景。
我们可以来回看,一切都能正确的聚焦,有着正确的离焦效果。
所以似乎这个想法有可取之处。
当然,模拟总是行之有效,所以我们同时创建了一个类似头显的测试设备。
这些是用摄像机记录的实际图像。借助今天的空间光调制器,当你把真实摄像机放入原型时,对比度就会降低。该团队正在努力改善这一点,但它确实有效。
首先聚焦的是远处对象,然后是一个近处对象。
近处,远处,无需眼动追踪我们就能任意聚焦。
如果现在把左侧的固定焦点显示与右侧的自适应对焦显示进行比较,你可以发现这是VR中聚焦的一个令人兴奋的潜在解决方案。
四.瞳孔问题
我要探讨的第二个领域是眼动追踪。眼动追踪是一种关键的VR技术,特别是作为许多类型的计算光学的基础。
眼动追踪中最先进的技术是基于瞳孔追踪和从角膜闪烁。
这个视频是当眼动追踪表现良好时的情况,但瞳孔之间的差别可以很大。
瞳孔的大小,甚至是形状都有所不同,不一定是保持一致。
角膜闪烁追踪有助于弥补瞳孔追踪的局限性,但眼皮仍然会引起问题,更不用说你需要把照明器和摄像头安装到头显中并固定起来,以确保追踪可以支持深眼眶、国字脸和眼球突出等一系列不同的眼动情况,同时还要求100%的可靠性。
此外,眼睛实际上并不是一个僵化的器官:
这有点微妙,所以请再看一次,注意眼动停止移动时的瞳孔形状。
真正的问题是当前的眼动追踪技术试图推断光子在视网膜上的位置,并且基于瞳孔的位置和角膜的闪烁。正确的解决方案是直接在视网膜上进行追踪,而真正正确的解决方案是查看位于视网膜上的图像,但如果要在头显中进行全方位的眼动操作,我们将需要开发一种全新的眼动追踪技术。
五.虚拟空间中的人类
我将简要介绍的第三个领域是虚拟人类,代表着位于虚拟空间中的真正人类。正如我所说,我相信这将成为VR大范围普及的唯一最大因素。
创建令人信服的虚拟人类将至少需要集成四种独立的追踪技术,但当前的每种追踪技术都尚不成熟。我们已经谈到了第一个眼动追踪,下面让我们看看手部追踪。
这是完美手部追踪的情景:
遗憾的是,手部有大约25个自由度和大量的自遮挡。现在,我们需要使用后向反光镜手套和大量摄像头才能实现这种水平的追踪质量。
面部是人体中最具表现力的部分,具有很大的微妙灵活性,这也许是所有人体追踪问题中最大的挑战。
这是基于头显的实时面部追踪。我们正在取得进展,但还有很长的路要走。
优秀的实时骨骼动画人体追踪现在已经成为可能,虽然要变得真正强大仍需大量的工作。
虚拟人类的基础技术提供了许多有趣的研究问题,但真正有趣的问题是,“什么是使虚拟化身成为尤为信服的因素呢?”
答案位于感知科学和社交心理学的领域,而我们可以从采集大量数据入手。卡内基梅隆大学的亚瑟·谢赫(Yaser Sheikh))已经这样做了,下面让我们来看看这么一个研究的例子。
这是托马斯·西蒙(Tomas Simon)完成的工作,而且这非常酷。但这段视频的每一秒处理都花费了两个小时的时间,因此我们距离实时处理还有一段很长的路要走。
六.新领域
这只是VR面临的部分挑战。每一个挑战都需要很多年的时间才能完全解决。当然还有许多其他挑战,如触觉交互,全身触觉,嗅觉,以及总有一天的前庭觉和味觉。简而言之,虚拟现实是一个等待我们探索的广阔领域,而这一领域需要更多的研究。毫无疑问,未来等待我们的将是数十年的创新。
VR在最纯粹的意义上是一个巨大的挑战。显然,这是非常困难,我们需要研究和开发数十种技术,但这只是故事的一半。虚拟现实是70多年的计算机革命,以及数百年来信息技术发展的高潮。我们终于有能力构建这么一个界面,让我们通过完整带宽的相当一部分,以及我们所演化出来的生物处理能力来与数字世界进行交互。
VR有潜力大幅度扩大人类的体验范畴,如果成功,这肯定会成为我们时代最重要的技术之一。