Meta XR首席科学家：输入交互是AR/VR计算范式的关键区别因素

编辑：刘余欣 | 分类：快讯 | 2023年9月28日

加入映维网会员

视频版的炉边聊天

（映维网Nweon 2023年09月28日）在Meta Connect 2023主题演讲之后，Reality Labs研究首席科学家迈克尔·亚伯拉什（Michael Abrash）与Meta首席技术官兼Reality Labs负责人安德鲁·博斯沃思（Andrew“Boz”Bosworth）进行了视频版的炉边聊天。下面是两人对话的编辑整理：

Meta XR首席科学家：输入交互是AR/VR计算范式的关键区别因素

人类推动进步

两人讨论了“技术必然性”这个错误的信念，亦即认为技术进步一定会发生，但没有认识到技术的发生总是处于特定的历史和社会背景之中。正如亚伯拉什所指出的那样，“是人类让它发生——特定的人，在特定的道路上做出特定的选择，而我们正在让它发生。那些来到Connect大会的人正是令其成为现实的人。”

从施乐帕克研究中心…

亚伯拉什解释道，在过去半个世纪左右的时间里，我们一直生活在施乐帕洛阿尔托研究中心（Xerox PARC）创造的世界里：带有位图图形的二维表面、键盘、指向设备、WYSIWYG文字处理、以太网、面向对象编程等等。

他表示：“真正的愿景是一个我们可以以任何方式混合真实和虚拟的世界，我们想要满足我们的需求并实现我们的目标。这就是我们正在创造的未来。在那里，我们可以驱动我们的感知，并允许我们按照我们在现实世界中的方式行事。”

…到下一个范式转变

正如施乐帕洛阿尔托研究中心所做的工作改变了世界与计算机交互的方式一样，AR/VR社区现在所做的工作很可能会带来另一种范式转变。但为了实现人机交互的真正阶段性变化，突破性的技术依然十分必要，。

亚伯拉什指出：“我们都是在摩尔定律的世界里长大。我们一直都知道明年会有更多的计算机。自施乐帕洛阿尔托研究中心以来，平台一直是一致的，2D表面，指向设备，键盘。所以这让我们习惯了这样一个世界，亦即一切都是软件问题，而它下面的平台只会以增量的方式变化。但我们在这里讨论的是一种自下而上的改变，硬件、软件、应用——所有这一切都将随着时间的推移而演变成更强大的形态。”

尽管现代计算机的输入方式自施乐帕洛阿尔托研究中心以来基本保持不变，但博斯沃思认为：“在20世纪50年代和60年代极具争议的事情是：人们将使用什么方法向计算机获取信息？当然，在触控屏的情况下，我们已经用直接触控取代了鼠标，但除此之外，我们在很长一段时间里都是令人难以置信的原地踏步。所述模式在增强现实和虚拟现实中不起作用。所以这是另一个与上一代技术截然不同的关键领域。”

事实上，亚伯拉什表示，输入问题，以及未来的界面可能是我们当前的计算范式和下一个计算平台之间的关键区别因素。

他指出：“你希望正确的事情在你想要它发生的时候发生。这归结为能够感知你周围的世界，理解你的背景，让人工智能能够理解并帮助你，然后拥有这种超低摩擦的输入，让你在任何时间、任何地点都能轻松、直观地行动。所有这一切都需要整合在一起。”

关于输入和AI界面

我们已经多次公开谈论肌电图EMG，我们认为它将是未来我们如何与虚拟世界交互的关键。但正如博斯沃思所指出，输入问题同时是一个人工智能问题。通过肌电图检测到的神经肌肉信号需要解码，而这需要人工智能。

博斯沃思强调：“你需要有足够的通用模型，然后个性化模型。我们谈论的是coevolution协同进化，这是斯坦福研究所设计的最早的用户界面的基础，就是这种协同进化的概念。但这在当时是很难做到，基本上所有的进化都必须发生在消费者这一边，机器真的帮不上什么忙。但有了今天的人工智能，我们实际上可以真正帮助模型适应每个人，就像我们根据个人喜好调整人们的新闻推送一样。”

想想当你点击电脑屏幕的某个特定图标时。亚伯拉什指出，在这个看似简单的操作中存在大量的情景上下文。“你在运行什么应用程序？它是什么图标？系统将你的意识引导到你想要做出选择的地方，所以你可以用一位动作来完成。在现实世界中，这要难得多。物理世界要复杂得多。但你可以想象的是，我们正在谈论的情景人工智能实际上为你做了筛选。你可以用肌电图简单地选择你想要的操作，而不是从所有的可能性中进行分类，从下到上：识别神经信号，为每个人定制，然后把它们放在一起以帮助你实现目标。”

个性化是真正有趣的地方。想象一下，你有一个键盘，它可以在你的指尖下移动，对准你想要输入的内容，而不是强迫你按压物理键。这是一个相当重大的突破：我们可以利用计算机视觉和机器学习来找出手指运动的意图，而不是试图匹配一个旨在适应广泛人群的物理键盘。这将能产生一个真正个性化的键盘，消除了你必须适应别人的设计模式的中间步骤。只需简单地问：你的意图是什么?

我们正在研究在各种条件下工作的低功耗传感器，而肌电图可能会解决输入问题。但就在一年前，这个系统如何理解你的背景依然只是一个研究问题。现在，随着大型语言模型的出现以及使得它们具有多模态的可能性，这为未来的界面打开了一扇门，它可以开始代表你主动行动，预测你的需求并缩小你的选择范围，使你的生活更轻松。

社交临在的未来

亚伯拉什和博斯沃思谈到的另一个关键研究领域是Codec Avatar。我们认为它将在虚拟世界中扮演重要角色的超逼真实时数字人物。

亚伯拉什解释道：“是Codec Avatar由两部分组成：编码器从传感器获取数据并对你的当前状态进行编码；解码器位于接收端，将数据重新扩展到你的Avatar。Codec Avatar非常逼真。我要说的是，当我第一次看到一个真正全功能的Codec Avatar时，我感到非常震惊。它不仅仅是一个更好的Avatar，你会觉得自己真的和那个人共在一起。当我思考关于虚拟世界最关键的是什么时，最有趣的就是他人。”

多年来，我们都知道虚拟现实的真正魔力在于临场感，亦即你真的置身于虚拟环境中，与数字内容共享同一个物理空间，让一切都感觉真实。Codec Avatar让我们有机会一瞥未来的社交临在。无论身在何处，你都能和另一个人（或一群人）共在同一个空间里。

亚伯拉什表示：“我认为这可能是虚拟世界真正发挥其全部潜力的最重要方面之一。它能够让人们以一种完全真实、完全有意义的方式与其他人处于同一空间。”

这都只是过去的美好时光

在回答是什么激励他每天继续工作的问题时，亚伯拉什回应道：“我一直对我们正在做的所有事情感到兴奋，因为它们都必须发生，对吧？我非常高兴看到这个平台将成为引领我们未来50年发展的下一代平台。我们正在把所有一切都落实到位，不仅在研究方面，而且包括产品化方面。”

但如果非要选择，亚伯拉什承认最令人兴奋的是个性化、情境化、超低摩擦的人工智能界面。

他进一步解释道：“人类与数字世界交互的方式只改变过一次，那就是道格·恩格尔巴特（Doug Engelbart）、施乐帕洛阿尔托研究中心和Mac电脑。从那时起，我们就一直生活在这个世界里。当我们进入这个物理和虚拟自由混合的世界时，我们需要一种新的交互方式，而我觉得这必须是这种情境化人工智能方法。实现这一点是我觉得最令人兴奋的事情。这是一个可以真正改变每个人的生活方式的千载难逢的机会。”

在结束语中，博斯沃思引用了亚伯拉什经常重复的战斗口号：这都只是过去的美好时光。

博斯沃思解释道：“当处于发明新技术的挣扎之中时，他们会感到难以置信的挑战。你要忍受失败，每次都很痛苦。在某种程度上，我们需要回顾这段时间，不仅仅是我们公司，而是整个行业，并将其作为已经过去的美好时光所以我和你们一样对这项工作充满热情，我很高兴这么多年后能继续和你们一起做这件事。谢谢你，迈克尔。”