畅想未来AR交互愿景，Facebook要创造“新鼠标”革命

编辑：刘余欣 | 分类：精选 | 2021年3月10日

加入映维网会员

它听起来像是科幻作品的描述，但这是Facebook正在实验室里打造的未来

（映维网 2021年03月10日）想象一下，一副轻巧时尚的眼镜可以取代你对PC或智能手机的需求。无论朋友和家人身在世界何方，你将能获得一种如同现实般物理临在对方身边的能力。另外，情境感知人工智能将帮助你导航周遭的世界，丰富的三维虚拟信息触手可及。最重要的是，你不再需要低头查看屏幕，你可以一直把注意力留在面前的世界。这是一种不会强迫你在现实世界和数字世界之间做出选择的设备。

它听起来像是科幻作品的描述，但这是Facebook正在实验室里打造的未来。日前，团队通过一篇博文分享了我们人类将如何与这样一个未来交互的愿景。下面是映维网的具体整理：

畅想未来AR交互愿景，Facebook要创造“新鼠标”革命

1. AR交互挑战

Fcebook Reality Labs（FRL）首席科学家迈克尔·亚伯拉什（Michael Abrash）曾将AR交互描述为“最困难、最有趣的多学科问题之一”，因为这是人类与计算机交互方式的一次彻底转变。上一次重大转变始于20世纪60年代，当时道格拉斯·恩格尔巴特（Douglas Engelbart）的团队发明了鼠标，从而帮助主导当今世界的图形用户界面（GUI）铺平了道路。GUI的发明从根本上改变了HCI，使之变得更好。这是一个持续了数十年的巨大转变。

但为了在用户一天里遇到的任何情况下都能发挥作用，全天候可穿戴的AR眼镜需要一个全新的范例。它们需要能够做你想让它们做的事情，并在你想知道的时候告诉你需要的信息。就像是你的大脑一样，无缝地向你分享信息，在你想知道的时候采取行动，而且不以其他方式妨碍你。

畅想未来AR交互愿景，Facebook要创造“新鼠标”革命

亚伯拉什指出：“要让AR真正无处不在，你需要低摩擦、随时可用的技术。这种技术使用起来需要足够直观，可以成为你身体的延伸。这与HCI今天的状况相去甚远。所以，就如同恩格尔巴特一样，我们需要发明一种全新的界面，一种将我们置于计算体验中心的界面。”

这个AR界面需要是主动式而不是被动式。它将是一个能够将意图无缝地转化为行动的界面，让我们对自己的生活拥有更多的代理权，并且允许我们临在重要之人的身边。

重要的是，它需要在各个方面都为社会所接受：安全、私密、低调、易学、易用、舒适/全天可穿戴、使用轻松、可靠。

当我们构建下一个以人为中心的计算平台时，我们致力于以负责任的、以隐私为中心的方式推动这一创新。所以我们精心制定了一套负责任的创新原则来指导我们在实验室里的所有工作，帮助确保我们的产品在隐私、安全和防护方面都站在最前沿。

简言之，AR界面需要我们对人机交互方式进行彻底的反思，而且它将像GUI一样彻底改变我们与数字世界的关系。

2. 已探索的问题空间

假设你决定走到附近的咖啡馆，并在那里完成什么工作。你穿戴一副AR眼镜和一个柔性腕带。当你出门的时候，你的AI助理将询问是否要播放你最喜欢的播客的最新一集。只需轻轻挥动手指，你就可以点击“播放”。

当你走进咖啡馆时，你的AI助手会询问：“需要我下单一杯12盎司的美式咖啡吗？”由于心情不像往常，你又挥动手指点击“不”。

你走向一张桌子，但不是拿出一台笔记本电脑，而是拿出一双柔软、轻便的触觉手套。当你打开它们的时候，一个虚拟屏幕和一个虚拟键盘将出现在你面前，然后你开始编辑文档。文本键入就如同操作物理键盘一样直观。你感到非常兴奋，但咖啡馆的噪音让你很难集中注意力。

通过识别你正在做的事情，以及根据对环境噪音的检测，AI助手将利用特殊的入耳式监听器（IEM）和主动降噪来减少背景噪音。现在你很容易集中注意力。接下来，一位服务员经过你的桌子，询问你是否需要续杯。AR眼镜检测到这一点，并允许服务员的声音进入你的耳朵，但继续隔绝周遭的噪音，只是通过波束成形主动增强服务员的声音。在服务员为你续杯的时候，你们两人依然可以进行正常的交谈。这一切都是自动发生。

然后，一个朋友打电话给你，AI助手会自动将其发送到语音信箱，以免打断你当前的对话。根据你的日程安排，比如说你需要接孩子放学的时候，你的视场会出现一个温和的视觉提醒，这样你就不会因为当前的交通状况而迟到。

3. 打造所述的AR界面

FRL Research汇集了一支由研究科学家、工程师、神经科学家等组成的高度跨学科团队，并致力于解决AR交互问题，从而实现计算的下一个重大范式转变。

FRL Research的负责人是研究科学总监肖恩·凯勒（Sean Keller），而他则是在短短六年的时间里将最初的5人小组发展为一个由数百名世界级专家组成的团队。凯勒表示：“我们通常从计算机的角度来考虑输入和输出，但AR交互是一种特殊的情况，我们正在构建一种能够感知、学习，并在日常生活中与用户协调行动的新型可穿戴计算机。我们希望赋能人们，使得每个人都能做得更多、临在更多人身边。我们的AR交互模型是以人为中心。”

畅想未来AR交互愿景，Facebook要创造“新鼠标”革命

亚伯拉什曾在2020年的Facebook Connect大会解释说，一个随时可用的超低摩擦AR界面将建立在两根技术支柱之上：

第一种是超低摩擦的输入：当你需要行动时，从构思到行动的路径将尽可能短而直观。

你可以执行手势，发出语音命令，或者通过注视菜单来选择项目。所述操作都是根据手部追踪摄像头、麦克风阵列和眼动追踪技术实现。但最终，你需要一个更为自然，非干扰性的方式来控制AR眼镜。我们已经探索了一系列的神经输入选项，包括肌电图（EMG）。尽管有几个方向具备潜力，但我们认为基于手腕的EMG最有前景。这种方法利用从脊髓传输到手部的电信号，并根据手腕位置的信号解码来控制设备的功能。经过手腕的信号非常清晰，肌电图可以检测到手指仅一毫米的运动。这意味着输入可以不费吹灰之力，就像点击一个虚拟的、随时可用的按钮一样轻松，而且最终甚至可以感觉到大脑移动手指的意图。

在产品设计中，摩擦/Friction是指影响用户顺畅完成期望操作的障碍。用户完成期望操作的过程越快越简，摩擦度/摩擦点就越低/越少，可以理解为“无障碍交互”。

第二根支柱是使用人工智能、情景和个性化来确定输入操作在任何给定时刻对用户需求的影响范围。这需要构建一个能够适配用户的界面，一个强大的人工智能模型，能够根据对你和你周围环境的理解、以及对你可能需要的信息或你可能想在各种环境下做的事情进行深入的推断，并且为你提供正确的选择。理想情况下，你只需点击一次就可以实现你想要的操作，或者更好的是，未来你甚至不需要做任何事情系统就可以执行正确的操作。我们的目标是允许你控制体验，即便事情是自动发生。

尽管情境感知型人工智能与超低摩擦输入的融合具有巨大的潜力，但挑战依然存在。例如，如何将技术打包成舒适的全天候可穿戴形状，以及如何提供操纵虚拟对象所需的丰富触觉反馈。触觉反馈同时可以允许系统与用户通信（比如说智能手机的振动）。

为了应对所述挑战，我们需要一种全天可穿戴的柔性系统。除了在超低摩擦输入和情境化人工智能方面的深入研究，凯勒的团队正在利用可穿戴的柔性电子设备（佩戴在皮肤表面或靠近皮肤表面以检测和传输数据的设备）来开发一系列可以舒适地佩戴在手部和手腕的技术，包括肌电传感器和腕带。这将有助于为我们提供更丰富的双向沟通途径。

AR眼镜交互最终将受益于多种全新技术和/或改进技术的集成，包括神经输入、手部追踪和手势识别、语音识别、计算机视觉，以及全新的输入技术，如IMU手指点击和自触检测。从场景理解到视觉搜索，它需要广泛的情景型人工智能功能。所有这一切的目标都是允许更轻松、更快速地执行你提供给设备的指令。

要在这种全新的交互范式中真正做到以人为本，我们需要从一开始就负责任地构建它们，时刻关注用户对隐私和安全的需求。这种设备将改变我们与世界及彼此的交互方式，所以我们需要让用户完全掌握这种交互。

打造AR界面是一项艰巨的、长期的任务，尚需多年的研究。但通过现在的播种，我们相信我们可以达到AR的恩格尔巴特时刻，并在未来10年内让这个界面出现在人们的手中。

4. 更多的情景信息

对比未来的AR界面和之前的所有界面，最大的区别在于我们的AR设备将拥有更多的情景信息。眼镜将从你的角度看世界，听世界，就像你所做的那样，所以它们将拥有比以往任何一个界面都多得多的个性化情景。外加强大的人工智能推理模型，这将允许它们以个性化的方式来为你提供帮助。

想象一下，一副AR眼镜可以在商务会议中为你提供关键的数据，引导你到达目的地，告诉你车钥匙的位置。这个界面的潜能就如同1967年的GUI。可能性非常巨大，而且是尽你所想。

另一个区别是，大多数的现有界面都是模态。你通过运行一个应用程序来选择一个模式，然后你的一组选择将改变以匹配这个模式。当你从一个应用程序切换到另一个应用程序时，当你转到下一个任务时，你在任何给定时刻做的事情的情景信息都会丢失。但AR眼镜并不是这样。它们能够在你一天中遇到的所有环境下都能无缝地工作。这些环境会不断变化，而且常常会重叠。这意味着界面将把每个交互都视为一个意图推理问题，然后它就可以利用预测向你展示一组简单的选项，而不是今天的界面那样，需要你一个接一个地浏览选项菜单以寻找目标信息。

关键的是，未来的接口将被一个关键的反馈回路放大。人工智能不仅可以向你学习，而且因为输入是超低摩擦（而且只需要“智能点击”），人工智能会提出问题，以更快地提高对你和你的需求的理解。实时指导系统的能力将是非常有价值的，并将超越依赖传统数据收集和培训的系统。

最终的目标是建立一个能够准确地适配你和满足你，而且在不确定时只需提出一个简单问题即可消除歧义的界面。但这样一个系统需要多年的发展。部分原因是训练人工智能推理模型所需的感知技术和自我中心数据根本不存在。通过收集第一人称视角的数据，我们最近启动的Project Aria将使我们离这个目标更近一步。

在不久的将来，我们将看到可用但有限的情景型人工智能与预测功能，比如说能够主动建议播放列表。请继续关注我们的博客，届时我们将回顾我们在HCI方面的研究：自适应界面。

5. 以人为中心

今天的设备允许我们与相隔两地的人建立联系，不受时间和空间的限制，但这种联系往往以临在感作为代价。我们告诉自己，只要意志力足够强大，我们就能够把智能手机放到一边，并专注于眼前的对话。那是个错误的选择。我们的世界既是数字的又是物质的，我们不应该为了拥抱一个而牺牲另一个。

我们正在打造的设备不会强迫我们在人和设备之间做出选择。这种未来派的设备将允许我们直视前方，并把注意力放到周遭的世界，这样我们就可以做更多我们作为人类所要做的事情：联结和协作。

但是，下一次计算浪潮要取得成果，我们就需要一种真正将人类放在中心的范式转变。这意味着我们的设备需要适配我们，而不是反过来我们向设备妥协。这意味着AR需要自己的恩格尔巴特时刻。