罗切斯特大学分享：XR技术为何难以复制人类视觉

编辑：广东客 | 分类：快讯 | 2026年6月30日

XR技术为何难以复制人类视觉

（映维网Nweon 2026年06月30日）罗切斯特大学日前根据大脑与认知科学系、光学研究所及扩展现实中心的多位研究者的前沿成果，撰文探讨了一个常常遭到忽视的真相：人类视觉并非对世界的客观记录，而是大脑主动构建的“现实”。这一根本性认知，恰恰解释了为何当今虚拟现实和增强现实技术虽然画质日益精良，却仍难以复刻真实的视觉体验。从眼动采样、大脑过滤机制到AR/VR系统的设计瓶颈，本文揭示了技术模仿人类感知所面临的层层挑战：

罗切斯特大学分享：XR技术为何难以复制人类视觉

关于视觉最大的误解是什么？是你以为你看到了现实

人类视觉并非对世界的直接记录。这就是为什么虚拟现实和增强现实至今难以复制它的原因。

你以为你看到了现实。其实你没有。

在一个著名的实验中，参与者需要看一段视频，并数出球员之间篮球传递的次数。专注于这项任务时，诸多参与者完全没有注意到一个穿着大猩猩服装的人径直走过了场景中央。

“看不见的大猩猩”实验揭示了一个令人惊讶的事实：人类视觉并非对世界的连续记录。我们体验的所谓“现实”，实际上只是大脑对它做出的最佳解读。

大多数时候，我们从未注意到这个过程。但虚拟现实和增强现实等技术，正揭示出视觉系统在幕后进行了多少工作。即便是最先进的头戴设备，即便它能创造出看起来极其逼真的环境，却依然可能让人感觉有点不对劲，甚至极其诡异。

这种差距不仅仅是技术限制，它反映了人类视觉运作方式中更深层的因素。

在罗切斯特大学，包括Michele Rucci、Duje Tadin和Barry Silverstein在内的研究人员，正从三个相互关联的角度研究这一过程：眼睛如何主动采样世界，大脑如何从这些输入中过滤并构建意义，以及技术如何在AR和VR系统中尝试复制这种体验。

他们的研究表明，我们体验的所谓“现实”，产生于我们的眼睛、我们的大脑，以及我们为模仿两者而建造的机器之间复杂的相互作用。

误解 #1：你的眼睛记录了现实

“眼睛和相机在一个狭义上是相似的：两者都获取视觉信息。但这种相似性很快就消失了。”大脑与认知科学系教授Michele Rucci如是说道。

相机设计用来记录图像，而视觉系统的设计目的是收集我们在世界中活动并对其做出反应所需的信息。

事实上，Rucci表示如果眼睛像相机一样运作，那它会是一台出奇糟糕的相机。连接眼睛和大脑的视神经，只有大约一百万根传递视觉信息的纤维。如果把这些纤维当作相机像素，这个数量大约相当于一百万像素的图像，远低于现代智能手机相机高达数亿像素的水平。

清晰的细节仅限于中央凹，这是视网膜中心附近的一个小区域。在所述区域之外，视觉信息分辨率要低得多，但对运动更为敏感，这有助于我们即使没有直视，都能察觉周围环境中的动静。尽管如此，大多数人体验到的世界，却仿佛处处都清晰细腻。

这种“完整感”源于人类视觉不是一个被动的记录过程。即使我们认为自己正稳稳地盯着某物，我们的眼睛也从未静止。

“我们的眼睛一直在运动，将中央凹对准场景中最相关的任何部分。”Rucci解释道。他的研究专注于主动感知：视觉系统如何通过眼睛、头部和身体的运动来收集信息。其中部分工作聚焦于注视时发生的微小眼动，包括一种称为“视动漂移”的缓慢游走运动，以及偶尔发生的小幅跳动，称为“微跳视”。“我们通常意识不到这些运动，但它们很重要。”

所以，我们对细致视觉世界的体验，与其说像是拍照，不如说像在黑暗房间里快速移动手电筒。在任何给定时刻，只有场景的一小部分被细节照亮，但因为光束移动得如此迅速和持续，大脑将这些碎片化的瞥见组合成一个连贯的场景渲染。

更令人惊讶的是？如果我们的眼睛被阻止移动，我们的视觉就会开始崩溃。在图像被人工稳定在视网膜上的实验中，图像会从感知中消失。

Rucci指出：“在相机中，运动往往会使图像模糊。然而在眼睛中，微小运动有助于构建视觉输入的结构，将世界中的空间模式转化为视网膜神经元能够编码的时间信号。”

因此，眼动是视觉运作的基本组成部分。眼睛并非向大脑传递固定图像，而是不断地将世界转化为不断变化的视觉信息流，供大脑解读。

误解 #2：你看到了眼前的一切

如果眼睛是一个采样系统，那么大脑就是构建发生的地方。

一个常见的误解是，大脑处理眼睛传递的一切。但实际上，“人类大脑在严格的带宽限制下运作。我们的工作记忆通常一次只能容纳五到七个信息块。”大脑与认知科学教授Duje Tadin如是说道。

因为我们的认知系统一次只能处理有限的信息，视觉系统在传递信息时进化出了高度选择性。到达眼睛的信息量是巨大的。在每一级处理中，大脑都会过滤、优先处理并丢弃传入的信息。但大脑在细节上失去的，在意义上得到了补偿，比如标签和物体识别。

例如，想象你在杂乱的桌子上找钥匙。你的眼睛接收到了笔、文件、充电线、灰尘、阴影和几十种其他细节。然而你并没有同等程度地有意识地处理这些细节。如果你的钥匙有蓝色钥匙扣，蓝色物体就会变得更显眼。如果你通常把钥匙放在桌子右边，你会首先被吸引到那里。

你的大脑并非保留视觉场景的每一个细节，而是构建一个帮助你完成当前任务的现实版本。

注意力同样起着重要作用。有的信息因为视觉上独特而突出。其他信息则因为符合一个人正在寻找、期望或思考的内容而突出。我们注意到什么，不仅取决于存在什么，还取决于我们的大脑判断了什么有关联。这既源于当前任务，又源于先前的经验。

Tadin表示：“大脑的目标不是创建我们周围世界的精确图像。目标是创造出对我们生存有用的东西，在我们需要时提供信息，并且不将大脑资源浪费在我们不需要的东西上。”

这有助于解释为什么人们会错过那些看起来不可能忽视的事情，比如“看不见的大猩猩”实验中穿大猩猩服装的人。我们的眼睛接收到了信息，但我们的注意力集中在别处。

视错觉揭示了同一更广泛过程的不同方面。

Tadin指出：“如果感知存在空白，大脑会做出最佳猜测来填补相关信息。我们感知到的东西，是进入眼睛的信息与大脑有根据的猜测的结合。”

换句话说，感知不是现实的完美读出，而是一种有根据的解读。大脑并非随机猜测，而是利用上下文和我们丰富先前的视觉经验来填补缺失的信息。它强调看似重要的内容，甚至不均匀地分配其资源。

结果是形成了一个非常高效的系统，它构建了一个有用的现实模型，而非一个详尽无遗的模型。

误解 #3：更好的AR和VR仅仅意味着更好的图形

当视觉信息到达我们的意识层面时，它已经经过了不断运动的眼睛和筛选、优先排序并填补空白的大脑的塑造。复制这种体验，事实证明比简单地显示图像要困难得多。

AR和VR的目标通常被认为是创建完美的数字复制世界。然而实际上，AR和VR技术正试图做的事情可以说更为复杂：匹配人类感知世界的方式。

正如Barry Silverstein的研究所示，即使视觉信息传递方式上微小的不匹配，也足以打破幻觉。

他表示：“世界是广阔的，你无法真正预测人类会看向哪里。总的来说，你需要提供比你想要的更多的信息。但这会变成问题，因为眼睛在动，头也在动。制造一个能随眼睛和头部一起移动的光学系统，目前超出了技术能力。”

像大脑一样，AR和VR系统必须决定显示什么信息，省略什么。信息过多会造成计算过载。信息过少会让体验感觉不真实。眼动追踪是解决这一问题的关键一环。通过识别一个人正在看哪里，未来的系统将只对场景中最相关的部分投入最高分辨率和计算能力，同时简化其余部分。但因为我们的眼睛从未停止移动，这些调整需要几乎瞬间完成，技术才能令人信服地运作。

眼动追踪只是挑战之一。另一个主要挑战是准确再现景深和聚焦。在人类视觉中，眼睛指向哪里和晶状体聚焦在哪里是紧密相连的。在虚拟环境中，这些系统并不总是一致。眼睛可能汇聚在一个看起来很近的虚拟物体上，而晶状体却保持在固定的距离聚焦。结果是视觉系统预期接收到的与实际接收到的之间产生了微妙的失配。这种失配正是虚拟环境即使看起来视觉上令人信服，却仍可能感觉微妙地不自然的部分原因。它也可能导致眼睛疲劳、头痛和晕动症。

Silverstein解释道：“通过任何特定技术，都很难像你看到的那样呈现世界。而且在头戴式设备上做到这一点非常复杂，因为一个人能舒适佩戴的技术是有限的。”

归根结底，人类感知本身并非技术能轻易模仿的东西。

正如Silverstein所说：“感知就是我们本身。而且每个人的感知都不同。”

误解 #4：看见很简单

Tadin经常问他感知导论课上的学生：“哪个更容易，数学还是视觉？”大多数学生选择视觉。

“视觉看起来如此毫不费力，以至于很容易低估它的复杂性。但视觉之所以感觉毫不费力，仅仅是因为我们大脑有那么多的计算能力都投入其中。用计算机甚至人工智能来复制它是一个非常困难的过程。相比之下，计算器和计算机能轻松解决有挑战性的数学问题。”

因此，构建令人信服的AR和VR系统，不仅仅关乎增加更多像素、更亮的显示屏或更快的处理器。挑战在于匹配一个我们几乎未曾注意到却在发生的极其复杂的过程。看见感觉不费力，但它绝非简单。每一刻，眼睛和大脑都在协同工作，采样、过滤和解读我们周围的世界。

我们感觉像“现实”的东西，在许多方面，都是大脑不断构建的一种体验。