触觉反馈对动态VR行人环境中用户避障行为与视觉探索的影响研究
当虚拟世界终于学会了“触摸”,我们与之互动的方式也将被彻底重塑
(映维网Nweon 2025年11月14日)在虚拟现实构建的宏大世界里,我们能用双眼见证奇迹,用双耳聆听共鸣,但我们的身体,却常常是沉默的。尤其是在模拟人群熙攘的街头或紧急疏散场景时,那份源于肌肤与肌肉的、对于拥挤和碰撞的微妙感知,一直处于缺失状态。这份缺失,使得我们在VR中的行为,与真实世界相比,总隔着一层难以言喻的疏离感。
针对这个问题,东京大学与斯坦福大学团队正尝试填补这一关键空白。他们的发现揭示:当虚拟世界能够“触摸”我们时,我们的身体会以更真实、更本能的方式作出回应。 这不仅是一项技术成就,更是我们理解人机交互、构建下一代沉浸式模拟器的重要一步。

此前,学术界和产业界并非没有尝试在VR人群模拟中加入触觉反馈。然而,许多研究得出的结论颇为矛盾:有的认为触觉提升了沉浸感,但另一些,如Berton等人在2022年的研究,却发现它并未显著改变用户的行走路径。
一个被广泛接受的观点是:人类移动行为主要依赖于视觉。 在现实世界中,我们依靠双眼就能判断出与他人的距离、速度和间隙,从而规划路径。因此,有研究者认为,在VR中,即便提供了触觉信息,它也可能被更主导的视觉系统所覆盖,从而显得无足轻重。
团队成员指出:“但这里存在一个关键的局限性。先前的研究环境,大多不够‘混乱’和‘压迫’。” 许多实验设置要么是用户静止而NPC移动,要么是稀疏的单向人流。在这样的环境下,用户的视觉系统有足够的能力处理全部信息,触觉自然成了锦上添花,而非雪中送炭。
真正的挑战,在于视觉系统过载的瞬间。想象一下下班高峰期的地铁换乘通道,人群从四面八方涌来,你的视野被完全占据,无法同时顾及每一个潜在的碰撞威胁。这时,来自肩膀或背部的一次轻触,会成为至关重要的警报信号。本研究的核心,正是要复现这种视觉受限的、高动态的密集环境,探究触觉在其中扮演的角色。
要回答这个科学问题,首先需要创造一个能逼真模拟真实世界人群复杂性的VR平台。研究团队并未满足于现成的简单方案,而是从底层开始,构建了一个能够“呼吸”、能够自主反应的动态虚拟社会。
赋予NPC智慧:从“社会力”到自主决策的个体
研究团队采用了一种经过改良的基于速度的行人动力学模型。你可以将它理解为每个NPC体内都有一套精密的“自动驾驶系统”。
这套系统由两大核心指令驱动:
第一指令:“你要去哪里?”(全局导航) 系统为整个环境设定了一个看不见的“速度场”,如同给每个NPC设定了目的地和理想步行速度(本研究设置为1.2米/秒)。在毫无干扰的情况下,他们会沿着这条理想的路径直线前进。
第二指令:“小心撞到人!”(局部避障) 当其他NPC或用户进入其安全距离(一个围绕自身的“排斥力场”)时,系统会立即计算出一个额外的速度矢量,驱使它进行避让。这个力场的大小和强度,可以根据人群密度进行调节。
关键在于,最终的行走方向是这两个指令——导航与避障——实时矢量叠加的结果。 这意味着,每个NPC的每一步都是即时计算出来的,而不是沿着预设的固定路径。正是这种自下而上的计算,才能自然涌现出真实人群中常见的现象:如面对迎面而来的人流时自动分成两股,或在瓶颈处形成的短暂拥堵与疏通。这种“涌现”行为,是规则脚本动画无法实现的,也是本研究能模拟动态密集人流的基础。
赋予NPC生命:从“滑动模型”到活生生的动画
仅有智慧的移动还不够,如果NPC的动作僵硬、不自然,会严重破坏用户的沉浸感,从而影响实验数据的可靠性。为了解决这个问题,团队引入了游戏与动画工业界的前沿技术——Motion Matching(动作匹配)。
传统动画要么是预设的循环动作,要么需要在不同动作间进行复杂的混合,容易产生滑步或不连贯。Motion Matching 则采用了一种数据驱动的“检索”思维。
它拥有一个庞大的、预先录制好的人类行走、转向、停顿等动作的动画数据库。同时,还有一个记录了这些动作发生时角色状态(如速度、朝向、位置)的特征数据库。
在运行的每一帧,系统都会根据NPC当前的实际状态(比如:正在以1.1米/秒的速度向左前方移动),生成一个“搜索提问”。然后,它会在特征数据库中飞速寻找与当前状态最匹配的“那一帧”动画。找到后,便直接从动画数据库中调用对应的角色姿势来渲染。
这相当于为每个NPC配备了一位实时的、永不疲倦的动画导演,能随时从海量动作库中挑选出最贴合当前移动状态的一帧。 其结果就是,NPC的动画无比流畅自然,转身、闪避、加速都如真人般顺滑。
然而,计算数百个NPC的Motion Matching是极其耗费算力的(本研究使用了顶级的RTX 4090显卡)。为此,团队采用了巧妙的细节层次(LOD)优化:只为用户头戴显示器(HMD)视野范围内的NPC进行高精度的Motion Matching计算;对于视野之外的NPC,则使用简化的动画或甚至暂停计算。这确保了整个系统能够在维持高保真视觉效果的同时,流畅运行。
编织一件会“说话”的触觉衣
创造了可信的虚拟人群后,下一步就是建立用户与这个世界之间的触觉沟通渠道。研究团队自主研发了一款全方位触觉反馈服,这不仅是硬件创新,更包含了一套精巧的“触觉语言”编码系统。
触觉服的核心是6个独立的触觉单元,它们战略性地布置在用户上半身的胸部左右侧、左右上臂以及上背部。它覆盖了人体上半身的主要受力和感知区域,能够模拟来自前、后、左、右以及所有斜向的触碰。每个单元都由一个微型振动电机和一个采用Shore A 80硬度橡胶材料3D打印的外壳构成。选择橡胶材质而非硬塑料,是为了更好地与人体贴合,让振动波更柔和、更广泛地传递,模拟真实的触碰感,而非生硬的“嗡嗡”震动。
同时,研究团队设计了一套精细的方向编码系统。当虚拟环境中的NPC与用户的距离小于设定的0.65米碰撞阈值时,系统不会粗暴地让所有电机一齐震动。相反,它会进行一系列高速计算:
步骤一:判定碰撞方向。 以用户为中心,将360度平面划分为12个30度一个的扇形区域。
步骤二:激活对应电机。 根据碰撞发生的具体方向,激活与之最接近的1到2个触觉单元。
通过这种组合,这件触觉服能够生成12种截然不同的触觉模式。这就像一套由12个基本单词构成的触觉语言,能够清晰地向用户的大脑传递“碰撞来自何方”这一关键信息。所有这些单元通过蓝牙由一颗ESP32微控制器统一协调,确保了反馈的即时性和低延迟。
接下来,团队设计了一套严谨的数据采集与分析流程,像侦探一样从用户的行为痕迹中寻找线索。为了在VR中还原用户的真实动作,团队使用了索尼的Mocopi(一款基于6个惯性测量单元IMU的动捕系统)。然而,纯IMU系统在长时间使用后容易产生位置漂移,导致用户的虚拟化身“飘走”。
为此,他们创新地采用了传感器融合方案:用户的身体姿态(关节弯曲、躯干转动)由Mocopi提供,而头部(HMD)的精确位置和朝向,则直接采用HMD自身的定位数据。这样既利用了IMU捕捉身体运动的灵活性,又保证了整体定位的稳定性,确保了自我化身的准确渲染。
研究人员进一步将每次碰撞事件,按照NPC相对于用户的方位(前、侧、后) 和是否在视野内进行了分类。这种精细化的分类使得他们能够回答更深刻的问题:触觉反馈是在所有情况下都起作用,还是仅在视觉盲区(如身后)才效果显著?

数据显示,在有触觉反馈的条件下,用户的行走轨迹显著变长、更加曲折,同时骨盆的转动幅度也更大。这表明,感受到“触碰”的用户,不再满足于“挤过去”,而是做出了更多侧身、绕行的主动避让动作。他们的虚拟身体变得更加“礼貌”和“谨慎”。
然而,一个反直觉的现象是:触觉反馈组的用户,与NPC发生的碰撞次数反而增加了。 这并非触觉失灵,恰恰相反,它揭示了动态环境的复杂性。更积极的避让动作,在如此密集且多变的人流中,就像在拥挤的舞池中跳起了更复杂的舞步,虽然意图是避开眼前的舞伴,却可能意外地撞到身后的其他人。
触觉不仅指挥了身体,也指挥了目光。数据显示,有触觉反馈时,用户头部(颈部)转动的幅度和频率都显著更高。那份来自侧方或背后的轻微震动,仿佛是一个无声的警报,促使他们下意识地转头去确认情况。问卷调查结果与此完美印证:用户普遍报告,在触觉帮助下,他们对视野盲区内的NPC意识更强了。
在步行速度上,研究发现了一个有趣的现象:触觉反馈并没有改变用户的平均步行速度,但却显著增大了速度的标准差。
这意味着什么?想象一下你在真实人群中的行走:突然有人挡在面前,你会减速或停顿;发现一个空当,你会立刻加速通过。你的速度是不断变化的。而在无触觉的VR中,用户更容易保持一种“匀速”的、略带机械感的行进模式。触觉反馈的引入,打破了这种匀速状态,让用户的步行节奏变得更动态、更“一惊一乍”。这正是用户对虚拟环境中的碰撞变得更敏感、行为模式更接近现实的有力证据。
这项研究为我们勾勒出了下一代沉浸式模拟技术的清晰蓝图。在应急疏散训练领域,未来的消防员、安保人员或普通民众,可以在绝对安全的环境中,通过触觉反馈亲身“感受”到灾难性拥挤的压力和混乱。这种训练所塑造的肌肉记忆和应激反应,将远比观看视频或进行简单的VR行走训练要深刻得多。
对于城市规划和建筑设计,设计师们可以利用这个平台,在建筑动工之前,就在虚拟空间中测试其设计的流通效率。他们不仅能“看到”人群的流动,还能通过触觉服“体验”到设计瓶颈所带来的拥堵和碰撞感,从而从源头上优化设计,预防潜在的公共安全隐患。
展望未来,研究人员指出,当前的振动反馈仍相对初级。未来的触觉设备可能会集成力度可调的线性共振致动器、温度模拟、甚至轻量的电肌肉刺激,以模拟从擦肩而过的轻柔触感到强烈挤压的不同感受。同时,如何在极高密度人群中优化触觉提示,避免信息过载,也是一个充满挑战的课题。


