香港科技大学团队提出U-MAD框架以光流调制缓解VR晕动症
以感知为导向的光流调制为创建更用户友好的沉浸式体验提供了一种有效且可扩展的方法
(映维网Nweon 2025年11月06日)晕动症依然是虚拟现实技术广泛普及的关键障碍,尤其是在涉及强烈或人工运动提示的场景中。其主要诱因之一是过度的光流——即感知到的视觉运动与前庭输入不匹配时,会导致感官冲突和不适。虽然以往研究探索了基于几何或硬件的缓解策略,但所述方法通常依赖于预定义的场景结构、手动调整或侵入式设备。
在一项研究中,香港科技大学(广州)团队提出了U-MAD,一种轻量级、实时、基于人工智能的解决方案,直接在图像层面抑制感知上具有破坏性的光流。与先前手工设计的方法不同,所述方案通过学习从渲染帧中衰减高强度运动模式,无需网格级编辑或场景特定适配。U-MAD设计为即插即用模块,可无缝集成到现有VR流程中,并能很好地泛化到程序化生成的环境中。
实验表明,U-MAD能持续降低平均光流并增强不同场景的时间稳定性。用户研究进一步证实,减少视觉运动可提高感知舒适度并缓解晕动症状。相关发现表明,以感知为导向的光流调制为创建更用户友好的沉浸式体验提供了一种有效且可扩展的方法。

虚拟现实技术已在教育、医疗、工业设计和娱乐等领域得到广泛应用。然而,一个持续存在的挑战阻碍了其更广泛的普及:晕动症。这种现象通常表现为恶心、头晕或迷失方向,仍然是完全沉浸式体验的关键障碍。其主要原因中,视觉与前庭提示不匹配已得到广泛认可。这种不匹配在视觉丰富的环境中尤为明显,其中人工运动提示主导用户的视野。
在这种情况下,即使没有物理运动,仅视觉运动都能引发强烈的自运动错觉。这种感官不匹配的主要来源是不自然或过度的视觉运动,即使用户身体静止,都可能引起不适。特别是光流(指观察者感知到的视觉场景相对运动)已确定为关键视觉触发因素。高强度光流会产生自运动错觉;当没有相应的前庭输入时,它会放大感知不一致并导致晕动症。这种效应在视场外围区域尤为明显,因为所述区域运动敏感性更高。因此,调制渲染内容中的光流结构和幅度已成为提高各种沉浸式应用舒适度的关键策略。
业界已提出多种硬件和软件策略来缓解晕动症,包括前庭刺激和视觉内容适配。基于硬件的方法旨在对齐物理和视觉提示,但通常具有侵入性且不适合消费者使用。软件方法旨在通过修改渲染内容来减少感知运动,但可能会影响沉浸感或视觉质量。值得注意的是,有研究人员引入了一种几何简化框架,通过手动编辑虚拟场景的高运动区域来减少外围光流。他们的方法基于离线光流分析分割场景几何,并用简化形状替换复杂元素。虽然有效,但该方法严重依赖预定义网格、手动调整以及离线异步预处理,限制了其在动态或程序化生成环境中的可扩展性。
为了克服所述限制,香港科技大学(广州)团队提出了一种轻量级、实时、基于人工智能的方法在图像层面自动衰减破坏性运动模式——无需网格编辑、场景特定调整或额外硬件。所述解决方案设计为即插即用模块,可无缝集成到现有VR流程中,实现端到端的晕动症缓解,且计算开销低、场景兼容性高。与传统手工方法不同,算法学习直接从渲染图像中识别和抑制感知上显著的光流特征。这种数据驱动策略消除了场景特定预处理的需求,确保了对程序化生成或复杂环境的广泛泛化。关键的是,所述方法保留了视觉保真度和用户能动性,避免了常见的权衡,如图像质量下降或交互受限。
除了展示平均光流的持续减少外,研究人员同时进行了一项用户研究以评估主观有效性。参与者报告视觉舒适度显著改善,晕动症状减轻,证实系统提供了可测量和体验上的益处。这些结果共同将所提出方法定位为适用于下一代沉浸式系统的可扩展且具有感知意识的解决方案。
在用户研究中,团队通过社交媒体招募了18名参与者(7名男性,11名女性;年龄范围:19-29岁,平均年龄=23.17,标准差=1.95)。纳入标准包括正常或矫正至正常的视力,无严重晕动症或前庭疾病史。50%的参与者报告无先前VR经验。所有参与者在收到关于实验程序和目标的完整信息后提供了知情同意,包括他们随时退出的权利。
采用了平衡设计。参与者被随机分配到两种观看顺序之一:一半(n=9)先观看修复视频,然后观看原始版本;另一半(n=9)以相反顺序观看。从VR兼容游戏环境(过山车游戏片段)中选择了两段视频剪辑(原始和处理后),每段时长2分钟,渲染分辨率为4K(3840×2160)以匹配典型VR头显性能标准。视频在Quest Pro头显上播放,并为每位参与者单独校准以确保最佳视觉质量。
测试环境包括一个安静、光线昏暗的房间,参与者坐在可调节椅子上以最小化外部干扰。在不同视频观看会话之间,所有参与者有约一小时的休息时间,以确保他们从视觉刺激引起的任何症状中恢复。每次视频观看后,所有参与者被要求完成标准的晕动症问卷。
在验证数据满足正态分布假设后,团队对问卷得出的指标进行了配对样本t检验和效应量计算。如图6所示,结果分析显示,参与者观看修复视频后(平均=30.75,标准差=25.61)报告的总体SSQ得分显著低于(t=3.7999,p<.01,Cohen’s d=.591)观看原始视频(平均=44.67,标准差=21.29)。参与者观看修复视频后(平均=24.00,标准差=19.84)报告的眼动不适显著低于(t=5.1397,p<.01,Cohen’s d=.840)观看原始视频(平均=39.58,标准差=17.16)。参与者观看修复视频后(平均=40.99,标准差=37.74)报告的迷失方向困难显著低于(t=2.4658,p=.0246,Cohen’s d=.471)观看原始视频(平均=57.23,标准差=30.90)。

研究旨在通过抑制对人类感知具有破坏性的光流模式来减轻沉浸式VR环境中的晕动症。通过将轻量级、即插即用的人工智能模块集成到标准VR流程中,所提出的方法表明,运动感知视频处理可以有效减少感官冲突——而无需依赖网格级场景数据、手动几何编辑或专用硬件。核心见解是,当将光流重新定义为感知控制信号而非场景几何的副产品时,它为增强实时沉浸式体验中的时间相干性和视觉舒适度提供了强大手段。
在算法层面,提出的U-MAD模型将运动感知架构设计与基于扩散的生成框架相结合,相比U-Net Diffusion和DIT等传统基线表现出显著改进。这种性能提升主要归因于在生成过程中引入光流信号作为显式指导,这为帧间运动估计提供了强先验。先前研究强调了光流在保持运动连续性中的作用,结果进一步验证了这一原则。特别是,U-MAD持续提高了时间相干性并抑制了闪烁和重影伪影,尤其是在视觉复杂或快速移动的场景中。相关改进在量化指标和用户反馈中都很明显。用户研究中的参与者报告头晕、恶心和迷失方向症状显著减少,表明U-MAD实现的运动一致性不仅在算法上有效,而且增强了真实世界的感知舒适度。
与传统方法相比,所提出的方法保留了视觉保真度、交互自由度和场景细节,从而避免了与不适缓解技术相关的常见权衡。另外,它在程序化生成和动态环境中有效泛化,增强了其在实际部署中的实用性。
尽管所提出的方法显示出明显优势,但它同时面临一些实际挑战,并需要进一步讨论。训练过程虽然是离线进行的,但由于结合了基于扩散的生成和密集光流估计,它产生了显著的计算成本。这种资源需求与在边缘AI部署深度生成模型的已知挑战一致。为解决这一问题,团队推荐采用云辅助流程,其中大规模训练后采用知识蒸馏、量化或结构化剪枝等压缩技术,以便在资源受限设备上高效部署。
另一个实际考虑是推理延迟,这深受光流估计器复杂性的影响。虽然高保真光流模型增强了视觉质量,但它们引入了相当的计算开销,呈现了性能与响应性之间的权衡。另外,仅光流可能不足以建模复杂场景动态,如物体变形、快速camera运动和遮挡。未来研究的一个潜在方向是改进评估协议,以更好地捕获对运动的感知响应。
尽管现有指标在评估低级图像保真度方面有效,但它们往往在测量时间连续性和稳定性方面不足——这些因素对沉浸式体验中的用户舒适度至关重要。为了推动领域发展,团队倡导开发时间感知和感知驱动的基准,更紧密地结合人类对运动伪影的敏感性,尤其是在实时和交互式VR条件下。这种方法可以通过纳入光流之外的额外运动线索来进一步改进。结合camera姿态估计、物体追踪和语义运动分割等信号可能帮助模型更好地捕获复杂场景动态。多模态融合和跨注意力架构的进步为结合视觉、空间和语义输入到统一运动表示提供了有希望的途径,从而支持跨多样视频域的更广泛泛化。
不过,U-MAD展示了在沉浸式环境中进行感知引导视频生成的有希望方向。所述方法不是强迫用户适应系统约束,而是灵活、自适应且实时地使视觉内容适应人类感知需求。通过将算法生成与感知原则桥接,这项工作为有效且以用户为中心的晕动症缓解开辟了新机遇。
相关论文:Flow-Aware Diffusion for Real-Time VR Restoration: Enhancing Spatiotemporal Coherence and Efficiency
总的来说,U-MAD是一种基于运动感知扩散的框架,通过感知引导的光流抑制来缓解沉浸式视频应用中的晕动症。不同于以硬件为中心或依赖几何的解决方案,所提出方法完全在图像层面操作,并在不妥协视觉保真度或用户能动性的情况下跨多样环境泛化。通过光流引导监督和即插即用架构设计的结合,U-MAD在客观时间一致性和主观视觉舒适度方面均实现了显著改进。这些结果凸显了将视频生成模型与感知原则对齐以解决VR系统中长期存在挑战的潜力。
尽管有其优势,U-MAD在计算效率和表达能力方面面临限制。未来工作将探索轻量级、域自适应光流网络以减少推理开销,以及多模态运动线索以增强场景理解。另外,团队倡导开发时间感知、感知驱动的评估指标,以更好地将模型评估与人类对运动伪影的敏感性对齐。


