雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

港科大轻量级Transformer模型实现VR晕动症93%高精度实时预测

查看引用/信息源请点击:映维网Nweon

晕动症预测

映维网Nweon 2025年05月15日)晕动症是沉浸式虚拟现实体验广泛普及的一个重大障碍,因为它会极大地破坏用户的参与度和舒适度。研究表明,晕动症可以在头部和眼动追踪数据以及其他生理数据中得到显著反映。

尽管应用了CNN和LSTM等深度学习技术,但模型往往难以捕获多个数据模式之间的复杂交互,缺乏实时推理能力,限制了它们的实际应用。

为了解决这一差距,香港科技大学(广州)团队提出了一种轻量级模型,利用基于transformer的编码器来处理生物信号特征,并通过PP-TSN网络来提取视频特征。然后,通过跨模态融合模块集成功能,创建一个视频感知生物信号表示,支持基于视觉和生物信号输入的晕动症预测。

模型经过轻量级框架的训练,在包含眼动和头部追踪数据、生理数据和VR视频的公共数据集进行了验证,并在晕动症预测方面展示了最先进的性能,仅使用VR视频输入就实现了93.13%的高精度。相关发现表明,所提出方法不仅能够有效、实时地预测晕动症,而且解决了VR环境中长期存在的模态交互问题。

VR正在迅速发展,图形、运动追踪和用户舒适度方面的进步推动了新应用和沉浸式体验的发展,并扩大了VR在各个领域的应用范围,包括医疗保健领域、工业安全领域、游戏领域等等。

然而,引起头晕、恶心和不适等症状的晕动症依然是VR广泛采用和长期使用的重大障碍。所以,业界正在进行的研究重点是了解和减轻晕动症的影响,以改善用户体验和VR可用性。

尽管有研究人员尝试通过多模态方法来解决相关挑战,但模型并没有充分考虑不同模态之间的相互关系。为了克服这一限制,香港科技大学(广州)团队选择了带有生理数据的头部和眼动追踪,而不是脑电图,因为所述因素同样显示出与晕动症的高度相关性。

团队解决了生物信号和视频内容的模态协作和模态纠缠。网络设计包含共享功能模块,以鼓励跨模态的协作,同时保留模态特定的模块来处理模态纠缠的挑战。然而,使用时间序列数据依然面临额外的挑战。例如,处理数据类型的高计算成本限制了实时应用,使当前模型无法充分适应用户行为和环境变化。

所以,对于视频感知生物信号表示学习,研究人员采用基于transformer的稀疏自关注模型,以减少提取生物信号特征时的计算成本。

同时,基于PP-TSN的编码器网络从视频中捕获视觉特征。然后将生物信号和视觉特征结合在一个融合模块中,以产生视频感知的生物信号表示。表示随后用于重新训练基于PP-TSN的网络,使其能够仅使用VR视频内容提取视觉和认知特征,并用于个性化晕动症预测。

所提出模型由数个关键组件组成:生物信号编码器模块、视频编码器模块、作为多模态枢纽的通用层模块和跨模态融合模块。模型首先采用两个独立的单模态编码器:一个用于编码视频数据,另一个用于编码生物信号数据。编码器旨在捕获每个个体形态的固有特征,确保视觉和生理信息都准确地表示出来。

一旦编码视频和生物信号数据,它们各自的视觉和认知表征就输入到通用层模块中。模块由多个通用层组成,通过将不同的模态投射到共享的语义空间来对齐它们。这种投影有利于跨模态对齐,同时保留每个模态的原始特征,这对于保持生物信号和视频输入的独特性至关重要。

为了进一步增强这些模态的融合,团队应用了专用的跨模态融合模块。所述模块集成了来自两种模态的对齐表示,产生了一个稳健的跨模态表示,可以用于下游任务,如预测或分类。通过这种架构,模型有效地融合了来自生物信号和视频数据的互补信息,从而能够更全面地了解用户的生理和视觉状态。

这项研究最重要的发现在于开发了一种轻量级的跨模式学习框架,可以仅基于VR内容进行个性化晕机预测,将生物信号与VR视频数据无缝集成。研究结果支持了一个假设,即多模式、个性化的方法比传统的一刀切方法更有效。

结果与之前关于个性化模型重要性的研究一致,并同时展示了一个更高效的解决方案。模型不仅捕获了多个数据源之间的关系,而且解决了模态纠缠的挑战,相较于之前的研究提供了一种更全面、更可扩展的方法来预测晕动症。

实验结果表明,用稀疏注意取代自我注意和改进轻型骨干网络对减少成本时间有很大帮助。这两种变化都能以更少的推理时间获得更高的精度。

值得注意的是,本研究使用的是现有的数据集。感官数据的实时采集与预处理相结合的研究存在空白。尽管模型在当前的训练和测试数据集上表现出色,但其对有限VR内容集的关注可能会限制其在不同VR应用和类型中的适用性。

另外,用户疲劳或压力等因素可能会影响结果。所以,需要进一步的研究来确定相关发现在更广泛的情况下的泛化程度。

为了充分利用该模型的潜力,未来的研究应该扩展数据集,以包括更多样化的用户配置文件,涵盖不同的年龄组和VR经验水平。优化模型以兼容更广泛的VR硬件和内容类型同样至关重要。最后,整合额外的生物信号或环境因素可以进一步了解影响晕动症的因素。

相关论文Real-time Cross-modal Cybersickness Prediction in Virtual Realit

总的来说,团队提出了一个基于视频感知生物信号表示学习和晕动症学习的实时个体晕动症预测轻量级模型。在对生物信号数据进行编码的过程中,采用了基于transformer的稀疏自关注,以获得生物信号的特征。同时,利用基于PP-TSN的网络从视频中提取视觉特征。将视觉特征和生物信号特征输入到跨模态融合模块中,得到视频感知的生物信号表示。通过将输出与特定特征匹配,对基于PP-TSN的网络进行重新训练,以提取视觉认知特征。在MAC数据集的实验结果表明,它可以以更少的推理时间实现最先进的性能。

本文链接https://news.nweon.com/129736
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯