研究员开发提高VR语义识别效率的新型点云转换器框架ESP-PCT
ESP-PCT的准确率达到了93.2%
(映维网Nweon 2025年02月12日)由东南大学,香港城市大学,瑞士数据科学中心,博世,新加坡科技设计大学,中国科学技术大学组成的团队认为,语义识别在虚拟现实应用中至关重要,可以帮助实现沉浸式和交互式体验。一种富有前景的方法是利用毫米波信号产生点云,但当前毫米波点云模型的高计算和内存需求阻碍了它们的效率和可靠性。
为了解决这一限制,研究人员介绍了一种新颖的增强语义性能点云转换器ESP-PCT,而它具有为VR应用量身定制的两阶段语义识别框架。
ESP-PCT利用感官点云数据的准确性来优化语义识别过程,其中定位和焦点阶段以端到端方式联合训练。团队在各种VR语义识别条件下评估了ESP-PCT,并证明了识别效率的实质性提高。值得注意的是,ESP-PCT的准确率达到了93.2%。
VR在过去十年中经历了快速增长,增强了娱乐、购物、医疗保健和教育等领域的用户体验。这种进化主要是由先进的传感功能驱动,通过识别和追踪头显和控制器的运动,并从VR用户身上提取语义信息。
当前的VR系统使用一系列传感器,包括惯性测量单元。最近的研究人员发现,集成毫米波技术显著增强了VR感知能力。毫米波设备放置在用户面前,产生高分辨率点云,准确描绘环境,即便在障碍物中都能保持保真度。
这种方法通过提供第三人称视角来补充VR头显中的传感器。尽管存在所述优势,但使用毫米波雷达进行精确的语义识别依然面临着复杂的挑战。
目前领域最先进的设计分为两类:给予Vision Transformer(ViTs)的方法在处理高分辨率图像和视频方面具有出色的准确性,但存在较高的计算和存储成本、隐私问题和有限的感知;基于Point Transformer的方法在处理毫米波点云数据的稀疏性和不稳定性方面表现出有效性[,但在关注关键运动特征、降低模型成本和增强对环境噪声的鲁棒性方面面临挑战。
所述限制阻碍了相关方法在VR中的广泛应用。在VR应用中,实时处理和响应对于用户体验和沉浸感至关重要,因为它们需要大量的计算资源。现有模型处理整个毫米波点云数据,而不优先考虑语义相关信息,而语义相关信息对VR任务至关重要。另外,相关模型会导致不必要的计算开销、内存浪费和性能效率的潜在下降,特别是在需要快速处理和决策的实时应用程序中。
所以,迫切需要一种高效的学习框架来从最相关的点云数据中定位和提取语义信息,以增强VR语义识别任务。为了克服所述限制,团队引入了一个旨在优化VR应用中毫米波点云数据利用的框架ESP-PCT。
ESP-PCT解决了两个关键的挑战:如何在稀疏的点云中关注目标的运动部分,特别是语义区分区域;如何利用这些关键部分的点云数据来增强VR语义识别
ESP-PCT模型通过两阶段框架解决了相关挑战,首先通过定位阶段对关键区域(如VR控制器)进行定位,然后在焦点阶段对选定的点应用注意力机制。他们发现点云中并非所有的点都对提高精度有同样的贡献,有的点会分散模型的注意力。受到这一发现的启发,ESP-PCT只关注控制器的点云,它表现出更密集的反射点云。
所提出的两阶段框架显着将焦点缩小到VR控制器对准确性有积极影响的关键区域,从而大大降低后续阶段的计算成本,同时消除非必要区域的噪点,而这提高了模型准确性。
具体而言,基于Point Transformer架构,ESP-PCT在定位阶段分析原始点云数据并进行早期识别。这个阶段有效地处理数据,并利用智能策略重用特征,从而节省了计算资源。这种一致性对于从头到尾的顺利训练至关重要,有利于节省资源,并为焦点阶段保留了关键的上下文细节。
将ESP-PCT应用于VR语义识别任务效果显著。ESP-PCT达到了93.2%的准确率,同时降低了计算成本,将FLOPs降低了76.9%,内存利用率降低了78.2%,为VR语义识别提供了新的效率和性能。
团队指出,ESP-PCT是为语义识别中的各种子任务而设计的灵活、健壮的框架。它的适应性源于它的两阶段结构,这使得它能够跨场景高效地重用。ESP-PCT的定位和焦点阶段不仅是特定于任务,而且足够灵活,可以应用于VR环境中的一系列语义识别子任务。这种可重用性是一个显著的优势,特别是在各种VR应用中。
总的来说,团队提出了一种全新的ESP-PCT框架,它通过动态定位和关注毫米波信号生成的点云数据中的语义区分区域来提高模型精度,同时减少了冗余。关键的见解是,点云中的所有点并不都同样重要,这使得框架能够有选择地处理数据,并强调最有信息的区域来增强语义分析。
团队利用点云数据验证了ESP-PCT在各种VR语义识别任务的有效性和效率,并发布了各种VR场景下毫米波点云和Kinect数据的12TB数据集以供进一步研究。未来的研究可以探索将ESP-PCT应用于其他对象和场景的语义识别。