慕尼黑工业大学研发LLM驱动的VR自然语言导航系统
免手操作的移动机制
(映维网Nweon 2025年08月04日)在虚拟现实环境中,移动机制在塑造用户体验方面起着至关重要的作用。特别是,免手操作的移动机制提供了一个有价值的选择,通过支持无障碍性和解放用户对手持控制器的依赖。传统的语音方法往往依赖于严格的命令集,限制了交互的自然性和灵活性。在一项研究中,慕尼黑工业大学提出了一种由大型语言模型LLM驱动的新型移动机制,以允许用户使用具有上下文感知的自然语言来导航虚拟环境。
团队评估了三种方法:基于控制器的传送,基于语音的转向和语言模型驱动的方法。评估措施包括眼动追踪数据分析,包括通过SHAP分析进行可解释的机器学习,以及关于可用性、临场感、晕动症和认知负荷的标准化问卷,以检查用户的注意力和参与度。
研究结果表明,LLM驱动的移动机制具有与传送可媲美的可用性,临场感和晕动症得分,展示了其作为一种舒适的,以自然语言为基础的,免手操作方案的新潜力。另外,它增强了用户在虚拟环境中的注意力,而这意味着更大的参与度。
随着虚拟现实技术的飞速发展,VR系统开始广泛应用于教育、娱乐、医疗和培训等各个领域和用途。沉浸式环境中的用户交互质量对于积极塑造用户体验至关重要。用户体验的一个重要方面是移动机制,它指的是用户如何在虚拟环境中移动。移动记住影响一系列的因素,包括用户沉浸感,任务表现,整体舒适度,更重要的是晕动症。
在各种技术中,使用手持控制器的传送是最广泛采用的方法之一。但在用户必须腾出双手的情况下,例如在多任务处理或专注于可访问性的应用程序中,免手操作尤为重要。
为了解决这个问题,研究人员提出了不同输入方式的不同技术,包括语音,注视和手势。其中,基于语音的系统提供了一种自然而直观的替代方案,其技术包括基于语音的连续转向和通过口头目的地输入控制的传送方法。然而,以前的方法主要依赖于预定义的命令集和基于规则的映射,而这需要用户不自然地说话,限制了交互体验的灵活性和直观性,并会对用户满意度、可用性和沉浸感产生负面影响。
大型语言模型LLM的最新进展为在VR中开发更自然和智能的基于语音的交互系统提供了新的机会。相关模型可以准确地解释VR中以自然语言表达的用户指令,并有效地识别意图,特别是当环境上下文纳入提示时。另外,由于它们支持多种语言,所以可以在相同的系统设置中启用多语言交互,并在支持用户多样性的同时,以最小的努力使虚拟环境更加通用。
在研究中,慕尼黑工业大学团队提出了一种创新方法,利用LLM来解决现有基于语音的技术的关键限制,从而在VR中实现基于自然语言的免手操作导航。基于转向的语音方法通常依赖于连续的移动,这可能会导致不舒服,并且需要用户使用僵硬的预定义命令说话。尽管基于远程传送的语音方法通过即时移动来减少晕动症,但它们依然依赖于基于规则的语法结构,并且通常需要手动标记对象或用于语音识别和语义理解的预定义映射。
相比之下,团队提出的方法允许用户表达自由形式的口头指令,无需记忆固定的命令或语法结构。系统使用从虚拟环境中动态提取的上下文信息(如对象名称、颜色和位置)实时解释指令,从而实现灵活、直观和可扩展的导航,无需手工制作规则或注释。为了评估方法的有效性,研究人员在一个类似城镇的虚拟环境中进行了用户研究,比较了三种移动技术:传送,通过固定命令基于语音的转向,以及LLM驱动的运动。其中,通过标准化问卷和使用眼动追踪的行为数据收集用户反馈。
问卷通过SUS测量可用性,通过IPQ测量临场感,通过NASA-TLX测量认知负荷,通过CSQ-VR测量晕动症。眼动追踪分析提供了对认知行为、视觉注意力和参与的见解。另外,训练机器学习模型对基于眼动追踪特征的移动技术进行分类,并通过使用SHAP分析应用可解释的人工智能来探索每个特征如何对模型的决策做出贡献。
这一过程帮助团队确定了不同技术中最具影响力的特征。研究结果表明,正如预期的那样,传送是最快的技术,而LLM驱动的方法比基于语音的转向方法的完成时间略快,在任务的后半段观察到更大的改进,表明适应性增强。在用户体验方面,LLM驱动的移动技术提供了与基于语音的转向相似的可用性水平,同时改善了空间临场感,并保持了较低的晕动症水平。
眼动追踪分析显示,LLM驱动的方法带来了更少但更长时间的注视和更短的扫视持续时间,这表明与连续移动相比,视觉参与更集中。同时,SHAP分析表明,注视行为因移动技术而异,突出显示注视持续时间、扫视动态和瞳孔直径是区分用户视觉反应的关键特征,这取决于他们如何导航虚拟环境。所以,这项研究确定了LLM驱动方法作为传统技术的自然替代方案。
在性能和用户体验方面,尽管瞬间传送是最快的方法,但它依赖于手动控制器,不适合免手操作场景。在免手方法中,基于语音的转向最初能够更快地导航到第一个目标,但参与者很快适应了LLM驱动方法,从而在第二阶段获得了更高效的表现,并更快地完成了整体任务。这种学习效应表明,尽管用户完全不熟悉这种移动形式,但他们很快适应了自然语言系统,并能够有效地利用其灵活性。
这三种方法在可用性、认知负荷、晕动症和临场感方面的结果都相当,没有观察到显著差异。结果表明,这两种基于语音的移动方案对用户来说都是有效的,并且在VR中以无障碍性为重点的情况下可以像传送一样有用。传送获得了最高的可用性分数。两种基于语音方法的得分都在75到80之间。结果表明,这两种免手技术都受到了用户的普遍欢迎,但它们的效率和易用性都不如传送。与基于语音的连续移动相比,LLM驱动的方法可以实现即时传送到目标位置,减少恶心和前庭不适。这与先前的研究结果一致,即持续运动更容易引起晕动症。尽管所有的参与者都达到了相同的目标,但使用瞬间移动的人完成任务的速度要快得多,使得他们在虚拟环境中的时间明显减少,几乎是其他条件下的四倍。
这种持续时间的减少可能导致了在瞬间移动的情况下,晕动症的总体得分较低。有趣的是,在动眼肌不适的情况下,这种模式正好相反,语音驱动的得分略低。这可能表明,与其他技术中使用的突然位置变化相比,它稳定、连续的移动对视觉系统的压力更小。传送需要最少的认知努力,而LLM驱动的方法比基于语音的转向显示出略高的认知需求。在瞳孔直径的测量中同样观察到类似的趋势。
LLM驱动条件的增加可能反映了计划上下文相关和有效命令所需的心理努力,这在传送或依赖于简单和可重复输入集的基于命令的方法中是不期望的。然而,它可以促进更深层次的认知参与,鼓励更积极地探索沉浸式虚拟环境,潜在地有助于在LLM驱动的运动条件下提高临场感。
另外,尽管自由形式的命令最初可能会施加更高的认知负荷,但这种需求可能会随着经验的增加而减少。同时,尽管与上下文命令相关的认知负荷略高,但使用LLM方法的参与者报告了最高水平的空间临场感。与基于语音相比,主动与环境交互以提供上下文感知指令可能会增强他们的临场感。相比之下,基于语音的转向获得了最高的真实感评分,可能是因为它的连续行走模式更接近于模拟现实世界的移动。
除了标准化问卷之外,参与者对所有运动策略都提供了积极的定性反馈。传送通常被描述为直观且易于适应,有助于流畅的体验。基于语音的转向是自然的,因为它与现实世界的行走相似,并且在导航过程中有连续运动的感觉。然而,参与者偶尔会尝试使用超出预定义集合的命令变体,而这有时会导致无法识别的输入。
LLM驱动的方法得到了特别积极的反馈。很多参与者认为它非常直观,引人入胜,使用起来很愉快。事实上,在演示场景中,有的用户尝试了不同的措辞,表明开放式输入风格鼓励好奇心,探索和更深入地参与虚拟环境。但在少数情况下,系统无法理解指令,主要是由于语音转文本模块的限制。
语音导向导致的注视率明显更高,这表明在连续导航过程中视觉扫描和注意力需求增加。这一结果可能归因于不断移动的性质,用户需要积极地监视他们的方向并快速搜索环境,这通常导致更短和更频繁的注视。同样,平均注视时间作为稳定的视觉注意和认知参与的指标。传动的注视时间最长,其次是LLM,而基于语音的转向条件的注视时间最短。相关眼球运动模式,特别是在传送和LLM驱动的条件下,频率较低但注视时间较长,表明用户能够更有意识地计划他们的行动,并且通常意识到他们的预期目的地。
LLM的平均扫视持续时间显著缩短,表明LLM驱动条件下的参与者进行了更有目的的视觉探索。另外,尽管瞳孔直径主要认为是认知负荷的指标,但瞳孔大小的增加可能反映出虚拟环境中参与度或觉醒程度的提高。在LLM驱动的条件下,更高的空间和一般存在得分进一步支持了这一发现,表明自然语言互动促进了更深层次的认知参与和沉浸。
分类模型证明了使用眼动追踪特征实时推断用户交互模式的可行性,因为相关特征在不同的移动技术中是不同的。SHAP分析表明,注视时间、扫视动态和瞳孔直径是区分用户行为的关键指标。不同的眼动模式反映了视觉注意力和认知参与的变化,可以作为自适应VR系统的客观指标。
LLM移动方法为残疾用户提供了高度可访问的替代方案,在可用性和舒适性方面与传送和固定命令方法相匹配。凭借其固有的多语言支持,用户可以用自己的语言自然地进行交互,无需依赖于特定于语言的短语。这消除了特定于环境的调整或手动配置的需要,使系统具有高度的适应性和包容性。这种灵活性在医疗培训、教育和远程协作等环境中尤其有价值,随着VR的普及,环境的无障碍性和易用性至关重要。
然而,在现实场景中实现LLM方法的一个挑战是LLM输出固有的动态性和潜在的不可预测性,但它们在广泛的条件下表现出色。由于它们不是完全可控的,所以确保一致和可预测的行为可能需要额外的错误处理机制。这些可能包括限制移动范围、验证目标坐标,或者在模型输出不明确或指向不可导航区域时保持用户在适当位置。
另一个挑战是在LLM和语音到文本模型的准确性和性能之间找到适当的平衡。尽管通过使用较小的模型来减少延迟可以提高响应性,但保持强大的整体性能至关重要。
相关论文:Exploring Context-aware and LLM-driven Locomotion for Immersive Virtual Reality
总的来说,团队提出了一种LLM驱动的VR移动技术,使用自然语言指令实现即时传送,增强了可达性,并解决了经常与连续语音驱动相关的晕动症。为了评估这种方法的有效性,团队对三种技术进行了比较评估:传动、通过固定命令进行基于语音的转向和LLM驱动方法。
团队使用眼动追踪分析来深入了解用户的注意力、参与度和认知过程,并使用标准化问卷(包括SUS、IPQ、CSQ-VR和NASA-TLX)来补充这一分析,分别评估可用性、临场感、晕动症和认知工作量。
尽管传送依然是最有效的移动方法,但它通常不适合免手操作场景。团队提出的LLM驱动方法提供了一种很有前途的替代方案,它将自然语言交互与上下文感知和即时运动相结合,同时固有地支持多语言作为优势。尽管它需要更多的认知努力,但它提高了沉浸感和舒适度,特别是在减少晕动症方面。
总体而言,研究结果表明,LLM驱动方法是VR环境中直观,无障碍和沉浸式免手导航的替代方案。未来的研究可以研究个性化技术,例如根据用户偏好或先前的交互调整LLM行为,以提高可预测性和可用性。