德国团队开发大语言模型VR触觉反馈系统Scene2Hap
自动为整个VR场景设计物体级振动触觉反馈
(映维网Nweon 2025年08月14日)触觉反馈有助于创造沉浸式的虚拟现实体验。然而,为VR场景中的所有物体及其各自排列设计这种反馈,依然是一项耗时的工作。在一项研究中,德国萨尔大学和马克斯·普朗克信息学研究所团队提出了Scene2Hap。这是一个以大语言模型LLM为核心的系统,能够基于物体的语义属性和物理上下文,自动为整个VR场景设计物体级振动触觉反馈。
Scene2Hap采用多模态大语言模型,根据VR场景中的多模态信息,估算每个物体的语义和物理上下文,包括其材质属性和振动行为。然后,利用相关语义和物理上下文,通过生成或检索音频信号并将其转换为振动触觉信号,来创建可信的振动触觉信号。为了在VR中实现更逼真的触觉空间渲染,Scene2Hap考虑估算的材质属性(如密度)和物理上下文(如虚拟物体之间的距离和接触关系),计算振动信号从源头在场景中物体间的传播和衰减。
两项用户研究的结果证实,Scene2Hap能成功估算VR场景的语义和物理上下文,并且振动物理传播建模提高了可用性、材质感知度和空间感知能力。
设计3D虚拟世界可能是一个繁琐且耗时的过程,尤其是在逼真的虚拟现实场景中存在物体数量众多且种类多样的情况下。为了帮助VR设计师能够以可扩展的方式生成这些3D虚拟世界,业界已经提出了一系列的方法,并使用人工智能或大语言模型LLM来自动设计包含多个虚拟物体的整个场景的视觉、音频或行为。
然而,设计VR场景的触觉属性依然具有挑战性。所以,研究人员提出了生成式机器学习模型,用于根据手动制定的文本提示或图像(例如使用生成对抗网络或LLM)来设计触觉信号。尽管相关研究为触觉信号的自动生成提供了宝贵的见解,但它们并未涵盖两个关键方面:首先,它们未能充分利用VR场景中物体的完整语义信息。例如,厨房场景中的一个锅如果放在橱柜里,它可能不会振动,但当如果是在炉上烧水时则可能会剧烈振动;其次,它们没有考虑物体的物理上下文以及场景中多个物体之间的关系。例如,如果一部手机在桌子上嗡嗡作响,用户实际感受到的振动取决于用户触摸桌子的位置以及桌子的材质属性;在皮革桌子上的振动衰减比在玻璃桌子上更快。
换句话说,理解物体语义和物理场景上下文对于推进VR中的触觉设计至关重要。
为了克服所述限制,德国萨尔大学和马克斯·普朗克信息学研究所团队提出了Scene2Hap。这是一个以LLM为核心的系统,能够基于物体的语义属性和物理上下文,自动设计整个VR场景的物体级振动触觉反馈。
在这项研究中,研究人员特别专注于生成振动触觉信号(这是VR中最常用的触觉反馈形式),相关信号由VR环境中的主动源(如机器或振动物体)触发。对于给定的VR场景,Scene2Hap利用多模态LLM自动估算每个物体的语义(例如物体是否振动以及如何振动)和材质属性(例如密度)。
它使用场景中物体的多模态信息(如图像、名称)来查询LLM(团队将这一过程称为基于LLM的触觉推断)。推断出的物体属性用于创建一个可信的音频信号,而信号随后通过一个谐振频率为250Hz的状态变量滤波器后,并用作振动触觉信号。
Scene2Hap同时通过考虑物体的物理上下文(邻近物体以及振动在物体间的传播,这取决于LLM估算的材质属性),计算用户在场景中特定触摸点感受到的逼真振动触觉信号。Scene2Hap并非分配固定的振动信号,而是基于用户的触摸位置和LLM推断的材质属性来实时调制信号(团队将这个过程为物理感知的触觉渲染)。最终的振动反馈通过手持式振动触觉设备呈现给用户。
两项研究的结果表明:(1) 基于LLM的触觉推断能够成功理解VR场景中各种物体的语义和物理上下文;(2) 物理感知的触觉渲染通过提供可信的振动触觉信号和振动衰减,显著提升了材质感和空间感知能力,从而为提供沉浸式VR触觉体验做出了重要贡献。
两项评估共同证明了Scene2Hap的有效性和鲁棒性。研究1证实,该系统能够基于自动提取的多模态场景数据,准确推断虚拟物体的语义和物理属性。这包括对物体用途和上下文的细致解读,超越了传统基于规则的系统或物体元数据所能提供的信息。研究2表明,当这些推断的属性用于驱动触觉渲染时,能带来用户体验的可衡量提升——尤其是在空间感知方面,同时也提升了材质感知度和可用性。这些结果共同验证了Scene2Hap的流程:从自动数据提取,到基于LLM的推断,再到基于物理的、具有感知意义的触觉输出。
Scene2Hap的一个独特优势在于其系统架构,所述架构结合了基于LLM的推断与物理建模。其核心是系统对场景中的每个物体提出两个不同的问题:“它如何振动?”,以及“它的材质属性是什么?”。第一个问题的答案用于检索或生成代表物体振动的音频文件。第二个问题的答案提供了密度和刚度等材质属性,并用于物理模型,以确定振动如何在相互连接的表面间传播。
然后,模型用于实时调制和衰减实时音频流,使用户感受到与其触摸位置和材质相适应的振动。这种语义推理与实时物理建模的独特结合,使Scene2Hap能够生成自适应的、连贯的触觉反馈,且无需手动调整。
这种架构为VR设计师带来了实际效益。Scene2Hap能够快速部署触觉体验,无需手动调整参数或具备专门的领域知识。它使VR创作者能够大规模构建丰富的多模态环境——即使在包含许多复杂物体的场景中——使触觉反馈作为一种设计素材更具可及性。
总之,Scene2Hap在一个新颖的架构中提供了基于LLM的触觉推断和物理感知的触觉渲染,而相关贡献使得Scene2Hap成为可扩展触觉设计的新方向:它将语义推断与物理建模相结合,以生成自适应的、逼真的反馈。研究人员相信,这种混合方法有助于使丰富、实时的触觉体验成为未来虚拟和混合现实体验的默认能力。
当然,Scene2Hap存在一定的局限性。首先,物体语义目前仅限于场景级用途和二元振动行为;未来的工作可以支持更丰富的物体状态、部件级推理或基于事件的触发。其次,尽管物理模型支持实时传播,但它假设了简化的几何形状,如果性能允许,采用更高保真度的模型可能更有益。第三,音频质量依赖于检索/生成方法(这超出了我们的研究范围),未来的工作可以通过基于LLM的高级选择策略来提供质量控制。
最后,所提出方法专门设计用于体验由VR场景中的机械、机器或其他主动源触发的触觉振动。在未来的工作中,团队希望将这一方法可以扩展到能满足由用户与材质交互(如摩擦或纹理)引起的触觉体验的系统。
总的来说,Scene2Hap是一个以LLM为核心的系统,能够基于物体的语义属性和物理上下文,自动为整个VR场景设计物体级振动触觉反馈。Scene2Hap包含两大技术贡献:基于LLM的触觉推断和物理感知的触觉渲染。
Scene2Hap执行基于LLM的触觉推断,相关过程采用多模态大语言模型,根据VR场景中的多模态信息,估算每个物体的语义和物理上下文,包括其材质属性和振动行为。然后,利用语义和物理上下文,通过生成或检索音频信号并将其转换为振动触觉信号,以创建可信的振动触觉信号。
为了在VR中实现更逼真的触觉空间渲染,Scene2Hap执行实时物理感知触觉渲染,并考虑估算的材质属性(如密度)和物理上下文(如虚拟物体之间的距离和接触关系),计算振动信号从源头在场景中物体间的传播和衰减。
两项研究的结果证实:(1) 基于LLM的触觉推断能够成功理解VR场景中各种物体的语义和物理上下文;(2) 物理感知的触觉渲染通过提供可信的振动触觉信号和振动衰减,显著提升了材质感和空间感知能力,从而为提供沉浸式VR触觉体验做出了重要贡献。