德国研究证实虚拟化身头部运动对VR对话体验的关键影响
为了引发自然的交流行为,对话者的渲染必须包含足够真实的头部运动
(映维网Nweon 2025年08月18日)虚拟现实中的交互式通信可用于实验范式,以提高助听设备评估的生态效度。这要求虚拟环境能够引发听者自然的交流行为。在一项研究中,德国奥尔登堡大学团队评估了虚拟化身头部运动对参与者交流行为与体验的影响。
他们在测试参与者和两名配合者之间进行了三方对话。为便于操控头部运动,对话通过一个低延迟传输音频、头部运动数据和视频的远程呈现系统进行。配合者由具有不同动画水平的虚拟化身代表:静态头部、基于语音起始水平的自动头部运动动画,以及基于传输的对话者头部运动进行的动画化头部运动。另外,对话者头部的视频被嵌入到视觉场景中。
结果显示,动画水平对参与者通过物理传感器记录的言语和头部运动行为,以及主观临场感和对话成功率均有显著影响。影响最大的是说话时的头部朝向范围以及化身的感知真实感。参与者报告称,当化身显示出从对话者传输而来的头部运动时,他们感觉对方说话的方式比化身头部静态时更有帮助。
因此,德国奥尔登堡大学团队得出结论:为了引发自然的交流行为,对话者的渲染必须包含足够真实的头部运动。
日常生活中的对话(可能伴随周围背景噪声)十分频繁。它们是社交互动的重要组成部分,而频繁的误解会对人的自信心、社会参与度以及整个生命周期的整体幸福感产生负面影响。对于听力受损的听者来说,群体对话尤其具有挑战性,尤其是在存在背景噪声的情况下。
助听设备旨在提高言语清晰度并降低聆听努力度,但据大规模调查显示,约25%的用户在困难的聆听环境中对其设备满意度较低。特别是对于听力损失程度较高的患者,当前的助听设备提供的支持不足。改进设备性能并非易事,因为它需要在多样化和动态的声音场景中识别并衰减无关信号。最近利用用户注视和头部运动行为来区分相关与跨声源的技术发展可能有助于完成此任务。
为了评估此类基于行为的信号处理策略,需要合适的方法。例如,与孤立聆听相比,交互式对话被发现能引发听者不同的头部运动行为。因此,需要能引发自然行为的系统性测试来评估助听设备的性能。特别是,有证据表明,当用于评估更复杂的算法时,广泛使用的评估方法和指标(如言语接受阈)对设备在现实生活中的性能预测能力较差,而这更强调了此必要性。
部分原因可能是这些传统方法中的头部运动行为并未反映现实生活行为。虚拟视听环境是呈现日常生活场景的多功能工具。与现场测量相比,其呈现的刺激可以精确控制,多种场景可以在同一地点呈现,目标信号和噪声信号可以直接获取。
最近,虚拟对话中非语言行为的重要性得到强调,特别是头部运动和眼神交流对有效沟通和舒适度的重要性。关于自身运动,有研究表明听者在跟随对话时的头部运动行为取决于虚拟化身的唇部运动水平和头部朝向动画水平。研究同时发现,操控主动对话中对话者的头部运动会改变接收者的运动。较早的一项研究得出结论,使用捕获的行为数据将实现更高的化身真实感。因此,在评估听者行为时,在虚拟环境中准确呈现潜在对话者的非语言线索(如头部朝向、注视行为和点头)至关重要。
德国奥尔登堡大学团队的研究旨在通过调查化身头部运动对听者行为和体验的影响。
研究的问题是:将头部运动传输给化身是否会影响虚拟环境场景中的行为和体验到的参与度? 所提出方法是观察参与者在远程呈现中进行的真实交互式三方对话,并系统性地修改代表对话者的化身的头部运动动画水平。化身使用虚拟动画角色显示。通过改变背景噪声水平来控制难度。然后,使用客观行为数据和主观体验评分评估头部运动动画水平的影响。
测量环境代表了一个典型的酒吧对话场景。团队预计对话者的头部运动会对交流行为和对话成功产生影响,因为它们包含了非语言交流线索。言语行为是可以反映对话中努力度变化的一个方面。在噪声中进行口语互动时,一个典型的补偿策略是言语水平和频谱内容的改变,即隆巴德效应。作为隆巴德效应的一个简单度量,可以进行言语水平分析。另外,研究发现,在自由对话中,高背景噪声下话语持续时间更短,这可能是为了简化信息。
相比之下,在双人拼图任务中发现话语持续时间增加 。另外,连续说话者之间切换的时机也可能表明对话中互动的难易程度。言语贡献的协调受损有时与反映所需的言语处理时间有关。然而,这些影响是多因素且模糊的。例如,有研究发现在更高的噪声水平下,连续说话者之间的言语间隙更短,尽管人们预期噪声的存在会因更高的言语识别努力度而导致言语间隙增加。
先前的研究使用了各种术语,如“说话者间停顿”和“说话者间重叠” 或“话语权转移偏移”。在本研究中,团队将两位说话者之间的停顿称为言语间隙 (speech gaps),说话者轮换时的重叠言语称为言语重叠 (speech overlap)(参见图 2)。接下来,背景噪声的变化以及化身头部运动预计会影响参与者的运动行为(位移和头部朝向)。头部运动行为的改变对于头戴式助听设备的潜在影响具有重要意义。
对于面对面的三方对话,有研究指出未发现噪声水平对头部朝向角度有影响,但与语音成形噪声相比,在多人嘈杂声中头部朝向角度更大。其他研究人员发现噪声水平对年轻听力正常听者有微小影响,但对老年听力受损听者没有影响。然而,由于研究同时改变了对话的视觉方面,与对话者的角度距离可能会受到动画条件的影响。另外,可以计算某条件下头部朝向范围作为头部运动行为的度量。
为了收集参与者的主观体验评分,有数种可用的问卷。igroup临场感问卷评估体验到的临场感,包括虚拟环境的空间临场感、参与度和真实感等因子。这一问卷在先前的一项研究中有用于评估日常生活的非交互式虚拟场景。在评估交互式通信场景时,感知到的对话成功度是一个重要方面。
团队的总体预期是,如果噪声水平设置在显著阻碍对话的声压级上,与安静条件相比,背景噪声会对选定的测量指标产生影响。不同头部运动实现方式的影响预计较小,因为听力正常的参与者群体可能较少依赖视觉线索(相比听觉线索)。可能影响仅在噪声中存在,因为此时听觉互动受限,视觉交流可能更为相关。
在研究中,团队发现将头部运动传输给化身会影响参与者在虚拟现实中交互式三方对话中的行为。特别是,他们发现参与者的头部运动和话语持续时间在变化的头部运动动画水平下发生了微小变化。另外,虚拟场景中的临场感和对话成功率同样受到影响。传输的头部运动的效果从未显著优于自动化的头部运动,但作为趋势可见其优势。
与静态化身相比,使用视频传输来代表远程对话者时效果最大。因此可以得出结论:在虚拟现实交互式通信的背景下,对话者的呈现必须包含足够量的头部运动(如点头或将头部朝向活跃说话者),以引发对话者自然的对话行为。
结合参与者说话和聆听时头部运动行为不同的发现,这一方面对于评估基于行为的信号处理策略所需的受控自然聆听场景至关重要。然而,仅传输头部运动不足以提供充分的非语言交流行为,所以需要进一步研究对话者的面部表情、手势和姿势对交流行为的影响。