德国研究团队开发神经自适应触觉系统以优化XR体验
一个集成实时神经和生理数据的交互系统,以动态地修改虚拟,增强或混合环境中的触觉
(映维网Nweon 2025年07月31日)神经自适应触觉通过动态调整用户偏好的多感官反馈,为XR体验提供了一条增强沉浸感的途径。在一项研究中,德国柏林工业大学和勃兰登堡工业大学团队提出了一种神经自适应触觉系统,通过强化学习(RL)从显式用户评分和大脑解码的神经信号中适应XR反馈。
在一项用户研究中,参与者与虚拟现实中的虚拟对象进行互动,同时记录脑电图(EEG)数据。RL代理根据显式评分或神经解码器的输出调整触觉反馈。结果表明,RL智能体的表现在不同的反馈源之间具有可比性,这表明内隐神经反馈可以在不需要用户主动输入的情况下有效地指导个性化。基于脑电图的神经解码器平均F1得分为0.8,支持可靠的用户体验分类。这些发现证明了将脑机接口(BCI)和RL结合起来自主适应XR交互,减少认知负荷和增强沉浸感的可行性。
XR有可能创造出深刻的沉浸式体验。然而,实现最佳体验需要微调各种设置,从亮度和视场到触觉反馈和空间音频。目前,用户通过与传统桌面环境非常相似的传统菜单界面手动调整参数,但这带来了巨大的摩擦。频繁的干扰,特别是初始设置,会破坏沉浸感,降低兴奋感,并可能降低长期采用率。
另外,传统设置菜单可能会带来比破坏即时体验更高的成本,因为它们将用户重新定位到一个已知的、古老的计算范式中,与XR的沉浸式本质完全脱节。考虑到所述挑战,德国柏林工业大学和勃兰登堡工业大学团队开始开发一种既能有效地个性化XR体验,又能最大限度地减少手动配置,并保持沉浸感的方法。
一种有前景的方法是利用强化学习(RL),令自主系统能够随着时间的推移学习用户偏好。然而,它存在其自身的障碍,例如需要人工提供标签,以及平衡自动化与用户控制的挑战。一种解决方案是通过神经和生理数据获得用户的隐式反馈,而相关信号可以作为用户偏好、参与度和沉浸感的实时指示器,而不是依赖于显式用户输入。
研究人员提出了一个定制的多感官XR体验的神经适应系统。通过“神经适应性XR”,他们介绍了一个集成实时神经和生理数据的交互系统,以动态地修改虚拟,增强或混合环境中的触觉。团队研究了如何应用强化学习来调整XR系统的触觉参数。其中,系统利用脑机接口的输出作为强化学习的奖励信号。然后他们测试了系统是否能够动态调整XR设置,以优化用户的触觉体验,不需要频繁的人工干预。
在研究中,团队打算回答三个问题:
(1)我们能否使用基于人类反馈的RL代理来调整触觉渲染以适应参与者的偏好?
(2)这是否可以通过神经解码器获得的隐式标签实现?
(3)依赖隐式标签而非显式标签可能存在哪些弊端?
团队通过构建一个神经适应系统来研究上述问题。系统包括一个基于LDA的BCI分类器和一个基于UCB的RL代理。系统设计为在接下来的每次试验中自动选择人在环中的多感官体验。研究人员发现分类器在令人满意的水平上运行(平均F1分数为~ 0.8),但在实时应用场景中,显式和隐式奖励似乎都表现出显著的噪点(与训练数据相比),这对RL代理收敛到正确的解决方案提出了重大挑战。
关于第一个问题,研究人员发现这确实是可能的,但噪点反馈显著使学习过程复杂化。当在人在循环系统中使用强化学习时——尤其是在像脑电图这样的噪点反馈源上学习的智能体——强化学习智能体如何处理探索变得至关重要。与奖励函数稳定且定义良好的传统设置不同,这里的智能体必须从既有噪点又可能是非平稳的信号中学习。
团队选择将𝜀-greedy与UCB探索结合起来,但省略了额外的噪点处理机制。𝜀-greedy和UCB都是为了确保探索而设计的机制,因此可能被认为是多余的。有人可能会说,要实现更高层次的探索,仅仅增加UCB探索常数𝑐就足够,从而推动算法更积极地探索。但在实践中这是不相等的。UCB的探索奖励自然会随着行动的采样而减少,这意味着在噪点或非平稳的环境中,相关的置信区间可能会缩小得太快,这可能导致智能体过早地选择次优行动。
相比之下,𝜀-greedy策略中的固定收益保证了即使是采样良好的arm偶尔都会重新审视。Q-learning更新偏离了传统规则,将每一步直接锚定到最大值𝑎‘𝑄(𝑎’)。尽管引入这种修改是为了加速在噪点反馈下的收敛,但它可以作为一个隐式正则化器:通过过滤掉不稳定的峰值或低谷,它促进了更平滑的学习轨迹。然而,这种锚定可能会使代理偏向于历史上高价值的行为,并会减少在奖励随时间变化的环境中的探索行为。未来的研究可以研究自适应锚定策略或混合更新方案,以保持对噪点的鲁棒性,同时保持足够的探索,特别是在多状态或非平稳环境中。
在研究中,团队决定在最终解决方案中不使用扰动奖励机制,偏离之前的实现。UCB与𝜀-greedy探索的结合已经在诸多试验中平均了奖励信号的随机波动;当噪点适中时,RL代理的固有平均意味着额外的修正(如多数投票)不会显著改变结果。另外,经验数据表明,即便没有干扰奖励,RL代理都会收敛到一个稳定的阈值,这表明这种额外的机制是多余的,因为标准的探索-开发动态已经达到了清理噪点奖励的预期效果。
转到第二个问题,团队发现了可行性的初步支持,但存在局限性。分类器的设计涉及到在实时使用前大约十分钟收集的标记脑电图数据的训练。然而,这引入了时间过拟合的风险,即训练模型可能与前一个时间窗口的神经模式适应得太近,如果参与者的认知或神经状态发生变化,则表现不佳。解决这个问题的一种方法是定期重新校准分类器,最好是在交互块之间。另外,迁移学习范式可以从跨越多个记录会话和多个用户的脑电图数据中学习,可以帮助缓解脑电图特有的高度个体间和个体内变异性。实现对不同时间事件和跨用户的鲁棒泛化是实现可扩展的、现实世界部署神经自适应XR系统的关键一步。
当前的实现采用了一个简单的线性分类器,选择它是因为它的可解释性和在时间限制下易于部署。然而,未来的研究可以利用更强大的分类方案,包括卷积或循环神经网络。尽管分类方案的性能可以通过探索更广泛的特征空间来提高,但研究人员认为直接在原始脑电图信号上进行训练特别有趣,因为RL代理可以自主地查询用户,所以系统不需要手动调整。
关于第三个问题,团队观察到数个挑战。一个关键的困难是用户提供的标签随时间的变化。尽管RLHF算法依赖于稳定的奖励信号,但参与者的评分并不总是一致。相关分析显示,随着实验的进行,在某些触觉条件下,主观得分逐渐发生变化。反复接触相同的刺激似乎会影响参与者对自己经历的判断,并可能会在RL过程中引入偏见。
他们同时观察到评分分布存在显著的个体差异。一些参与者表现出一种近乎二元的偏好结构,始终认为一种情况与现实世界的经历高度一致而拒绝其他情况。其他人表现出更多的分级偏好,这表明他们对感觉整合的感知更细微。这种差异对基于RL的适应提出了挑战:二元结构支持更快的收敛,而分级响应引入了更多的噪点。未来的研究应该探索解释进化偏好的适应机制,并帮助强化学习代理避免过度拟合瞬时状态。
另一个潜在的混淆因素是锚定效应。根据参与者第一次经历的触觉状况,他们随后的评分可能受到初次接触的影响。理想情况下,这可以通过初始条件的伪随机化来缓解,以确保早期体验的平衡分布。但在研究中,起始条件是完全随机的,这可能会在评分分布中引入额外的可变性。一个相关的锚定问题源于基于滑块的评级界面。滑块总是从中间开始,可能使参与者偏向于中等规模的反应。这可能限制了评分的范围,尤其是在早期试验中。在未来的研究中,提供一个没有预先设置手柄的未标记量表可以减少这种偏见,并促进更深思熟虑的评分。
总之,锚定效应可能使神经解码器的训练和解释进一步复杂化。特别是,它们使得为二元分类器创建可靠的数据分割变得更加困难。对评分分布的简单探索揭示了高度的异质性:一些参与者表现出二元反应模式,而另一些则表现出更多的分级、单峰分布。
这项研究表明,强化学习代理可以基于显式用户评分和隐式基于脑电图的反馈来个性化多感官XR体验。通过转向神经适应性适应,团队减少了对人工输入的依赖,旨在最大限度地减少认知摩擦并保持沉浸感。同时,诸如噪点反馈、锚定效应和不断变化的用户感知等挑战揭示了当前方法的重要局限性。
通过更细粒度的事件标记(例如通过眼动追踪或动作感应)提高学习效率可以加速适应。另外,集成直接在原始脑电图上训练的深度学习模型可以消除对手工制作特征和手动解码器的需求,但这种转变将引发关于可解释性和用户信任的关键问题。解决相关挑战将是推进神经适应性XR系统的关键。