摩根大通探索强化学习,让混合现实界面“随人而动”
在混合现实中实现个性化和优化的用户界面及内容放置
(映维网Nweon 2025年10月21日)混合现实能够通过将虚拟内容持续集成到用户对物理环境的视野中来辅助用户完成任务。然而,由于混合现实体验的动态特性,在何处以及如何放置这些内容以最好地支持用户一直是一个具有挑战性的问题。与之前基于优化方法的研究不同,摩根大通团队正在探索强化学习(RL) 如何能够辅助进行连续的、感知用户姿态及其周围环境的三维内容放置。
通过初步探索和评估,实验的结果展示了强化学习在为用户动态定位内容以最大化奖励方面的潜力。研究人员进一步指出了未来研究的方向,借助强化学习的力量,在混合现实中实现个性化和优化的用户界面及内容放置。
混合现实技术有潜力通过将数字内容普遍集成到用户对物理环境的视野中来辅助用户完成任务。用户得以在各种日常任务中移动过程中持续依赖这些数字信息。然而,由于混合现实用例自由度增加和动态变化的特性,确定三维用户界面在物理空间中的最佳位置提出了一个不小的挑战。
由于虚拟信息可以在三维空间中的任何地方、任何时间显示,如果设计不谨慎且未持续更新,它可能通过要求用户不必要的注意力和手动交互(例如移动或隐藏数字内容)来妨碍现实世界的活动。当用户处于移动状态时,这类问题尤为突出,因为最初有用的放置位置可能在用户改变姿势或空间位置后失去其效用。
为了使混合现实用户界面更好地支持用户,存在两个未解决的挑战:
它们必须无缝适应动态的上下文变化,例如用户的位置、姿势和周围环境,而传统的基于规则的适应方法无法做到这一点
它们必须实时考虑多个适应目标,例如可见性、可达性和舒适性。
为了实现这种自适应的混合现实用户界面行为,最近的研究将问题表述为多目标优化。用户的目标表述为一组目标函数,并选择能最大化/最小化这些目标的位置。然而,基于优化的解决方案存在两个理论上的挑战:
每次用户在空间中移动时都需要重新进行优化,这可能导致较高的计算成本且效率低下;
这些解决方案可能难以泛化到其他环境或用户移动模式,需要重新配置或修改目标和约束。
在这项研究中,摩根大通团队采用了一个新颖的视角来解决混合现实中的三维用户界面放置挑战。受强化学习在机器人学和自动驾驶汽车等动态现实世界环境中成功应用的启发,研究人员采用深度强化学习(RL) 来在动态场景中做出三维用户界面的放置决策。
与基于优化的方法(其目标定义和观察更为直观)相比,强化学习需要仔细设计奖励函数以及在训练过程中进行大量的试错。然而,在处理复杂动态场景并有机会纳入用户偏好方面,尤其是当需要顺序做出决策时,强化学习可能更具优势。通过观察环境和用户状态,所提出的强化学习代理学习采取行动、观察结果,并通过自身的交互经验制定策略,以最大化用户的长期奖励。
团队指出:“据我们所知,这项研究是首次在用户移动时使用强化学习在三维混合现实空间中放置虚拟信息。”
为了评估基于强化学习的用户界面放置方法在混合现实中的潜力,团队通过初步评估验证了训练模型的性能和泛化能力。实验结果证明了强化学习在解决混合现实环境中的三维用户界面放置挑战方面的潜力。它可以帮助用户决定最佳放置位置,以在移动过程中最大化累积奖励。另外,研究人员强调了利用最先进的强化学习方法来进一步改进我们提出的方法的未来可能性。
如表1所示,结果证明了基于强化学习的方法在自适应三维用户界面放置方面的潜力。在更静态的环境中,即在代理训练过的环境中,超过91%的用户界面是持续可见的。超过94%的时间它未与环境网格发生碰撞。它同时保持了用户手臂可及的距离。
在代理未曾经历过的两个验证环境中,结果表明用户界面依然能保持在合理的位置,每个时间步中大约85%的部分持续对用户可见。它保持了与用户稍远的距离,但依然在可触及范围内。同样,在环境中引入移动障碍物的动态设置中,模型在训练环境和验证环境中都实现了良好的放置效果,性能下降可以忽略不计,特别是在验证环境中,可见性/物理性(指避免碰撞)的下降被限制在3.12%以内。即使障碍物滑入视场(见图3(b)),用户界面都能保持其可达性水平,并避免大多数即将发生的碰撞以保持其对用户的可见性。
因此,用户界面到用户的平均距离略有增加以补偿这种权衡。这证明了强化学习代理能够适应并泛化到它以前未曾经历过的环境和一定程度的意外变化。然而,团队注意到在两个带有动态障碍物的训练环境中出现的较高性能下降可能是过拟合的迹象。未来的研究需要在更多样化的环境中进一步验证我们的模型。
图3(c) 展示了模型实时输出的示例,其中强化学习放置用户界面,同时避免与白板碰撞,并确保用户的可达性和可见性。研究人员观察到的一个限制是用户界面移动速度仍然相对较高,平均值超过了在奖励函数中设定的水平。其中一个原因可能是模拟象征了一个用户频繁重新定位的繁忙场景,因此强化学习代理体验静态奖励的机会较少。未来需要在如何进一步提高用户界面的稳定性方面开展工作。
摩根大通团队对初步探索的积极成果感到兴奋。在此,研究人员强调在动态三维混合现实环境中利用强化学习进行内容放置的未来机遇与挑战:
更多关于奖励公式的考量: 作为初步探索,当前的强化学习设置在制定奖励时未考虑其他方面,例如物理对象的语义和可供性、内容类型(例如2D与3D、文本密集型与图像)、空间一致性以及用户人体工程学。最近的研究强调了这些考量的好处。未来的研究应考虑这些方面,探索如何将它们纳入当前的奖励设计,以及如何进一步提高用户界面内容的稳定性。
VR模拟与实际AR/MR环境: 训练通过在虚拟现实中模拟增强现实/混合现实环境,假设了对环境和用户状态的充分理解。在真实的增强现实/混合现实空间中进行训练可能会面临更多挑战,因为强化学习需要大量的试错,并且对物理世界的理解并不完美。未来的工作需要弥合模拟用户行为与实际用户行为之间的差距。例如,利用生成式人工智能模型,可以从用户的实际移动轨迹生成合成数据来训练强化学习代理。这样,代理就可以从常见的用户行为模式中学习,以进一步优化下游性能。
多用户与多用户界面: 团队的探索证明了强化学习控制单个三维用户界面内容放置的初步可行性。然而,用户经常需要访问多个与其任务具有不同相关性的应用程序。为了支持多个内容元素,可以利用多智能体强化学习框架来训练多个智能体之间的协作行为,使它们做出最佳权衡。同样的策略也可能适用于多用户协作场景。未来的研究可以探索这些方向的可行性。
结合人类反馈的强化学习(RLHF)用于偏好学习: 研究表明,性能更好的人工智能模型可能不会被用户认为更有用。同样,从用户角度来看,混合现实中三维用户界面放置的质量通常具有高度主观性。因此,关键在于推导出符合用户期望、偏好和能动性的放置位置。最近的研究揭示了强化学习通过少量查询纳入人机协作偏好学习的潜力,这种方法能够很好地泛化到新任务,无需重新训练模型。这使得偏好可以在移动过程中被获取,与优化中基于约束的方法相比可能更灵活。未来的研究可以进一步探索利用结合人类反馈的强化学习(RLHF)在混合现实空间中推导个性化和更优的用户界面放置的潜力。
基于模型的强化学习: 团队的探索利用了无模型强化学习,这是一种处理环境嘈杂、复杂且不可预测的现实情况的有力技术。其缺点是无模型强化学习需要大量的试错才能使代理学习到一个好的策略。在人机交互领域,已经开发了多种模型来预测人类的运动和认知表现。这使得基于模型的强化学习成为一种可行的替代方案,其中强化学习代理模拟其行动的后果而无需实际执行它们,从而进行前瞻性规划。这样,训练可以更高效地进行。
与基于优化方法的比较: 由于本研究的范围,团队没有将强化学习与其他基于优化的方法进行比较。未来的研究需要在实验控制和生态效度兼备的混合现实用户界面场景设置下,探索不同方法之间的权衡。
关于泛化能力的更多探索: 尽管结果初步证明了基于强化学习方法的泛化能力,但训练是在多样性较低的环境中进行的。引入更高程度的可变性和复杂性可能有助于更稳健的学习过程(例如带有移动旁观者的多层环境),使模型能够更有效地适应多样化的用户界面场景。团队的目标是模拟更逼真的现实世界场景,从而使模型能够获得更广泛的行为。
相关论文:Adaptive 3D UI Placement in Mixed Reality Using Deep Reinforcement Learning
总的来说,摩根大通团队探索了强化学习在混合现实环境中进行三维用户界面放置的潜力。通过让强化学习代理在模拟的物理环境中通过试错进行交互,它可以学习一种策略来辅助三维用户界面的放置,以最大化用户的效用。研究人员训练了一个能够持续辅助三维用户界面放置的强化学习代理,通过初步的模拟评估(探索了模型在新环境和动态环境中的泛化能力)展示了所提出方法的潜力,并指出了用户界面稳定性和过拟合等挑战。
基于结果,团队进一步强调了未来研究的机遇,亦即探索利用强化学习在混合现实环境中实现个性化和自适应的信息显示。