香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

在多用户虚拟现实交互中优化体验质量

映维网Nweon 2025年11月08日)在多用户虚拟现实交互中优化体验质量(QoE)需要在超低延迟、高精度运动同步与公平资源分配之间实现精妙平衡。尽管自适应关键帧提取技术能缓解传输开销,但现有方法往往忽视带宽分配、CPU频率与用户感知之间的因果关系,从而限制了QoE的提升。

在一项研究中,香港科技大学团队提出一种智能框架,通过将自适应关键帧提取与因果感知强化学习(RL)相结合来实现QoE最大化。首先基于韦伯-费希纳定律构建新型QoE度量指标,融合感知灵敏度、注意力驱动优先级和运动重建精度;随后将QoE优化问题建模为混合整数规划(MIP)任务,在水平公平约束下联合优化关键帧比率、带宽和计算资源。

团队提出部分状态因果深度确定性策略梯度(PS-CDDPG),将深度确定性策略梯度(DDPG)方法与因果影响检测相结合。通过利用关于QoE如何受各种动作影响并决定的因果信息,他们探索由因果推断(CI)计算权重引导的动作,从而提升训练效率。基于CMU运动捕捉数据库的实验表明,本框架显著降低交互延迟、提升QoE并保持公平性,相比基准方法实现更优性能。

香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

近年来虚拟现实行业实现显著增长,在各领域催生突破性应用。作为以人类体验和沉浸感为核心的技术,VR将实时多用户交互列为关键应用方向。3D与多媒体技术的创新使VR突破传统视频通信的局限,提供更广泛的沉浸式体验。然而VR技术发展受限于其对超高清画质的需求和延迟敏感性。另外,三维环境中人体运动的传输不仅提升VR功能复杂度,更增加了数据流资源需求。

为应对上述挑战,研究者正探索在VR系统中实施注意力机制,通过聚焦用户视场优化数据通信流程,最终降低数据量与延迟。虚拟场景渲染依赖3D模型和运动序列,这是动画、VR及元宇宙的关键基础。通过摄像头或惯性测量单元传感器等技术捕获的人体运动数据,对于将用户动作从物理环境同步至虚拟场景至关重要。尽管运动序列能高精度捕获动作细节,但其对通信与同步的要求极高。

为解决这些问题,研究者正探索下一代传输技术并利用边缘服务器的计算能力以提升服务质量(QoS)。另外,中间帧重建的可靠性使关键帧提取与运动重建成为重要技术。传统QoS侧重于误码率和延迟等技术标准,而体验质量(QoE)作为以用户为中心的指标,评估整体用户满意度与感知。通过强调服务满足用户期望的程度,QoE促进资源的合理分配与利用——这对在资源受限环境中实现VR沉浸体验尤为关键。然而多媒体方法的适应性因用户行为随机性、感知阈值及服务公平性需求而复杂化,加之用户对不同对象的注意力水平决定资源分配优先级,使得VR交互中的QoE提升更具挑战性。

人工智能的扩展正革命性改变各领域,尤其在智能决策方面。利用智能代理的实时能力对于动态网络环境中多用户交互时的体验优化至关重要。在机器学习算法中,强化学习(RL)以处理复杂动态系统而著称。通过与环境交互,RL智能体可减少对大量训练数据的依赖。但RL的主要挑战在于训练效率,其常需大量迭代过程以适应新环境。因果强化学习(CRL)通过融合因果推断(CI)赋能RL训练过程,已成为提升效率与可解释性的新研究趋势。

通过检测动作对当前状态的影响,智能体可识别训练策略,从而降低训练随机。受此启发,香港科技大学团队利用韦伯-费希纳定律构建多用户VR交互中的QoE矩阵。基于注意力的策略与关键帧通信方法旨在充分利用有限资源。为此,将QoE最大化问题建模为混合整数规划(MIP)问题,在保证用户间公平性的同时联合优化关键帧比率、带宽和计算资源。提出基于深度确定性策略梯度(DDPG)模型与因果影响检测的新型决策算法,利用因果动作影响(CAI)评分量化动作对给定状态的因果信息。随后提出基于噪点的主动探索方案,根据候选动作CAI评分权重选择动作。

因果影响检测作为RL训练的辅助手段,通过引导探索提升训练性能而不改变行动者的决策过程,其主要改进在于提升训练效率。另外,所提出方法集成状态划分与基于噪点的主动探索,需评估这些增强模块的有效性。为此他们选择以下基线方法进行对比:

  • DDPG:无因果影响检测的原始DDPG算法,探索采用传统噪点方法;

  • CAI+DDPG:无状态划分的基于DDPG的原始CRL方法,探索采用提出的噪点主动方法;

  • PS-CDDPG:提出的含状态划分与噪点主动探索的因果影响检测DDPG。

香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

图3与图4展示不同框架的平均奖励与QoE。尽管需考虑使用主动探索的原始因果影响检测方法,但其结果因模型未收敛而被排除。图中显示本方法在训练过程中表现出最佳收敛性能与最高精度——仅需70%迭代次数即可达到超过1.45的最佳奖励。QoE结果受动作与当前状态(尤其是用户注意力)影响,因果影响检测探究此类因果信息并为探索过程提供指导。通过策略性选择对QoE有积极影响的动作,可使结果更符合奖励要求,从而降低结果随机性。

仿真表明奖励提升比QoE更显著,这是因为奖励包含多维度量而CAI评分有效保持探索中的动作公平性。若在CDDPG中推断所有状态变量,相比DDPG几乎无改进,这表明推断模型试图逼近与动作无关状态变量的分布而失效。因此基于CAI模型计算的CAI评分无法指导探索中的动作选择,噪点主动探索选择的动作会类似于噪点探索的随机动作,导致性能与DDPG相当。状态划分与探索方法的增强可保证推断模型训练精度并提升训练效率。虽然DDPG延长迭代后可能达到相同平均奖励,但训练成本更高且影响有效性。因此该结构化方法不仅提升整体性能,更凸显了在探索框架中整合因果分析的重要性。

基于ε-greedy的方法中,ε是控制探索比例的超参数,PS-CDDPG方法设为0.4。传统噪点算法通常不考虑该参数且常设为1。为比较不同探索方法的影响,评估所提方案、纯噪点探索及无探索的性能。图5(a)(b)显示:当传统噪点探索的ε值较小时,探索动作不足且改进有限,结果与无探索相似;当ε设为1(DDPG常用设置)时精度提升,但训练过程因添加更多噪点而不稳定。

香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

所提出方法在提升探索效率的同时避免噪点对训练稳定性的影响,因此在常用设置(ε=1)或相同设置(ε=0.4)下均展现更高速度与稳定性。噪点方差σ²η也影响探索过程。为揭示其对所提噪点主动探索方案的影响,固定σ²η=0.01并比较ε在0-1范围内的收敛结果,随后固定ε=0.4比较不同σ²η的性能。图5(c)-(f)进一步说明ε和σ²η对平均回报与QoE的影响:两参数共同决定探索过程中噪点比例。当ε和σ²η值较小时改进不显著,性能与无探索相似;但超参数设置过高时,过量噪点会影响推断模型精度。当CAI值不准确时,模型性能趋近于同参数设置的纯噪点探索。若σ²η过大,过度随机动作甚至会阻碍RL智能体学习,从而降低决策精度。

系统分析PS-CDDPG算法的收敛性能后,选择最优超参数设置并记录具有最高平均奖励的收敛模型以比较决策能力。为评估所提方法效率,对比以下多用户交互基线方案:

  • 原始方案:传输全部帧,无关键帧提取或注意力适配,带宽均匀分配;

  • 仅注意力方案:基于注意力模型仅传输用户FoV内角色,但带宽均匀分配;

  • 33%/50%/66%固定关键帧比率:对不同注意力水平固定关键帧比率,带宽与计算能力均匀分配;

  • 自适应关键帧:根据不同注意力水平自适应调整关键帧比率。

图6显示各方案在不同时段的平均奖励(基于500组测试数据)。显然自适应关键帧技术在满足(11f)(11g)约束条件下提供最高QoE性能,且平均奖励在整个周期保持稳定。图7展示总带宽bmax变化的影响:虽然所有方案在极高/低带宽下性能相当,但所提出方法在有限带宽场景中优势显著。模型训练后可自动适应不同交互场景并生成一致决策。通过传输前采用关键帧与注意力驱动方法,对带宽的依赖显著降低。

香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

图8展示不同计算能力F对用户体验的影响:原始方案与仅注意力方案无关键帧提取过程,故性能不受CPU频率影响。当F较低时,关键帧提取耗时较长导致高延迟或低关键帧比率;随着计算能力提升,关键帧的优势逐渐显现,本算法表现最佳。

图9显示带宽变化时不同用户的延迟变化:带宽增加使各用户平均延迟持续降低,表明模型能有效平衡延迟减少与奖励提升,适应不同带宽条件。图10展示不同用户的总延迟:虽然计算能力不足时关键帧提取效率低,但图中延迟差异不显著,表明模型能根据计算资源选择性调整关键帧比率,避免过度提取导致高延迟。

香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

图11比较不同基线的平均延迟、QoE、传输成功率和公平性:基于注意力机制的帧选择通过仅发送必要帧显著降低下载延迟;关键帧提取增加计算量但降低下载延迟,从而提高传输成功率。所提出策略有效融合注意力机制与关键帧传输优势,通过自适应关键帧比率提升QoE。另外,用户间带宽与CPU频率的高效分配减少了关键帧提取时间Te,使所提出方法将传输成功率提高至99%以上。单纯降低延迟不会直接提升QoE,同时需考虑过低关键帧比率的负面影响。

香港科大提出因果强化学习新框架,显著提升多用户VR交互体验

图12显示所提框架同时实现最高平均QoE与良好公平性,这归功于传输过程中的有效数据量管理与资源分配优化。原始方案与66%固定关键帧比率因所有用户QoE均匀偏低而呈现高公平性,而所述策略在保持用户间公平性能的同时实现更高QoE。

相关论文Causal-Aware Intelligent QoE Optimization for VR Interaction with Adaptive Keyframe Extraction

https://arxiv.org/pdf/2506.19890

总的来说,团队提出了创新框架以提升Sub-6GHz通信下多用户VR交互的QoE。通过融合注意力策略、关键帧提取和韦伯-费希纳定律,将QoE优化挑战构建为MIP问题。所提PS-CDDPG算法结合DDPG方法与因果影响检测,实现动态决策与高效模型训练。引入状态划分方法与噪点主动探索增强推断模型性能。

基于CMU运动捕捉数据库的实验表明,所述框架显著提升收敛性能(减少30%以上迭代次数),同时降低延迟、保证公平性并提升QoE,性能超越基线方法。研究同时表明现有因果影响检测算法在处理复杂环境时存在局限:仅使用DNN作为推断模型难以准确逼近下一状态变量的分布,影响推断模型精度与RL智能体训练。因此从状态中消除与动作无关变量的影响,并通过噪点限制主动探索区域以提升推断模型可靠性显得尤为重要。未来团队计划采用DNN以外的先进模型作为推断模型以进一步提升有效性。

本文链接https://news.nweon.com/135841
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯