堪萨斯大学等机构提出毫米波多用户VR系统360度视频流资源分配方案

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

研究了用于360度视频流的多任务边缘用户通信-计算资源分配

映维网Nweon 2025年09月08日)在一项研究中,堪萨斯大学和新泽西理工学院团队在一个支持边缘计算的毫米波多用户虚拟现实系统中,研究了用于360度视频流的多任务边缘用户通信-计算资源分配。为了平衡其中产生的通信与计算权衡,他们构建了一个视频质量最大化问题,整合了相互依赖的多任务/多用户动作空间以及卡顿时间/质量变化约束。

研究人员为多任务码率自适应和计算分配构建了一个深度强化学习框架来解决目标问题。所提出解决方案不依赖于关于环境的先验知识,仅使用先前的视频流统计数据(例如吞吐量、解码时间和传输延迟)和内容信息,在在线观察流媒体性能的同时调整分配的视屏码率和计算分配。

另外,为了捕获环境中的任务相互依赖性,利用神经网络级联将所提出MTRC方法扩展为两个新颖的变体,分别称为R1C2和C1R2。研究人员使用真实的毫米波网络轨迹和360度视频数据集训练所有三种方法,以评估它们在期望体验质量、视口峰值信噪比、卡顿时间和质量变化方面的性能。结果表明,所提出方法优于最先进的码率自适应算法,其中C1R2表现最佳,实现了5.21~6.06 dB的PSNR增益、2.18~2.70倍的卡顿时间减少以及4.14~4.50 dB的质量变化减少。

堪萨斯大学等机构提出毫米波多用户VR系统360度视频流资源分配方案

可以预见,下一代无线网络(6G及以后)将促成计算密集型和带宽饥渴型应用的空前普及,例如(VR/AR。特别是,VR用例在推动社会进步、影响我们的日常生活和经济方面具有巨大潜力。目前,VR应用在教育、培训、医疗保健和游戏领域越来越受欢迎,预计2024年全球市场规模将达到326.4亿美元。

新兴的VR应用需要流式传输高保真度的360度视频内容,而这需要在网络边缘附近有充足的通信和计算资源。例如,MPEG建议360度VR至少需要12K的高质量空间分辨率和100帧/秒(FPS)的时间速率。另外,与传统2D视频流相比,360度视频流需要计算资源进行编码、解码、空间处理、拼接和渲染。例如,360度视频解码需要进行球面投影的时空变换。视口自适应流通过基于用户视场动态调整视频片段,进一步增加了计算复杂度。

而且,与2D视频相比,360度视频通常具有更高的分辨率和更大的文件大小,导致更高的带宽需求。所以,实用的VR架构面临着重大挑战,包括高效的资源管理(计算和通信)、分布式VR用户之间的协调以及提供有保障的QoE。在此背景下,必须满足几组不同的要求:(i) 网络施加的约束,决定了可用的通信链路速率;(ii) 计算施加的约束,决定了可用于处理360度视频的计算资源;(iii) 视频施加的约束,根据360度视频的时空特性而变化;(iv) 用户施加的约束,决定了用户在QoE方面的偏好。

为了应对这些挑战,如图1所示,堪萨斯大学和新泽西理工学院团队追求一种新颖的多任务边缘辅助视频质量最大化框架,用于毫米波网络中的多用户360度视频流。

在这里,360度视频可以由位于VR场馆内的边缘计算单元(ECU)进行解码和/或渲染。一方面,ECU拥有更多的计算资源,所以可以更快地处理(即解码/渲染)360度视频,从而为用户带来更低的计算延迟和更高的QoE。另一方面,在ECU进行解码和渲染为每个用户引入了更高的带宽需求,因为处理后的视频尺寸要大得多,这会导致更高的通信延迟,从而降低QoE。另外,由于时变的网络条件和360度视频变化的时空特性,VR系统是一个随机系统。

研究人员提出的多任务决策框架考虑了移动360度视频流应用对通信和计算需求的相互作用。利用最先进的深度强化学习方法和多任务神经网络级联,他们提出了三种DRL智能体架构,MTRC、C1R2和R1C2。所提出的解决方案解决了一个约束性多任务视频质量最大化问题,整合了用户性能要求(即卡顿时间和视口质量变化)。智能体通过考虑播放统计数据(即过去的吞吐量、解码时间、传输时间等)和内容信息,学习最优码率分配和计算分配。

团队的主要贡献是:

  • 约束性多任务视频质量最大化问题:引入了一种多用户边缘辅助VR流方案,其中ECU向VR用户提供360度视频。然后,构建了一个约束性多任务视频质量最大化问题,以找到相对于用户性能要求、网络条件和360度视频时空特性的最佳码率自适应和计算分配策略。

  • 多任务码率自适应与计算分配:他们开发了一种基于学习的多任务码率自适应和计算分配框架,其中引入了三种DRL智能体架构(即MTRC、R1C2和C1R2),以找到最优的码率自适应和计算分配策略,在满足用户性能要求的同时最大化流媒体视频质量。

  • 多用户360度视频流模拟器:使用360度视频率失真特性和用户头部移动导航信息的真实世界数据集以及毫米波网络轨迹,开发了一个360度 VR流模拟器。

    利用开发的模拟器,团队在各种系统条件下对我们提出的方法进行了广泛的数值分析。实验表明,所提出的解决方案学会了平衡系统中现有的权衡,并优于最先进的码率自适应算法。具体来说,所提出方法实现了5.21~6.06 dB的PSNR增益、2.18~2.70倍的卡顿时间减少和4.14~4.50 dB的质量变化减少。

在仿真中,他们使用了一个完整的UHD 360度视频数据集。所述数据集包含15个具有不同时空特性的视频。每个视频使用第三节中提出的多层360度模型表示,视频帧划分为8×8网格。提供七层的码率信息,每层为每个图块提供逐渐提高的沉浸保真度。另外,包括多个用户的头部移动数据,使得能够确定每个用户的视口位置并模拟多用户VR环境。同时,使用一个毫米波网络吞吐量轨迹数据集。他们利用数据集来训练上述所有智能体。每个回合中随机选择360度视频和网络轨迹。

堪萨斯大学等机构提出毫米波多用户VR系统360度视频流资源分配方案

图6展示了从300次测试回合中收集的卡顿时间、质量变化和PSNR之间的性能权衡。每个点表示用户经历的平均卡顿时间(或质量变化)和PSNR。垂直和水平条分别表示卡顿时间(或质量变化)和PSNR的标准差。理想情况是卡顿时间(或质量变化)小、PSNR高且波动小。

从结果中,可以观察到MTRC、R1C2和C1R2智能体提供了最佳的权衡,其中C1R2智能体优于所有其他基线方法。具体而言,与ECU-Pensieve和Headset-Pensieve相比,C1R2智能体实现了5.21~6.06 dB的PSNR增益、2.18~2.70倍的卡顿时间减少和4.14~4.50 dB的质量变化减少。另外,与ECU-COREL和Headset-COREL相比,C1R2智能体实现了1.41~1.65 dB的PSNR增益、3.67~6.39倍的卡顿时间减少和1.99~2.22 dB的质量变化减少。

性能提升主要归因于两个原因。首先,智能体可以动态选择在何处准备GoP(图像组)并将计算分配到ECU和头显。这相比Pensieve和COREL的变体更好地平衡了通信与计算的权衡。其次,Pensieve和COREL的变体没有关于准备过程的信息,因此无法捕捉处理时间(即解码和渲染时间)及其对QoE影响之间的关系。

另外,表II报告了播放特定视频的用户组的PSNR、卡顿时间和质量变化的平均值和标准差。可以看到C1R2为各种时空特性提供了最佳的PSNR和质量变化。这是因为码率自适应智能体可以访问计算分配动作,这意味着它知道计算是如何在ECU和VR设备之间分配的。因此,它根据可用的计算资源为用户分配码率。然而,R1C2虽然差异不显著,但为各种时空特性提供了最佳的卡顿时间。这表明R1C2中的计算分配智能体利用码率分配动作来分配计算,以最小化卡顿时间。

团队同时通过分析低、中、高吞吐量场景下三组用户感知到的QoE,展示了无线网络条件的影响。图7显示了这三组的统计特性(即累积分布函数(CDF)、平均值和标准差)。表III、IV和V中的结果展示了这三组用户的PSNR、卡顿时间和质量变化的平均值和标准差。

  • PSNR性能: 在表III中,观察到C1R2在所有网络条件下都提供了最佳结果。另外可以注意到,随着网络条件改善(即更高的吞吐量),PSNR会增加。此外,随着网络条件变化,C1R2提供的PSNR变化较小(低吞吐量用户为53.65 dB,而高吞吐量用户为53.70 dB)。

  • 卡顿时间性能: 在表IV中,可以看到卡顿时间随着网络条件的改善而改善。同时,R1C2为所有用户提供了最佳的卡顿时间。

  • 质量变化性能: 如表V所示,虽然C1R2提供了最佳的质量变化,但质量变化并不随网络条件的变化而发生显著变化。

流媒体应用的性能通过主观和客观测试进行评估。主观测试用于评估用户的感知体验,旨在捕获用户的实际流媒体体验,这取决于多种因素。例如,主观测试可以提供关于VR体验的沉浸感和真实感等方面的反馈。另外,主观测试可以揭示用户的偏好。然而,主观测试实施起来更具挑战性且成本更高,因为它们需要人类参与者,并且提供定性数据,由于其性质和参与者的多样性,这些数据更难量化、分析和复现。

而且,它们缺乏与流媒体系统设计中优化目标的直接且可量化分析的联系,因此无法惠及相关研究。为了克服进行主观测试的挑战,人们提出了客观指标,如均方误差(MSE)和PSNR,用于衡量视频应用的流媒体/编码算法的质量。MSE和PSNR被广泛使用有诸多原因:它们易于计算、具有明确的物理意义,并且在数学上便于优化。然而,MSE和PSNR无法捕获视觉质量的某些方面。

所以,研究人员中提出了其他指标,将视觉质量的其他方面和主观测量纳入考虑。结构相似性指数(SSIM)通过将图像退化视为结构信息、亮度和对比度的感知变化来整合图像的视觉质量。另外,Netflix通过引入视频多方法评估融合(VMAF)指标,将更多主观测量纳入考虑。VMAF采用机器学习模型将各种视频特征(例如,空间质量、时间质量和准确色彩再现的保持)组合成一个单一的质量分数。模型在主观视频质量数据集上训练,其中人类观看者对视频的感知质量进行了评分。因此,VMAF能够整合各种感知方面,同时提供一个客观指标来评估流媒体/编码方法的性能。

堪萨斯大学等机构提出毫米波多用户VR系统360度视频流资源分配方案

在此背景下,表VI报告了环境中一部分用户的SSIM、VMAF、MSE和PSNR的平均值和标准差。SSIM列显示不同基线方法之间的SSIM差异很小。这种微小差异表明所有方法在保持视频内容的结构完整性方面都是有效的,这表明尽管在VMAF、MSE和PSNR等整体质量指标上存在差异,但核心视觉结构在这些技术之间基本保持一致。

值得注意的是,C1R2在VMAF(95.60±1.96)和MSE(0.22±0.14)方面取得了最高分,表明其保持视频质量和最小化失真的能力。虽然MTRC和R1C2与C1R2方法相比略有不足,但它们始终优于Pensieve、COREL和BBA变体。例如,基于Pensieve的方法(如ECU-Pensieve和Headset-Pensieve)显示出较低的PSNR和VMAF值,以及显著较高的MSE,突显了它们在保持一致视频质量方面的局限性。相比之下,团队提出的方法,特别是C1R2,提供了强大而稳定的性能,证明了它们在提供高质量视频体验方面的有效性。这一比较凸显了所提出方法在优化视觉质量和抵抗失真方面的效率,使其更适合需要高精度和可靠性的应用。

相关论文Neural-Enhanced Rate Adaptation and Computation Distribution for Emerging mmWave Multi-User 3D Video Streaming Systems

https://arxiv.org/pdf/2505.13337

总的来说,团队研究了360度视频流平台VR环境中的多任务码率自适应和计算分配问题。他们提出了一种基于学习的多任务智能体,其中智能体决定分配给每个用户的视频码率以及计算分配。总体目标是在视频请求、可用计算资源、通信带宽和用户要求方面的动态和时变条件下最大化用户的视频质量。

利用最先进的DRL算法,研究人员开发了MTRC,它利用播放统计数据和视频信息来做出联合码率自适应和计算分配决策。另外,利用神经网络级联扩展了MTRC,并引入了R1C2和C1R2方法。R1C2和C1R2通过考虑码率自适应动作和计算分配动作之间的相互依赖性,进一步提高了VR用户的QoE。通过使用真实网络轨迹和360度视频信息的数值模拟,实验表明所提出的方法学会了平衡系统中现有的权衡,并优于最先进的码率自适应算法。具体而言,C1R2智能体表现出最佳性能,实现了5.21~6.06 dB的PSNR增益、2.18~2.70倍的卡顿时间减少和4.14~4.50 dB的质量变化减少。

本文链接https://news.nweon.com/132332
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯