清华与帝国理工推出联邦多视图合成框架,优化VR内容交付
有效地为元宇宙中的无线内容交付提供计算、存储和通信资源
(映维网Nweon 2025年03月19日)元宇宙有望实现全新的沉浸式娱乐、教育和商业应用。然而,无线网络的虚拟现实传输属于数据和计算密集型,所以引入满足严格服务质量要求的新颖解决方案至关重要。
随着边缘智能和深度学习的最新进展,清华大学和帝国理工学院团队开发了一种全新的多视图合成框架,可以有效地为元宇宙中的无线内容交付提供计算、存储和通信资源。
研究人员提出了一个使用单视图图像集合的3D感知生成模型。单视图图像传输给具有重叠视场的一组用户,与传输Tile或整个3D模型相比,这避免了大量内容传输。
然后,他们提出了一种联邦学习方法来保证有效的学习过程。利用较大的latent特征空间对垂直和水平数据样本进行表征可以提高训练性能,而在联邦学习过程中,通过减少传输参数的数量,可以实现低延迟通信。
团队同时提出了一个联邦迁移学习框架,以实现对不同目标领域的快速适应。仿真结果证明了所提出的联邦多视图生成框架在VR内容交付中的有效性。
虚拟现实应用以其革命性的虚拟性和沉浸感吸引了大量关注,并为各个领域提供了新的机会。设备的广泛部署要求下一代无线网络提供无处不在的高质量无线服务。
与传统的无线服务不同,无线VR系统需要以超低延迟提供巨大的高分辨率视场资源。另外,为了避免晕动症,应该为所有不同视点的用户提供相应的内容。每用户每秒数千兆比特和每秒1tb的聚合速度有望实现沉浸式用户体验。
然而,现有的无线技术往往难以满足虚拟现实应用的服务质量(QoS)要求。在传统的视频传输方案中,视频分割成Tile,以便于无线传输中灵活的资源分配,提高带宽效率。考虑到VR用户的视场有限,没有必要漫游整个360度视频帧。
在基于Tile的VR内容传输中,Tile被进一步划分为矩形块。所述策略基于用户注意力和视口实现多种服务质量。请求相同Tile的用户在每个多播流中共享一个导频。然而,性能受到视口预测精度的限制,传输延迟受到计算复杂度的影响。
同时,由于不同视场用户的复合表示,相同的VR内容的传递会有所不同。不同的Tile依然需要传输,特别是当用户在数字空间中移动时。例如,在虚拟现实场景中,两个具有虚拟形象的用户位于虚拟房间内,其中一个物体位于中心。尽管两个用户在虚拟房间中观察相同的物体,但传递给每个用户的内容并不相同,因为他们是从不同的角度感知物体。对同一虚拟现实内容请求的异构性是虚拟现实内容与传统内容的主要区别,这对具有不同视场的多用户带宽资源提出了挑战。
为了提供更丰富、更吸引人、更身临其境的体验,提高无线VR网络的性能已经得到了大量的研究关注。现有的大多数VR内容交付方法都是探索特定无线网络下的优化算法。尽管高吞吐量可以支持VR应用,但传输VR内容需要大量的通信成本。我们可以借用语义通信的思想来减少所需的数据量,并将VR应用扩展到更大规模的场景和各种设备。
先前有研究人员提出了一种面向扩展现实的语义通信框架,采用通用的变长语义信道编码方法来调整编码过程。其中,语义上不重要的信息高度压缩或丢弃。尽管数据压缩可以缓解特定VR内容的高带宽需求,但为大规模连接提供VR服务依然是一个具有挑战性的问题。所以,利用VR用户从不同角度要求不同内容的独特特征,这具有节约传播资源的巨大潜力。
神经辐射场NeRF作为一种新兴的框架,通过优化底层的连续体场景函数,在复杂场景的新视图合成方面显示出强大的能力。在深度学习的帮助下,可以为请求不同视图的用户多播相同的VR内容。
为了进一步提高通信效率,考虑通过立体成像实现的VR场景。这种技术通过向每只眼睛提供略有不同的图像来创造深度和三维感,从而模仿人类在现实中如何感知世界。尽管生成式模型在VR通信中具有潜力,但它们的实际应用面临着重大挑战。
训练模型需要大量的数据。尽管生成式模型可以节省VR场景中的通信资源,但将大量未经处理的数据传输到中央处理器进行训练可能会导致相当大的拥堵和通信延迟。所以,集中式学习可能不适合时间紧迫的应用程序,因为数据太大或集中化成本太高。
另外,集中执行整个训练过程可能会给中央处理器带来巨大的计算开销,从而导致严重的延迟。同时,来自个人用户的训练数据可能包含敏感信息,如健康和财务数据。重视隐私的用户可能不愿意与他人分享数据。
所述挑战促使了联邦学习的出现。与集中式方法不同,联邦学习涉及在分散设备通过聚合本地计算的更新而不是原始数据来训练机器学习模型,从而保护隐私并减少数据传输开销。然而,频繁的交换模型参数,等待聚合到下一轮通信,导致通信效率低,时延大。另外,局部数据集的异质性可能会给全局模型带来偏差,减慢收敛速度。同时,VR场景中的特定任务可能缺乏足够的训练数据,从而导致性能下降甚至模型崩溃。
对于VR内容,数据大小需要足够大。联邦迁移学习结合了联邦学习和迁移学习的原则,允许在分散的数据源训练模型,同时利用已有模型的知识,确保数据隐私并提高本地任务的性能。
综上所述,清华大学和帝国理工学院团队提出了一种用于无线VR网络的3D感知生成模型,以有效地传递VR内容。
与基于Tile的内容分发方案相比,模型可以将VR内容多播给一组用户,并根据用户的视口生成多视图一致的图像。请注意,所提出的模型综合了基于单一视图输入的新视图,这可能不会产生与对象的实际观察视图精确匹配的图像。
然而,这种方法减少了带宽成本和处理面向多个用户的可重用内容的延迟。对于需要超高可靠性的VR场景以防止晕动症,以及资源受限的VR应用,它尤其有益。
考虑到日益增长的隐私问题,用户可能不愿意分享他们的观看数据用于模型训练,内容提供商不允许未经许可分享用户的浏览历史。另外,在训练期间交换原始数据会带来很大的通信开销。为了应对相关挑战并利用边缘计算能力,团队提出了一种联邦学习方案,利用本地数据集特征,并在分散的设备使用预训练的模型。
总的来说,团队提出了一种支持虚拟现实的联邦多视图生成方法。网络中的3D感知生成模型仅使用单视图图像集合来合成多视图一致图像。所述方法通过对虚拟现实内容进行组播,为视场范围内的虚拟现实用户提供服务,从而提高了带宽效率和海量连接的延迟性能。
如果只给出单一视图输入,合成的新视图内容与实际对象并不完全相同。然而,量化与实际内容的偏差以及基于单视图输入的多视图一致性和准确性之间的权衡的明确方法依然是一个开放的挑战。所提出的方法减少了通信开销,减少了对视口预测精度的依赖。
利用数据集的特征空间和ID空间分别作为水平和垂直数据集。每个客户端仅根据其拥有的数据集更新其模型的一部分。这种方法减少了联邦学习过程中的延迟,并使更多的用户加入到训练中。
为了向数据集不足的用户提供VR内容交付,团队提出了一种新的联邦迁移学习损失函数。所提出的联合多视图综合方案能够同时服务于多个VR用户。