研究员为360°图像传输提出减少无线传输通信开销的神经网络框架
减少无线传输的通信开销
(映维网Nweon 2024年12月03日)对于VR,360度图像在实现沉浸式体验和提供全景视图方面发挥着关键作用。然而,360度图像产生的海量数据对网络存储和带宽提出了挑战。针对这个问题,澳大利亚新南威尔士大学团队提出了一种基于激活图的矢量量化(AM-VQ)框架,以减少无线传输的通信开销。
所提出的AM-VQ方案使用深度神经网络和向量量化来提取和压缩语义特征。其中,AM-VQ框架利用激活图自适应量化语义特征,减少了量化操作带来的数据失真。为了进一步提高360度图像的重建质量,团队结合了生成式对抗网络鉴别器的对抗训练。
数值结果表明,所提出的AM-VQ方案比现有基于深度学习的编码方案和传统的编码方案具有更好的性能。
360度图像是一种新兴的媒体格式,可以提供不同场景的全景视图。这种格式允许用户从不同的角度探索环境,从而实现全面的视觉体验。
在VR应用中,360度图像和视频是主要的内容来源。与传统的平面图像相比,360度图像包含的内容量要大得多,而这在网络存储和带宽方面带来了一系列挑战。由于它们的大小和复杂性,相关图像需要更高效的存储和网络带宽解决方案。
为了应对挑战,研究人员探索了更有效的图像压缩技术和传输解决方案。360度图像的传统压缩技术通常使用众所周知的编码标准,如JPEG、HEVC和VP9。相关方法的主要目标是通过利用冗余来减小图像数据的文件大小,同时保持视觉质量。
由于360度图像的独特特性,将传统的压缩方法应用于360度图像可能具有挑战性。存储和传输大量数据在存储和带宽方面提出了重大挑战。另外,360度图像中的不规则几何形状和畸变需要专门的技术来有效地管理数据。
基于深度学习的压缩方法使用深度神经网络作为核心结构,并在解决与图像压缩相关的挑战方面显示出巨大的潜力。它们有效地处理图像的空间信息,并通过分层方法捕获局部和全局特征,实现多尺度特征提取。注意机制和生成模型的集成,如变分自编码器(VAEs)和生成对抗网络,进一步提高了压缩效率。
另外,迁移学习和预训练策略的应用显示出前景,特别是在360度视觉的有限注释数据场景中,它们促进了传统图像域知识的适应,加速了模型收敛,从而提高了压缩性能。在高压缩比下,传统技术和深度学习方法在图像压缩方面都有局限性。对于高压缩率,传统的方法通常会导致图像质量的显著下降,特别是在保留细节和纹理方面。同时,相关技术可能不足以解决全景图像固有的空间扭曲。
深度学习方法面临着在极高压缩比下保持重建质量的挑战。在模型泛化能力有限或缺乏综合训练数据的情况下,挑战变得更加明显。
在研究中,澳大利亚新南威尔士大学提出了一种基于激活图的矢量量化(AM-VQ)框架,并旨在以最小的传输开销实现高效的360度图像语义通信。
AM-VQ框架专门提取和压缩特征,以尽量减少传输的比特数。具体地说,采用深度神经网络提取多尺度图像特征,随后使用矢量量化(VQ)方法对其进行量化,从而大大降低了360度图像的传输成本。
另外,团队提出的AM-VQ方案引入了一种自适应量化语义特征的激活图,从而减少了量化引起的数据失真。
相关论文:Activation Map-based Vector Quantization for 360-degree Image Semantic Communication
总的来说,AM-VQ框架结合深度神经网络和VQ提取和压缩语义特征,然后使用激活图自适应量化语义特征。利用AM-VQ技术将一部分语义特征向量压缩成一组相应的语义特征索引,这减少了传输信道消耗,同时保证了360度图像的传输质量。
另外,对抗训练和PatchGAN鉴别器用来提高接收图像的质量。数值结果表明,在360度传输任务中,与Deep编解码方案和传统编解码方案相比,团队提出的AM-VQ方案具有更好的性能。