欧亚研究团队推出OSLO-IC技术实现360度图像高效压缩

查看引用/信息源请点击:映维网Nweon

以更小的架构提供了显著的速率节省,并且可以应用于任何球面卷积应用

映维网Nweon 2025年06月27日)开发有效的360度图像压缩技术对于虚拟现实等技术至关重要。在一项研究中,德国埃尔朗根-纽伦堡大学,瑞士洛桑联邦理工学院和法国国家信息与自动化研究所团队通过提出球面关注模块、残差块和空间自回归上下文模型,推进了OSLO技术。

相关改进在WS-PSNR BD率方面实现了23.1%的比特率降低。另外,他们引入了一个用于上采样的球面转置卷积算子,而它将可训练参数减少四倍,同时保持了类似的压缩性能。因此,总的来说,所提出的方法以更小的架构提供了显著的速率节省,并且可以应用于任何球面卷积应用。

虚拟现实等技术的不断进步带来了越来越多的全向内容。特别是对于像VR头显这样面向消费者的设备,它们需要高分辨率的图像以在每个视角实现适合的视觉印象。因此,开发高效的全向图像压缩技术是存储和传输高分辨率全向图像的必要条件。

在二维图像和视频压缩领域,基于自编码器的端到端学习方法带来了十分好的压缩性能。然而,因为存在各种表示,卷积神经网络直接扩展到全向图像并不简单。一种方法是将球体映射到一个或多个平面作为预处理步骤。最流行的是等矩形投影(ERP)。

由于这种映射不可避免地引入了几何扭曲,像素间相关性变得依赖于位置。为了处理ERP的畸变,研究人员引入了一个纬度相关的损失函数和一个额外的纬度自适应尺度网络。基于同样的原因,业界研究了使用多运动模型进行视频压缩。相比之下,有人直接在基于HEALPix采样的球面表示上定义卷积操作。这个框架称为全向图像的球面学习(on -the- sphere Learning for Omnidirectional Images/OSLO)。

与在ERP图像训练等效的2D模型相比,OSLO增强了卷积神经网络在全向图像压缩和去噪方面的性能。然而,2D图像压缩模型的最新进展,包括注意力模块、作为非线性的残差块和球面学习图像压缩的空间上下文模型,尚未集成到OSLO框架中。另外,OSLO只支持周期性像素变换作为解池操作,与其他众所周知的解池方法相比,这导致参数数量增加了四倍。

定义计算效率高的球面操作具有挑战性,因为HEALPix图像存储在矢量中,仅包含有关每个像素的直接邻域的信息。在研究中,德国埃尔朗根-纽伦堡大学,瑞士洛桑联邦理工学院和法国国家信息与自动化研究所团队在OSLO的基础上提出了一个更新的球形端到端学习图像压缩模型,它包含注意模块,残差块,以及空间自回归上下文模型。

相关改进在WS-PSNR BD率方面实现了23.1%的比特率降低。另外,他们引入了一个用于上采样的球面转置卷积算子,而它将可训练参数减少四倍,同时保持了类似的压缩性能。因此,总的来说,所提出的方法以更小的架构提供了显著的速率节省,并且可以应用于任何球面卷积应用。

为了评估模型,他们使用来自SUN360数据集的2170张分辨率为9104 × 4552的ERP图像,并将它们分成1737张训练图像、10张验证图像和423张测试图像,研究人员将ERP图像重新采样到HEALPix,分辨率为𝑁side = 2 10。在训练过程中,将大小为256 × 256的随机patch以10个批次输入模型。在前800个epoch中,以10−4的固定学习率训练了1000个epoch的模型,并根据后200个epoch的验证损失来降低学习率。

作为重建质量的定量度量,使用加权球均匀峰值信噪比(WS-PSNR)。相对于PSNR, WS-PSNR更重视大面积像素,因此与主观质量的相关性更强。球形PSNR (S-PSNR)同样得到了类似的结果。

为了评估压缩性能,图5中绘制了每个模型的率失真(RD)曲线。从红色曲线中看到,模型在BD率方面节省了23.1%的比特率。然而,可训练参数的数量相当高,这主要是由于像素变换操作造成。使用转置卷积代替(红色点线),模型大小减少了3倍以上,同时在BD率方面提供几乎相同的23.0%的节省率。

从绿色曲线中看到,球形注意力模块和剩余块将比特率降低了近10%。与完整模型类似,转置卷积(绿色虚线)将模型大小减少了2.6倍,而只导致BD率的轻微下降。对原始的球先验模型(蓝色虚线)使用转置卷积,模型大小减少了约4.1倍,所需的比特数增加了1.3%。尽管转置卷积使比特率提高了一小部分,但与使用像素变换的等效模型相比,所有使用球面转置卷积的模型在更高比特率下都能获得更好的重建质量。

相关论文OSLO-IC: On-the-Sphere Learned Omnidirectional Image Compression with Attention Modules and Spatial Context

https://arxiv.org/pdf/2503.13119

总的来说,团队通过提出球面关注模块、残差块和空间自回归上下文模型,推进了OSLO技术。相关改进在WS-PSNR BD率方面实现了23.1%的比特率降低。另外,他们引入了一个用于上采样的球面转置卷积算子,而它将可训练参数减少四倍,同时保持了类似的压缩性能。展望在未来,研究人员的目标是通过计算效率高的通道上下文模型以及不同的模型架构来扩展OSLO框架。

本文链接https://news.nweon.com/130652
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯