雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

日本团队分享基于预训练VQGAN的高效全景图像合成方法2S-ODIS

查看引用/信息源请点击:映维网Nweon

不仅可以生成高质量的全向图像,同时大大缩短了训练时间

映维网Nweon 2025年02月19日)全向图像越来越多地应用于虚拟现实和社交网络等领域。然而,与普通视场图像相比,它们的可用性相对有限,因为需要专门的摄像头来拍摄全向图像。所以,业界已经提出了数种基于生成对抗网络(GAN)的方法来合成全向图像,但由于不稳定性和/或大量的时间消耗,它们在模型的训练中表现出困难。

针对相关问题,日本上智大学团队提出了一种新的全向图像合成方法2S-ODIS ,它不仅可以生成高质量的全向图像,同时大大缩短了训练时间。这是通过使用在大规模NFoV图像数据库(如ImageNet)预训练的Vector Quantized GAN模型而不进行微调来实现。

由于预训练模型不能表示等矩形投影(ERP)中全向图像的畸变,所以不能直接应用于ERP中的全向图像合成。

针对这个问题,研究人员采用两阶段结构,首先在ERP中创建全局粗略图像,然后通过整合多幅更高分辨率的局部NFoV图像对图像进行细化,以补偿ERP中的畸变,这两种结构都是基于预训练的VQGAN模型。所以,所提出的2S-ODIS方法将OmniDreamer中的训练时间从14天减少到更高图像质量下的4天。

全向图像是由全向摄像头拍摄,亦即360度摄像头,它可以覆盖整个球体,并通常用等矩形投影(ERP)表示。然而,与标准摄像头拍摄的NFoV图像相比,全向图像的可用性依然有限,因为需要专门的摄像头来拍摄全向图像。

业界近来提出了数种从NFoV图像,文本条件,或结合两者来合成全向图像的方法。相关方法基于生成对抗网络(GAN),VQGAN或使用稳定扩散的自回归out - painting。然而,基于GAN的方法在训练中面临着不稳定性的挑战,而基于VQGAN的方法和具有稳定扩散的自回归方法分别需要较长的训练时间和推理时间。

在一项研究中,日本上智大学团队提出了一种基于大规模NFoV图像数据集训练的预训练VQGAN,从NFoV图像合成全向图像的新方法2S-ODIS。

团队提出的方法将预训练好的VQGAN编码器和解码器在不进行微调的情况下进行应用,通过对多幅NFoV图像进行几何畸变校正将其整合成一幅全向图像。由于不需要对VQGAN进行训练,所以通过去掉VQGAN的微调步骤缩短了模型的训练时间。

另外,所述方法采用了两阶段结构。在第一阶段,使用预训练的VQGAN编码器和解码器在ERP中创建全局粗略图像,而不进行几何畸变校正。所以,第一阶段生成的全向图像包含扭曲。例如,NFoV图像在极点处的直线在第一阶段无法再现。

在第二阶段,通过使用预训练的VQGAN编码器和解码器生成的多个NFoV图像合成一个全向图像,以对全局粗略图像进行细化。除了以更高的分辨率表示局部细节纹理外,第二阶段同时补偿了第一阶段的几何扭曲。通过采用两阶段结构,模型可以在不产生几何畸变的情况下产生全局可信、局部详细的全向图像。

相关论文2S-ODIS: Two-Stage Omni-Directional Image Synthesis by Geometric Distortion Correction

总的来说,团队提出了一种新的全向图像合成方法。使用预训练好的VQGAN编码器和解码器,无需进行微调,大大缩短了模型的训练时间。为了控制全向图像的畸变,他们采用了两阶段结构。第一阶段,在ERP中生成全向图像,但没有进行几何畸变校正,无法再现球面极点处的直线。

所以在第二阶段,通过基于几何畸变校正的多幅NFoV图像合成一幅全向图像进行校正。为了实现快速推理,采用MaskGIT中的采样策略对VQGAN码进行同步预测。结果表明,所述方法能够以较低的训练和推理计算成本实现高质量的全向图像合成。

本文链接https://news.nweon.com/127829
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯