Meta和卡内基梅隆大学演示HyperReel,用AI提升六自由度VR视频渲染
查看引用/信息源请点击:mixed-news
以每秒每秒6.5到29帧(具体取决于场景和模型大小)的速度实现百万像素分辨率的渲染
(映维网Nweon 2023年01月25日)体三维场景表示支持静态场景的照片级真实感视图合成,并形成了数种现有六自由度视频技术的基础。然而,相关的体三维渲染过程需要在质量、渲染速度和内存效率方面进行仔细的权衡。特别是,现有方法无法同时实现实时性能、小内存占用和高质量渲染。
为了解决所述问题,Meta和卡内基梅隆大学组成的团队演示基于AI的解决方案HyperReel。这一种新颖的六自由度视频表示。与之前的研究相比,HyperReel最大的优势在于内存和计算效率。例如,HyperReel能够在单枚英伟达RTX 3090显卡,以每秒每秒6.5到29帧(具体取决于场景和模型大小)的速度实现百万像素分辨率的渲染。
随着时间的推移,180度或360度3D视频已经不断成熟。但对于能够自由在场景中自由移动,并任意改变头部位置的六自由度沉浸式视频,我们离成熟依然十分遥远,因为渲染过程需要在质量、渲染速度和内存效率方面进行仔细的权衡。
当然,社区已经开始尝试研发适合大众消费的沉浸式视频,比如谷歌的Lightfields技术,甚至是索尼的Joshua Bell等体三维视频实验。
最近,研究领域越来越关注“视图合成”方法。这是可以在环境中呈现新视角的人工智能方法。神经辐射场(NeRFs)就是这种技术的一个例子。它们可以从视频或众多照片中学习对象或整个场景的3D表示。
尽管在视图合成方面取得了长足的进步,但迄今都没有一种方法能够提供同时快速渲染且内存需求低的高质量表示。例如,即使是使用当前的方法,合成一张百万像素的图像都需要将近一分钟的时间,而动态场景很快就需要TB的内存。另外,捕获反射和折射是一个主要挑战。
所以,来自卡耐基梅隆大学、Meta和马里兰大学的研究人员正在演示HyperReel,一种内存高效且能够以高分辨率实时渲染的方法。
为了解决上面提出的问题,团队依赖于一个神经网络。所述网络学习将光线作为输入,并输出一组几何图元和位移向量的颜色等参数。它们主要是预测场景中的几何图元(如平面或球体),并计算光线和几何图元之间的交点,而不是NeRF中常见的光线路径的数百个点。
另外,团队使用一种内存高效的方法来渲染具有高压缩比的动态场景,并在各个帧之间进行插值。
概括来说,HyperReel的两个核心组件是:
- (1)一个光线条件样本预测网络,它能够以高分辨率实现高保真、高帧率渲染;
- (2)一个紧凑且内存高效的动态体积表示。
在实验中,HyperReel的动态和静态场景质量均优于大多数其他方法。例如,Nvidia RTX 3090 GPU实现了每秒6.5到29帧(具体取决于场景和模型大小)。然而,每秒29帧的速度目前仅适用于Tiny模型,分辨率较低。
需要注意的是,与NeRFPlayer不同,HyperReel不适合流媒体。根据Meta的说法,这将是一个简单的解决方案,因为文件很小:NeRFPlayer每张图像需要大约17兆字节,谷歌的沉浸式光场视频每张图像需要8.87兆字节,而HyperReel只有1.2兆字节。
HyperReel同时不适用于实时虚拟现实应用,理想情况下,每秒至少72帧必须以立体方式呈现。但Meta指出,由于所述方法是在vanilla PyTorch中实现,所以在未来需要通过额外的技术努力来显著提高速度。
相关论文:HyperReel: High-Fidelity 6-DoF Video with Ray-Conditioned Sampling
更多关于HyperReel的信息可以访问Github页面或参阅上面的论文链接。