浅谈影响VR视频观影质量的因素:相机、软件、编码和头显
文章相关引用及参考:pixvana
本文来自于Pixvana的Forest Key
(映维网 2018年07月30日)Pixvana致力于探索轻松创作和分享最高质量沉浸式VR视频的方法。影响VR视频质量的因素有很多,但我们可以将其大致分类成:
- 相机:相机光学元件和传感器是如何VR视频质量
- 软件:用于拼接和母带处理的软件设置是如何影响VR视频的质量
- 编码:视频编解码器和打包设置是如何影响VR视频质量
- 头显:头显处理器,显示器和光学镜头是如何渲染VR视频的最终体验
Pixvana将文章内容分成了两部分,下面是映维网整理的第一部分:
1. 相机光学元件和传感器,以及它们对VR视频质量的影响
用于捕捉VR视频的相机系统将对VR视频质量产生第一次重大影响。多年来,业界已经对数码相机传感器和镜头进行了非常详细的研究,像DPReview这样的网站开发出了标准化的测试图表和拍摄条件,可以帮助我们进行并排比较。当比较相机和镜头时,这种类型的受控拍摄并排图像比较十分有必要。
除了传统的相机分辨率/质量测试外,球形虚拟现实视频摄影还有两个特别重要的因素:超广角镜头的效果,以及360度相机装置中所有相机所累积实现的绝对图像分辨率
2. 广角镜头是如何影响VR视频的质量
VR相机至少由两个镜头/传感器组成,比如理光Theta或GoPro Fusion等口袋型VR相机,而Google Jump这样的相机装置则包含多达17+的镜头/传感器。一般来说,专业级VR相机由4-8个镜头和传感器组成,例比如说GoPro Omni或Insta360 Pro。每一个镜头都需要相对较宽的视场,例如8-16mm的焦距。这意味着相机及其镜头和传感器的放置将对场景的拍摄方式产生巨大影响。请比较下面两幅图像:
在图像A中,分辨率图表以镜头/传感器中心构图,产生大约500×500像素的绝对分辨率,这样的质量非常高。在图像B中,以镜头/传感器的边缘构图相同的区域,这产生了空间失真与颜色失真,从而降低了有效图像质量。不考虑其他问题,这个初始镜头/传感器构图将对这一部分视频场景的清晰度和分辨率产生巨大影响。如果使用较低质量的镜头或传感器(例如GoPro),这种光学降级将更加明显。
在左侧,亚伦·罗兹(Aaron Rhode)正在思考相机的摆向,确保关键场景区域位于其中一个相机镜头/传感器的中心。在右侧,他可以忽视镜头的摆向,因为相机装置包含了16个镜头/传感器,可以提供更多的冗余/重叠图像覆盖。
3. 绝对传感器图像质量
VR相机只是传统相机排成阵列,所以其产生的原始图像与传统相机没有什么不同。因此,我们可以像传统相机那样测量阵列中每个传感器的尺寸/质量。请参照以下两幅图像,我们可以从两个拍摄相同场景的相机中比较整体图像分辨率/质量。
在图像A中,分辨率图表的测量值约为250×250像素,而在更高质量的图像B裁剪中,我们得到了约450×450像素,这等同于图像B中的累积像素数量增加了300%。相机B的全帧尺寸传感器简单地解析了更多分辨率。结合质量更高的镜头与更大的传感器,我们可以捕捉更多的色彩和对比度细节,从而区分场景中不同的光线强度和细节。大多数相机传感器的比较都包含MTF(调制传递函数),关于这一点你可以参阅摄影师肯·洛克威尔(Ken Rockwell)的博客。这两个相机系统捕捉的VR视频将产生截然不同的头显内视频质量。
在左边,亚伦正通过GoPros捕获6个视频流,每个视频流都是4K。在右侧,定制的相机装置包含了5台RED专业影院级摄像机,每台摄像机捕捉6K视频。不仅是更高质量视频在空间中具有更高分辨率,而且像素质量的差距更大,而这通常可以通过动态范围和像素到角度分辨率进行测量。RED摄影机可以捕捉高动态范围和高清晰度的精湛图像,高达12K的360度分辨率为后处理和母带处理提供了极大的自由度。
以下是专业影院级摄像机阵列在拍摄12K分辨率VR内容时可以生成的丰富影像。请注意图像中的细节,特别是在富有挑战性的室内低光环境。如果采用其他相机系统,视频将会出现模糊和低分辨率的影像。
4. 高质量VR视频的软件后期制作和母带处理考量
许多VR视频后期制作选择都会影响VR视频的整体图像质量。与传统视频一样,你显然希望以最高质量(最低压缩)设置处理所有视频,从而将压缩保留至分发前的最后一步。但360度/VR视频后期制作存在数个特定于这项媒介的因素:
- 针对所有编辑和特效工作的拼接和母带处理分辨率(4K,8K等)
- 单视场或立体视场(模拟3D深度),以及它们是如何影响传送至头显的图像分辨率
- 用于存储VR视频的投影贴图(例如:equirectangular,cube maps等),以及它们是如何改变潜在的图像质量
4.1. 拼接与母带处理分辨率
将来自相机系统的各个视频流拼接在一起后,生成的视频往往是所有后续制作后的“原始/母带”视频。下面我们来看看拼接和选择一个目标母版分辨率将如何影响图像质量。
如果VR相机由6个镜头组成,每个镜头录制4K视频流,则拼接软件将在每个视频流的帧边缘寻找重叠的图像区域,并利用它们对齐和拼合为成一张“拼接”图像。
重叠区域通常以红色突出显示
例如,这6个视频= 6个相机×约4000(水平)×约2000(垂直)像素。在拼接软件分析之前,这为我们带来了48000000的每帧分辨率。根据重叠图像区域的大小,一旦从最终拼接图像中移除重叠图像区域,实际产生的传感器像素削减将介于30%-50%。具体计算取决于拼接的视频数量和每个视频的分辨率。在这种特定的配置中,6个视频产生8K分辨率的拼接视频,而它将成为所有后期制作的“母带”相机片段。
在上图中,我们可以比较原始相机文件(图像A)和8K和4K拼合文件中的像素。所有像素都相对均匀,原始相机视频(图像A)和8K拼合视频(图像B)之间显示出更加相似的绝对分辨率。8K图像明显保留了原始视频的图像细节。相比之下,图像C说明了当只使用4K拼合分辨率时,像素分辨率出现了显著降低,场景细节和分辨率都降低了200%。
请记住,8K视频的空间分辨率比单个4K视频高4倍,因为它的宽度和长度都是2倍,所以分辨率提高4倍,亦即每帧约为32000000像素。这为计算机,传输,存储,渲染等增加了成本,通常至少是原来所需时间的4倍,有时甚至更多。出于这种考虑,许多高端电视和电影制作仍然以2K分辨率,而不是全4K分辨率进行后期制作。8K分辨率比2K多出了16倍的数据。重要的是要平衡高质量和制作成本,而且你需要记住,只是单纯满足拼接软件所需的输出分辨率不一定是正确的决定。
在上面的示例中,我们通过拼接处理将原始视频细节上采样到人为更高的分辨率。这种“内插提升”不会产生更高质量的图像。相反,它只会生成更多像素,而你需要在后期制作的每个步骤中付出代价。对于这种特定的相机配置,我们可以看到4K分辨率的目标输出近似正确,因为它保留了最初原始视频中存在的一致像素分辨率。需要注意的是,今天没有任何相机系统可以产生32K分辨率的拼合图像(当然,你可以要求拼接软件应用程序生成这个目标分辨率)。
5. 单视场或立体视场质量考量
单视场或立体视场(在播放期间为左眼和右眼提供单独的视频来模拟3D深度)将极大地影响VR视频的质量。除了“3D立体感”之外的主观性和艺术性优点(不是每个人或每个场景都能受益于立体感),立体VR视频中存在非常真实的技术问题。同时表示左眼图像和右眼图像将令整个场景的垂直或水平分辨率降低50%。
请注意,视频的单视场版本具有100%的水平分辨率和垂直分辨率。左/右视频将每只眼睛的水平分辨率降低50%,顶部/底部同样将垂直分辨率降低50%。一般来说,立体视场能够增加场景的深度感,但会降低整体分辨率和清晰度。
6. 球形视频的投影
对于后期制作,我们最后一个关心的地方是用于表示场景球面信息的投影方法。我们在以前已经探讨过,如果没有变换,或者没有将球体几何图形映射到平面上的“投影”,则不可能表示平面内的球体。
现在我们来回顾一下基础知识,最重要的是投影贴图是如何保留或降低VR视频或视频区域的有效图像分辨率。最常见的VR视频投影是等角立方体贴图和立方体贴图投影,而大多数后期制作和3D图形包都期望/需要其中一种方法。
下面是关于菱形平面投影的快速介绍,而我们将用它来作为例子:
为了说明适当球形贴图的好处,我们来对比相机视频中图像的原始分辨率,以及等角立方体格式和菱形平面格式的结果图像分辨率。Pixvana投入了大量时间来研究能够平衡质量和压缩效率的优秀投影方法,而菱形投影是他们目前提出的最佳解决方案。
等角立方体投影贴图通常会扩大图像上下三分之一的像素分辨率(这非常浪费)。这意味着VR视频球体中低于和高于水平线的部分都属于过度表示。它们的空间分辨率比原始视频更多,而且超过向VR头显用户投影时的实际所需。
当采用不同的投影时,图像的某些区域将出现不同的畸变,因为没有一种投影能够完美地表示平面上球体的像素密度/区域。等角立方体投影贴图在图像的上三分之一和下三分之一处特别糟糕。Pixvana开发了菱形平面投影技术,它在整个场景中更加平衡,但在后期制作管道中通常不可用。
7. 总结
在这篇文章中,我们讨论了由相机光学和分辨率,以及用于母带处理VR视频的后期制作软件过程所产生的VR视频质量问题。