雨果巴拉:行业北极星Vision Pro过度设计不适合市场

苹果专利为AR、VR、电脑、手机等研究360度全景视频编码传输

查看引用/信息源请点击:映维网

带宽压缩,并用于处理2D视频数据

Vision Pro QQ群交流653565822

映维网 2021年11月10日)360度视频通常是指同时记录全方向视图的片段记录,并可以使用全向摄像头和包含多个摄像头的装置来进行捕获。日前,美国专利商标局公布了一份与所述主题相关的苹果专利专利申请“Sphere projected motion estimation/compensation and mode decision”。

这项发明主要涉及360度编码,更具体来说,主要是用于处理2D视频数据并帮助视频实现带宽压缩。

苹果解释道,尽管360度视频是360度,但视频数据本身通常由2D格式的图像数据表示。图像数据由排列在2D中的预定空间位置(x、y位置)的像素阵列表示。并且,尽管视场内不同深度的对象将在图像数据中表示,图像数据的大小不仅对应于对象的物理大小,而且对应于其与摄像头的距离,但表示对象的像素数据不随深度改变像素位置。

3D空间的2D表示可能导致不同位置的图像数据失真。例如,3D空间中的直线在2D图像数据中可能不会显示为直线。另外,当不同对象在360度视场内移动时,它们的大小和形状可能会发生扭曲。

这种失真可能导致视频编码出现问题。视频编码器通常通过利用图像数据中的空间和时间冗余来减少图像信号的带宽。然而,由于帧与帧之间可能产生的失真,对3D图像的2D表示进行操作的视频编码器并不总能检测到这种冗余。

所以,苹果希望提供一种能够更好地识别2D表示中的冗余的视频编码系统。

在“Sphere projected motion estimation/compensation and mode decision”这份发明中,苹果描述的技术基于从要编码的输入图片和作为预测候选的参考图片的球形域投影作出预测,从而预测性地编码视频数据。

在一个实施例中,可以生成输入图片和候选参考图片的球形投影。然后,可以搜索要编码的像素块的球面域表示与参考图片的球面域表示之间的匹配。在匹配时,可以确定像素块的球面域表示与球面域表示中参考图片的匹配部分之间的偏移。可以将球面域偏移转换为输入图片的源域表示中的运动矢量,并且可以参考参考图片的匹配部分的源域表示对像素块进行预测性编码。

图1是可采用发明实施例的系统100。系统100可包括经由网络130互连的至少两个终端110-120。第一终端110可以具有360度拍摄的摄像头系统112。第一终端110同时可以包括编码系统和传输系统(未示出),以传输360度的编码表示。第二终端120可以显示360度视频。

图1同时示出了适用于360度单向传输的组件。在特定应用中,可以适当地提供视频数据的双向交换,在这种情况下,第二终端120可以包括其自己的摄像头系统、视频编码器和发射机(未示出),并且第一终端100可以包括其自己的接收机和显示器(未示出)。如果需要360度交换。

在图1中,第二终端120是计算机显示器,但实际应用不限于此。本发明的实施例适用于笔记本电脑、平板电脑、智能手机、服务器、媒体播放器、VR头显、AR头显、全息图显示器和/或专用视频会议设备。网络130表示在终端110-120之间传送编码视频数据的任意数量的网络,包括例如有线和/或无线通信网络。。

图2是根据本发明实施例的编码系统200的功能框图。系统200可以包括摄像头系统210、图像处理系统220、视频编码器230、视频解码器240、参考图片存储器250、预测器260和一对球面变换单元270、280。摄像头系统210可以生成表示局部环境的图像数据,亦即所谓的“360度图像”。图像处理系统220可根据需要转换来自摄像头系统210的图像数据以适配视频编码器230的要求。视频编码器230通常通过利用图像数据中的空间和/或时间冗余来生成其输入图像数据的编码表示。视频编码器230可以输出输入数据的编码表示,其在发送和/或存储时消耗的带宽小于输入数据。

视频解码器240可反转由视频编码器230执行的编码操作,以从编码视频数据获得重构图像。通常,由视频编码器230应用的编码处理是有损处理,其使得重构图片在与原始图片相比时具有各种错误。视频解码器240可以重构指定为“参考图片”的所选编码图片的图片,并将解码的参考图片存储在参考图片存储250中。在没有传输错误的情况下,解码的参考图片将复制由解码器(未示出)获得的解码参考图片。

预测器260可以在编码新输入图片时为其选择预测参考。对于正在编码的输入图片的每一部分,预测器260可以选择编码模式并识别参考图片的一部分,所述参考图片可以用作正在编码的像素block的预测参考搜索。编码模式可以是帧内编码模式,在这种情况下,可以从正在编码的图片的先前编码(和解码)部分提取预测参考。或者,编码模式可以是帧间编码模式,在这种情况下,可以从另一个先前编码和解码的图片中提取预测参考。在一个实施例中,预测器260可以搜索对输入图片和已转换为球形投影表示的参考图片进行编码的图片的预测参考。球面变换单元270、280可以将输入图片和参考图片变换为球面投影表示。

当识别出适当的预测参考时,预测器260可以以视频编码器230接受的表示向视频编码器230提供预测数据。通常,存储在参考图片存储器中的参考图片将采用视频编码器接受的格式。

视频编码器230输出的编码视频数据在传输和/或存储时消耗的带宽应小于输入数据。编码系统200可以将编码视频数据输出到输出设备290,例如可以通过通信网络130(图1)传输编码视频数据的发射机(未示出)或者存储设备(也未示出)。

图3是图2中的球形变换单元270、280的执行示例性变换。在本实施例中,摄像头系统110(图2)可以执行360度旋转。捕获操作310并输出尺寸为M×N像素的等矩形图片320。图4则是球形变换单元270、280的执行示例性变换。在本实施例中,摄像头系统110(图2)可以执行360度旋转。捕获操作410并输出具有尺寸M×N像素的图片420,其中图像内容根据立方体映射排列。

球面变换单元270可以根据从立方体映射中的每个子图像导出的变换,将立方体映射图片420内的位置(x,y)处的像素数据沿球面投影330变换为位置(.θ,.phi.)。图像捕获的每个子图像对应于球形投影430的表面的预定角度区域。所以,正面412的图像数据可以投影到球面投影表面的预定部分,并且左、右、后、顶和底子图像的图像数据可以投影到球面投影表面的相应部分。

当应用变换时,立方体贴图图片420中的像素位置可以映射到球形投影430中的唯一位置。在所述区域中,球形投影430中的每个位置可以分配来自立方体映射图片420的相应位置的像素值。在其他位置,特别是朝向各个子图像的边缘,球形投影单元270可以将图像数据从立方体地图图片420中的多个源位置映射到球形投影430中的公共位置。在这种情况下,球形投影单元270可以从立方体地图图片420中的对应像素值的混合导出球形投影430中的位置的像素值。

相关专利Apple Patent | Sphere projected motion estimation/compensation and mode decision

名为“Sphere projected motion estimation/compensation and mode decision”的苹果专利最初在2021年3月提交,并在日前由美国专利商标局公布。

本文链接https://news.nweon.com/91415
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯