Meta研究用单个RGB-D传感器生成穿衣人体的高保真渲染图像
对象或动态场景的新视图合成
(映维网Nweon 2022年09月27日)刚性对象或动态场景的新视图合成一直是非常活跃的研究课题,并已经在各种任务中取得了令人印象深刻的结果。然而,合成人体运动的新视图需要处理具有各种变形的动态场景的方法,而这是一项具有挑战性的任务,特别是在具有精细细节的区域,如面部或衣服。另外,之前的研究通常依赖于大量摄像头、昂贵的捕获设置或每帧数分钟的推断时间。
为了应对上述挑战,Meta和芬兰奥卢大学的研究人员提出了全新的Human View Synthesis Network (HVS-Net) ,通过利用紧凑而有效的公式,以及商品RGB-D传感器来生成穿衣人体的高保真渲染图像。
团队提出的挑战性要求是:
- 与每个受试者训练的模型相比,测试时对新受试者的泛化
- 处理人类在不可见姿态下的动态行为的能力,而不是使用训练时看到的相同姿态对人类进行动画化
- 处理遮挡(来自对象或自遮挡)的能力
- 捕捉面部表情
- 在给定单流稀疏RGB-D输入的实时设置中生成高保真图像(类似于低成本的现成深度摄像头)。

图1
HVS-Net将人的上身和目标camera姿态的单个稀疏RGB-D图像作为输入,并从目标视点生成高分辨率渲染(见图1)。与以前的方法相比,这一方法的第一个关键区别因素是将深度作为额外的输入流。尽管输入深度稀疏且有噪点,但它依然能够利用在输入视图中看到的信息,从而简化新视图的合成。
为了解释输入的稀疏性,团队选择了基于球体的神经渲染器。与简单地从一个视图到另一个视图执行几何体扭曲相比,所述渲染器使用可学习的半径创建更密集的扭曲图像。当与编码器-解码器架构和端到端训练相结合时,这一方法能够合成不可见个体的新视图,并绘制从主输入视图不可见的区域。
当然,尽管这种方法在最小遮挡情况下效果良好,但当存在严重遮挡时,无论是在人体前面移动手,还是在手持各种物体时,其都很难生成高质量的渲染。因此,研究人员建议使用单个附加的无遮挡图像,并通过在两个输入之间建立精确的密集对应,将其扭曲到目标新视图。
......(全文 4013 字,剩余 3277 字)


