Meta研究用单个RGB-D传感器生成穿衣人体的高保真渲染图像

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

对象或动态场景的新视图合成

映维网Nweon 2022年09月27日)刚性对象或动态场景的新视图合成一直是非常活跃的研究课题,并已经在各种任务中取得了令人印象深刻的结果。然而,合成人体运动的新视图需要处理具有各种变形的动态场景的方法,而这是一项具有挑战性的任务,特别是在具有精细细节的区域,如面部或衣服。另外,之前的研究通常依赖于大量摄像头、昂贵的捕获设置或每帧数分钟的推断时间。

为了应对上述挑战,Meta和芬兰奥卢大学的研究人员提出了全新的Human View Synthesis Network (HVS-Net) ,通过利用紧凑而有效的公式,以及商品RGB-D传感器来生成穿衣人体的高保真渲染图像。

团队提出的挑战性要求是:

  • 与每个受试者训练的模型相比,测试时对新受试者的泛化
  • 处理人类在不可见姿态下的动态行为的能力,而不是使用训练时看到的相同姿态对人类进行动画化
  • 处理遮挡(来自对象或自遮挡)的能力
  • 捕捉面部表情
  • 在给定单流稀疏RGB-D输入的实时设置中生成高保真图像(类似于低成本的现成深度摄像头)。

Meta研究用单个RGB-D传感器生成穿衣人体的高保真渲染图像

图1

HVS-Net将人的上身和目标camera姿态的单个稀疏RGB-D图像作为输入,并从目标视点生成高分辨率渲染(见图1)。与以前的方法相比,这一方法的第一个关键区别因素是将深度作为额外的输入流。尽管输入深度稀疏且有噪点,但它依然能够利用在输入视图中看到的信息,从而简化新视图的合成。

为了解释输入的稀疏性,团队选择了基于球体的神经渲染器。与简单地从一个视图到另一个视图执行几何体扭曲相比,所述渲染器使用可学习的半径创建更密集的扭曲图像。当与编码器-解码器架构和端到端训练相结合时,这一方法能够合成不可见个体的新视图,并绘制从主输入视图不可见的区域。

当然,尽管这种方法在最小遮挡情况下效果良好,但当存在严重遮挡时,无论是在人体前面移动手,还是在手持各种物体时,其都很难生成高质量的渲染。因此,研究人员建议使用单个附加的无遮挡图像,并通过在两个输入之间建立精确的密集对应,将其扭曲到目标新视图。

......(全文 4013 字,剩余 3277 字)

wx_mp

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/101030
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR Research Wechat Group/微信群
资讯