研究员提出快速3D神经隐式头部化身模型,保持高质量同时实现实时渲染
在保持细粒度可控制性和高渲染质量的同时实现了实时渲染
(映维网Nweon 2024年10月17日)用神经隐式体积表征构建的3D化身已经达到了前所未有的真实感水平。然而,相关方法的计算成本依然是其广泛采用的一个重大障碍,特别是在虚拟现实和远程会议等实时应用之中。尽管业界已经尝试开发用于静态场景的快速神经渲染方法,但它们不能简单地用于支持逼真的面部表情。
为了解决所述挑战,谷歌、加拿大西蒙菲莎大学和香港科技大学的研究人员提出了一种全新的快速3D神经隐式头部化身模型,而它在保持细粒度可控制性和高渲染质量的同时实现了实时渲染。
关键思想在于引入局部哈希表混合形状。每个顶点的哈希表与通过CNN预测的权重线性合并,从而产生依赖表情的嵌入。新颖表示使用轻量级MLP实现了高效的密度和颜色预测,并通过分层最近邻搜索方法进一步加速。大量的实验表明,所述方法可以实时运行,并且在具有挑战性的表情方面获得与最先进渲染质量相当的结果。
随着新兴的VR/AR应用的普及,对高性能逼真人类化身的需求急剧增加。由于单目RGB视频数据采集的便利性,如何从单目RGB视频中构建高效、高质量的虚拟化身成为了一个富有前景的方向。
尽管早期的研究大多采用基于表面的模型,但最近提出的方法开始利用复杂的管道在神经辐射场构建人类化身,从而提供生动的动画以及显着更好的渲染质量,特别是在具有挑战性的部分,如头发和眼镜。但缺点是,相关方法往往非常缓慢。
当然,业界已经提出了神经辐射场的快速方法,而它们主要用于静态场景或预录制的时间序列。尽管取得了巨大的成功,但将相关方法扩展到人类化身并不简单,需要在控制化身时实时渲染动态面部表现。
在研究中,谷歌、加拿大西蒙菲莎大学和香港科技大学的研究人员提出了一种全新的3D神经化身系统,而它在保持细粒度可控性和高保真质量的同时能够实现有效的推理。
为了实现这一点,团队引入了网格锚定哈希表混合形状,其中他们将多个小哈希表附加到每个3DMM网格顶点。哈希表作为每个顶点的“局部混合形状”,只影响一个局部区域。网格锚定的混合形状与卷积神经网络在UV空间中从头像驱动信号预测的每个顶点权重线性合并。
这带来了表情相关的哈希表嵌入,而它比混合形状的全局线性组合提供了数个优势。实际上,通过将散列表与单个顶点相关联,团队增强了模型的表现力,允许更局部和更细微的面部表情。
这与全局混合形状形成鲜明对比,后者在整个面部应用统一的转换,限制了表现力。更详细地说,团队提出的模型从3D查询点开始,使用哈希编码从查询点周围的k近邻顶点收集合并的哈希表嵌入,并通过一个小MLP预测密度和颜色。
哈希编码允许使用非常轻量级的MLP来显著减少计算,从而实现高效的推理。另外,附加顶点的哈希表混合形状代表一个3DMM锚定的NeRF,它可以很容易地由底层3DMM控制,并产生高保真渲染。另外,为了进一步加快渲染速度,团队提出了一种分层k近邻搜索方法。
相关论文:Efficient 3D Implicit Head Avatar with Mesh-anchored Hash Table Blendshapes
总的来说,团队提出了一种高质量和高效的三维神经隐式头部化身的新方法。就模型的核心而言,团队提出了顶点附加的局部哈希表混合形状以支持高效的渲染,可控制性,并在动态面部表现中捕获细粒度的渲染细节。
团队同时设计了一个分层查询解决方案,以加速从相邻顶点提取哈希表嵌入时的k近邻搜索。
在多个数据集进行的大量实验证明,所提出方法能够将化身渲染加速到实时,同时保持与最先进高质量3D化身相当的渲染质量。另外,在具有挑战性的表情方面,它比现有的高效3D化身要优越得多。