牛津大学与苏黎世联邦理工联合开发DNF-Avatar 实现67FPS实时角色重照明
可在大约40分钟内仅使用手机录制的视频创建基于高斯飞溅的化身
(映维网Nweon 2025年07月28日)逼真的化身对于虚拟现实和增强现实等沉浸式应用至关重要,可以在训练模拟、远程医疗和虚拟协作等领域实现逼真的交互。虚拟化身弥合了物理世界和数字世界之间的鸿沟,可通过逼真的人类表现改善用户体验。然而,现有的虚拟化身创建技术面临着重大挑战,包括成本高、创建时间长以及虚拟应用程序中的实用性有限。手动方法,如MetaHuman,则需要大量的时间和专业知识,而自动方法,如基于NeRF的管道,通常缺乏效率和细节的面部表情保真度,并且无法以足够的速度呈现实时应用。
在一项研究中,通过纳入一系列的尖端现代技术,美国范德比尔特大学引入了一个端到端的3DGS化身创建管道,并可在大约40分钟内仅使用手机录制的视频创建基于高斯飞溅的化身。管道包含两大创新:采用改进型高斯飞溅算法配合定制化预处理模块,支持”非受控环境”的用户单目视频捕获,并实现精细化面部表情重建并嵌入全骨骼绑定角色模型。
另外,团队提供了一个Unity集成的高斯飞溅化身编辑器,为VR/AR应用程序开发提供了一个用户友好的环境。实验结果验证了预处理管道在标准化3DGS训练自定义数据方面的有效性,并展示了Unity中高斯化身的多功能性,突出了所提出方法的可扩展性和实用性。
我们生活在一个技术飞速发展的时代,人工智能、机器学习、以及虚拟现实和增强现实等沉浸式技术的突破性创新成为了这个时代的标志。VR和AR最初专注于娱乐,现在已将其影响力扩展到教育、医疗保健和工业等领域,改变了我们联结、学习和协作的方式。
所述技术提供了身临其境的交互式体验,重新定义了人类的互动。然而,所述变革性应用的核心是这样一个关键需求:虚拟空间中人类的自然和逼真表现。虚拟化身是实现VR和AR全部潜力的关键,它提供了一种促进逼真交互和创造引人入胜的虚拟环境的手段。
从训练模拟到远程医疗,逼真的化身对于提供有意义的实时体验至关重要。然而,在人类化身中实现真实性——捕获外表和行为——依然是一个重大挑战。这强调了需要先进的方法来弥合物理世界和虚拟世界之间的差距,在虚拟环境中实现逼真和有影响力的交互。
另外,虚拟化身在增强交互式VR和AR体验的沉浸感和共同呈现性方面发挥着至关重要的作用。沉浸感,即在虚拟环境中深度参与的感觉,以及共同临场感,即与他人共享空间的感觉,可以通过逼真的虚拟化身得到加强,尤其是当虚拟化身能够有效地传达非语言线索,如面部表情、手势和眼球运动时。
通过连接物理和数字领域,逼真的虚拟化身提升了虚拟体验,培养了更强的情感联系,增强了社交互动的真实感。例如,在远程呈现系统中,高保真虚拟形象准确地捕获和传输非语言交流线索,包括面部表情、肢体语言和眼神交流,以确保更有吸引力和更有效的人际互动。
角色的创建可以手动或自动进行,而每种方法都有其优点和局限性。对于手动,最先进的工具MetaHuman提供了基本的人体模型,但需要专业的3D美术来完善身体形状,服装和面部特征等细节。尽管模型非常适合3D环境开发,但这个过程既费力又耗时。生成的虚拟化身一开始往往不能让参与者满意,需要经过多轮调整和定制才能满足他们的期望。
另外,自定义选项是有限的,令创建高度详细或独特的化身变得复杂。为了解决相关限制,研究人员越来越多地转向使用视频或图像输入来自动创建虚拟角色。近年来,基于NeRF的管道已经取得了重大进展,可以自动生成逼真的3D人体模型。2023年推出的3DGS标志着一个突破,与基于NeRF的方法相比,它在质量和培训时间方面都有了实质性的改进。
尽管取得了进步,但在将基于3D图像的虚拟化身应用于实际的VR和AR应用方面依然存在一定的挑战。目前的方法通常严重依赖于公共数据集,特别是SMPL-X参数,如PeopleSnapshot和X-Human。尽管所述数据集旨在为研究目的提供高质量的视频和图像,但它们并不能反映真实世界视频捕获的条件,因为它们依赖于昂贵设备和劳动密集型处理的受控环境,在实际应用中不容易复制。数据集同时需要大量的预处理来为现实世界的应用程序定制化身,这限制了它们的可扩展性和可访问性。另外,大多数系统依赖于复杂的实验室设置,包括多个摄像头来捕获360度视图,这增加了计算成本并要求高性能GPU。
同时,尽管身体关键点是主要焦点,但面部表情往往遭到忽视,这限制了这些虚拟形象在情感驱动应用中的多功能性。另外,基于3D图像的虚拟化身并没有完全集成到实时VR/AR平台中。它们主要针对图像渲染而不是交互式环境进行了优化。
为了所述这些挑战,美国范德比尔特大学提出了一个端到端3D化身创建管道,利用单目视频输入,直接生成兼容Unity游戏引擎的可扩展高效逼真化身。管道包含两大创新:采用改进型高斯飞溅算法配合定制化预处理模块,支持”非受控环境”的用户单目视频捕获,并实现精细化面部表情重建并嵌入全骨骼绑定角色模型。
另外,团队提供了一个Unity集成的高斯飞溅化身编辑器,为VR/AR应用程序开发提供了一个用户友好的环境。实验结果验证了预处理管道在标准化3DGS训练自定义数据方面的有效性,并展示了Unity中高斯化身的多功能性,突出了所提出方法的可扩展性和实用性。
当然,尽管团队提出的高斯飞溅模型训练了3000次迭代,产生了质量相当好的结果,但需要进一步探索以确定平衡质量和效率所需的最佳splat数量。随着训练迭代的增加,需要添加更多的高斯函数来捕获更精细的细节,而研究渲染质量和计算成本之间的权衡是必要的。
由于这项研究并不专注于优化掩码生成,特定伪影可能会出现在个性化的化身中,特别是在使用自定义数据集时。伪影在头发等复杂区域最为明显,分割不准确会影响最终的视觉质量。目前,服装训练成身体表面不可分割的一部分,这意味着任何服装的改变都需要录制新的视频并重新训练虚拟化身。尽管这种方法产生了视觉上一致的结果,但它限制了用户的灵活性。另外,目前的管道缺乏对现实布料动态的支持,因为服装没有表现出独立的物理运动或变形来响应身体运动。
相关论文:GSAC: Leveraging Gaussian Splatting for Photorealistic Avatar Creation with Unity Integration
总的来说,团队提出了一个端到端管道,它可在大约40分钟内仅使用手机录制的视频创建基于高斯飞溅的化身。所提出方法利用了多种尖端的机器学习模型,并引入了优化SMPL-X参数的新技术。与现有的方法相比,所得到的参数产生视觉上引人注目的结果,而且往往优于现有的方法。
系统不仅支持Unity的默认动画系统,而且允许用户输入自定义的SMPL-X参数,实现基于真实人体运动的个性化或动捕动画。这使得虚拟化身在VR/AR应用程序中很容易进行应用,只需要很少的额外设置。当然,尽管依然存在改进的空间,但这项研究为下一代沉浸式VR/AR体验奠定了坚实的基础,并证明了逼真的,可动画的化身可以通过易于访问的工具快速有效地生成。