Meta突破性技术实现Quest 3同时渲染3个高保真虚拟化身
(映维网Nweon 2025年08月05日)基于高斯的Avatar已经达到了前所未有的视觉保真度。然而,基于高容量神经网络的现有方法通常需要桌面GPU来实现单个Avatar的实时性能,并且由于内存和计算带宽的限制,在VR一体机等移动设备动画和渲染相关Avatar十分具有挑战性。
在一项研究中,Meta团队提出了SqueezeMe。这个简单而高效的框架可将高保真3D高斯Avatar转换为轻量级表示,可允许移动设备动画和计算渲染。
团队的关键观察是,从神经网络解码姿势相关的高斯属性会产生不可忽略的内存和计算开销。受计算机图形学中广泛使用的混合形状和线性姿态校正启发,研究人员通过将神经网络学习的姿态校正提取到线性层来解决这个问题。另外,通过在邻近高斯函数之间共享校正量来进一步减小参数。
将它们与基于Vulkan的自定义管道相结合,团队首次在Meta Quest 3实现了3个高斯Avatar的实时同步动画和渲染(72 FPS)。
增强现实与虚拟现实在提供沉浸式体验方面展现出巨大潜力。模糊物理世界与虚拟世界之间界限的体验的核心在于高保真全身Avatar,而它将可以支持广泛的应用,包括远程呈现、虚拟试穿和沉浸式游戏。
为了普及这类技术,需要提供轻量化形态的AR/VR一体机。但面对高度受限的计算资源,业界正努力以移动级算力实现高保真Avatar的动画和渲染,从而为Avatar在AR/VR中的广泛应用铺平道路。
基于NeRF的高保真3D场景渲染方面取得的进展已显示出有希望的结果。另外,在移动设备实时渲染体三维视频已成为可能 。然而,相关方法并不直接适用于Avatar,因为Avatar不仅需要支持静态场景或预录制序列的回放,同时需要支持为实时驱动Avatar而动态计算的新动画方法。
现有能够实现高保真的方法依赖于大容量神经网络,根据驱动信号(如身体姿态参数)解码非刚性校正量。逐帧运行这类解码器会产生不可忽略的内存和计算开销,阻碍了高保真Avatar的部署。
为了解决这个问题,Meta团队提出了SqueezeMe。这是一种将基于3D高斯飞溅的高保真Avatar提炼成轻量级表示的新方法,而相关表示可直接在移动设备进行动画和渲染。
受计算机图形学中广泛使用的姿态相关线性校正的启发,研究人员计算从姿态参数到3D高斯的几何与外观参数(包括旋转、位移、尺度和球谐系数)的线性映射。具体地说,首先使用大容量卷积神经网络训练一个在UV贴图定义姿态相关校正参数的3D 高斯Avatar。模型仅使用5倍更少的高斯点,就能达到与最先进高斯Avatar方法相当的性能。然后,提取关键帧及其关联的高斯参数,以确保覆盖各种姿态的均匀性。接着,对关联的姿态参数到目标校正量进行线性回归求解。
当然,尽管这种线性提炼极大地简化了解码器的计算,线性矩阵的大小依然相对较大,对移动计算造成了不小的内存开销。团队观察到,静态高斯参数需要保留高频信号以实现高保真效果,而姿态相关校正量往往是低频的。基于这一关键洞察,他们通过在UV贴图布局相邻的高斯点之间共享校正量,从而进一步减少了内存占用。这使得能够将所需内存减少约16倍,同时将对视觉保真度和高频人物特定细节的影响降至最低。
在推理过程中,使用基于线性模型计算的参数渲染高斯点,并使用基于Vulkan的自定义渲染器。实验表明,这一方法允许在Meta Quest头显以实时帧率(72 FPS)对最多3个全身Avatar进行动画和渲染。另外,结果表明所提出方案导致的质量下降微乎其微。
设备端演示: 图1展示了在VR头显同时运行的3个Avatar。解码器和高斯可视化均在头显本地运行。尽管主要评估是在Quest 3头显进行,但大多数智能手机和VR头显都配备了类似的高通骁龙处理器,这表明在多种移动设备应该能实现类似的结果。
量化比较: 在表1中,团队将所提出方法的数个版本与可动画高斯(AG)基线进行了比较。AG拥有30万个高斯点,可在NVIDIA GPU以10 FPS运行,但它无法在移动设备运行。对于不使用高斯校正量共享(GCS)或线性化的情况,最初的 SqueezeMe模型包含一个卷积解码器,拥有6万个高斯点和6万个校正量。
最初的SqueezeMe模型在L1损失与AG持平;LPIPS 略逊于AG;而其PSNR和SSIM则略优于 AG。所以,初始模型在视觉质量方面与 AG 相当,同时使用了5倍更少的高斯点。
在另一个极端,团队提出了一个低延迟但质量同时较低的SqueezeMe版本。它没有解码器,完全依赖线性混合蒙皮(LBS)来驱动高斯数字人动画。如表1所示,与AG和初始SqueezeMe模型相比,它在所有指标方面都显著下降。
为了在复杂度和质量之间取得平衡,研究人员又提出了一个带有GCS的SqueezeMe版本,它将校正量从6万个减少到4千个,并采用了一个更小的卷积解码器;如表1所示,模型在L1损失方面与初始SqueezeMe模型持平,但在LPIPS、PSNR和SSIM略有下降。
最后,他们考虑了线性化的SqueezeMe模型;模型在质量指标方面介于初始模型和无解码器模型之间,解码器延迟低至0.45毫秒,这使得线性化模型对于实际的设备端应用极具吸引力。
为了展示两阶段提炼策略的有效性,研究人员考虑了另一种方案:在没有提炼的情况下从头开始训练线性模型。具体来说,使用一个随机权重初始化线性模型,并通过7种损失函数对其进行训练。表1显示,linear from scratch模型产生的结果明显差于SqueezeMe模型。请注意,对于某个特定人物,即便尝试了不同的学习率和其他超参数,linear from scratch模型都未能收敛。这表明它不如使用提炼训练稳定。相关因素说明了提炼对于生成高质量、低延迟高斯Avatar的益处。
为了进行设备端推理,团队将线性模型的权重量化为8位,激活值量化为16位。具体来说,他们使用了训练后量化(PTQ),并发现浮点线性模型和量化线性模型产生相同的量化结果。所以,表1中Linearized结果的L1、LPIPS、PSNR和SSIM指标对量化和未量化模型均适用。
图5展示了不同模型在不同人物、姿态和camera视角下的代表性示例。即便在手臂、躯干和腿部存在显著运动的情况,你都可以观察到了高质量的效果。另外,使用校正量共享将校正量从6.5万个减少到4千个,并对模型进行线性化,Avatar质量的下降非常小。然而,通过减少校正量数量并对模型进行线性化,团队能够将解码器压缩到VR头显,每次推理延迟仅为0.45毫秒。
当然这一方案存在一定的局限性。图6可视化了失败案例。SqueezeMe模型偶尔会产生模糊的手部(见图 6(a))和不需要的透明效果(见图 6(c))。另外,优化(即使用高斯校正量共享将校正量从6万个减少到4千个,以及线性提炼)引入了额外的伪影,在推理过程中间歇性出现。例如在图 6(b, e) 中,校正量共享和线性化都可能导致手臂区域(尤其是腋下和T恤袖子与皮肤接触处)的质量下降。
最后在图 6(d) 中,可以观察到校正量共享降低了裤子臀部区域的视觉质量,尤其是在Avatar双腿分开站立时。对于这方面,一个直观的解释是:校正量共享假设相邻的高斯点会一起移动,但手臂和腿部关节处的高斯点可能更独立地移动,导致伪影有时出现在所述区域。所以,未来可以通过更自适应地在人体分布高斯点和校正量的方法来解决问题。
相关论文:SqueezeMe: Mobile-Ready Distillation of Gaussian Full-Body Avatars
总的来说,团队提出了一个包含多种技术的系统,以提高高斯飞溅在可动画全身Avatar中的效率,包括紧凑的3D高斯Avatar表示、线性提炼和校正量共享。这将高斯校正解码器的延迟从基线50毫秒显著降低到仅0.45毫秒。另外,团队展示了现在可以在Quest 3头显以72 FPS运行3个Avatar。
通过大幅降低计算成本,这项研究不仅推动了VR中高保真Avatar渲染的发展,同时拓展了实际应用的可能性。展望未来,这项技术可以作为扩展Avatar系统以支持更多参与者,并探索其与增强现实系统集成的基础,从而弥合物理世界与虚拟世界之间的鸿沟。