雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

西交大提出DynamicAvatars框架:高斯飞溅+LLM驱动VR虚拟人实时定制

查看引用/信息源请点击:映维网Nweon

DynamicAvatars

映维网Nweon 2025年05月12日)动态Avatar的生成和编辑是虚拟现实等领域中的关键任务。然而,现有的方法经常遭受面部扭曲,头部运动不准确和有限的细粒度编辑能力的影响。为了解决所述挑战,西安交通大学团队提出了DynamicAvatars。

这个动态模型可以从视频剪辑和与面部位置和表情相关的参数中生成逼真的移动3D Avatar。所述方法通过一种基于提示的编辑模型实现精确的编辑,将用户提供的提示与来自大型语言模型的指导参数集成在一起。

为了实现这一目标,研究人员提出了一个基于高斯飞溅的双追踪框架,并引入了一个快速预处理模块来提高编辑稳定性。通过结合专门的GAN算法并将其连接到我们的控制模块,可以从大型语言模型生成精确的指导参数。另外,他们开发了一种动态编辑策略,选择性地利用特定的训练数据集来提高效率。

由于计算机视觉在AR/VR等领域中的重要性,创建和编辑Avatar的已成为一个重要研究方向。高效地生产和灵活地编辑详细的人体模型对于相关应用至关重要。传统的方法利用显式3D表示,如点云和网格,但往往难以准确地捕捉精细的几何细节。

人脸固有的复杂性,其复杂的纹理、不可预测的姿势和动态的表情,进一步复杂化了识别和建模潜在模式的任务。隐式3D表示方法解决了许多这些挑战,提供了重建逼真的人类化身的能力。

通过引入新颖的渲染管道和基于神经网络的色彩存储技术,神经辐射场NeRF取得了显著的成功。它们能够生成高度复杂的场景,并显著降低了时空计算成本。另外,相关方法在重建动态场景和渲染新颖视图方面同样取得了令人印象深刻的成果。

然而,由于编码技术的限制和对先验信息的利用不足,它们往往缺乏编辑或控制面部重建的能力。为了推进这一领域,研究人员越来越多地转向3DGS。所述方法实时性好,结构简单,便于编辑。

尽管有进步,目前的模型在实现精确和灵活的编辑方面依然面临着重大挑战。一个主要的限制是编辑精细的面部特征和装饰。在解释具有精确位置细节或高度详细描述的指令时,现有的文本引导图像编辑模型往往表现出较低的理解能力。

另外,在保持实时性能的同时,在动态场景中进行编辑依然是一个持久的障碍。西安交通大学团队的模型可以重建动态数字Avatar,并支持基于文本的重建模型编辑,如图1所示。

他们通过限制高斯条纹和网格的相对位置,同时对条纹应用语义掩码实现了成功的重建。在编辑阶段,使用专门设计的策略确定所有相关的高斯分布对目标编辑区域的贡献。然后使用基于LLM的编辑过程对飞溅进行细化,以实现精确的修改。管道如图2所示。方法分为两个阶段:使动态3D场景的建模和编辑使用高斯飞溅。

为了实现对头部头像的表情和纹理的灵活编辑,必须使用一种既能重建准确的头部模型又能方便编辑的技术。

如图3所示,团队引入了一种不同于高斯Avatar的网格高斯绑定方法。其中,为过程的这个阶段引入了两种高斯追踪模式。输入视频用光度头部追踪器进行处理,以拟合FLAME参数。每帧包括多视图观测,时间步长参数和已知的camera参数。

最初,追踪每个三角形的高斯飞溅,以确保具有显著变化的区域可以高精度地建模。接下来,应用一个独立的面部成分标识符来生成语义掩码。这允许在渲染成图像时为每个高斯飞溅分配语义标签,确保在整个动态场景中始终追踪和操作相同的飞溅,在编辑过程中保持时间一致性。同时,将渲染结果与真实图像进行对比,对Avatar进行训练。

在下一阶段,解耦高斯条纹和FLAME网格之间的关系,允许添加和修改附件,如戒指和帽子。为了提高渲染质量,应用自适应密度控制操作来调整高斯条纹的密度,根据需要选择性地致密化和修剪它们。

通过使用在整个时间线生成选定区域的映射网络,可以在整个动态场景中追踪对目标区域有贡献的高斯飞溅接下来,编辑所选集中的每个图像以生成编辑后的图像集。最后,应用一个具有条件对抗损失的学习过程,这有助于调节高斯分布并保持时间一致性。

上述方法允许编辑整个动态模型,任意有效地合并所需的更改。

另外,在面对方向、相对位置等描述信息等极其详细的提示时,以往基于扩散模型的3D场景编辑研究难以保持编辑的稳定性,理解能力相对较低。所以团队提出了利用LLM模型辅助图像精细编辑的可行方向。

为了提高结果的生成质量,他们专注于根据精确的详细提示,解决编辑和添加附件相关的错位和误解问题。研究人员提出了一个类似于SLD的框架,以提供一种实用的精细编辑方法。

相关论文DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models

总的来说,DynamicAvatars增强了编辑的控制和灵活性。高斯的双重追踪可以提高重建和编辑质量,而快速预处理架构增强了扩散模型生成准确编辑图像的能力。另外,GAN方法的结合有助于减少颜色差异,使编辑更自然,特别是在面部区域。同时,动态高斯编辑功能允许更有效和直观的动态场景编辑。

本文链接https://news.nweon.com/129671
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯