AsynFusion框架实现高效全身音频驱动虚拟化身动画生成

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

AsynFusion在生成实时、同步的全身动画方面达到了最先进的性能,在定量和定性评估中均持续优于现有方法

映维网Nweon 2025年09月12日)全身音频驱动虚拟化身姿态与表情生成是创造逼真数字人、增强交互式虚拟代理能力的关键任务,在虚拟现实和远程通信中具有广泛应用。现有方法通常独立生成音频驱动的面部表情和身体姿态,这带来了一个显著限制:面部表情与身体姿态元素之间缺乏无缝协调,导致生成的动画不够自然和连贯。

为克服这一限制,北京航空航天大学,上海交通大学,中国电信人工智能研究院和GigaAI团队提出了 AsynFusion,一种利用DiT实现和谐表情与姿态合成的新型框架。

所提出方法基于双分支DiT架构构建,支持面部表情与身体姿态的并行生成。在模型内部,引入协同同步模块以促进两种模态之间的双向特征交互,以及一种异步LCM采样策略,在保持高质量输出的同时降低计算开销。大量实验表明,AsynFusion在生成实时、同步的全身动画方面达到了最先进的性能,在定量和定性评估中均持续优于现有方法。

AsynFusion框架实现高效全身音频驱动虚拟化身动画生成

音频驱动的虚拟化身表情与姿态生成是一项关键任务,目标是在创造能够将音频输入无缝转化为同步面部表情和身体姿态的逼真数字人。这项任务对于弥合语音与非语言交流之间的鸿沟至关重要,使虚拟化身能够以自然、动态的方式传达情感、意图和个性。这项技术重要性遍及多个领域,包括元宇宙应用。

近年来,业界提出了众多方法来支持音频驱动的虚拟化身表情与姿态生成,但主要将语音驱动的面部表情和身体动作合成视为独立任务。面部表情生成侧重于将语音中的情感特征映射到面部肌肉运动以产生自然的动画,而身体动作合成则探索语音与姿态之间的相关性以生成连贯的全身运动。

尽管取得了进展,相关方法通常在表情与动作之间缺乏充分的协调。生成模型如 VQ-VAE、GANs和扩散模型提升了同步性和多样性,实现了表情与动作的统一建模。如图1所示,近期研究包括:Probtalk(使用统一模型同时生成表情和姿态)、DiffSHEG (使用表情到姿态的单向序列流)以及 EMAGE(结合身体提示以实现更好协调)。最相关的研究 Combo 将表情和动作特征融合为联合双向分布。然而,一个关键挑战仍然存在:平衡协调精度与计算效率。更具体地说,表情与动作的同步通常带来高昂的计算开销,限制了在延迟敏感场景中生成流畅动画的能力。

为应对这一挑战,北京航空航天大学,上海交通大学,中国电信人工智能研究院和GigaAI团队提出了 AsynFusion,一种利用面部表情与身体姿态生成解耦来实现高效且逼真动画的新型框架。AsynFusion的核心思想在于分离头部(表情)和身体(姿态)的生成过程,以促进并行信息处理,同时确保共享特征交互。这种设计不仅尊重了面部表情和姿态元素的不同信息需求,而且结合了异步机制以优化计算效率,而不损害协调质量。

AsynFusion框架实现高效全身音频驱动虚拟化身动画生成

基于此原则,他们设计了一个包含三个关键组件的模型:

  • 双分支DiT架构:支持面部表情与身体姿态的并行生成,并通过双向特征交互确保其对齐。

  • 协同同步模块:利用交叉注意力机制建模面部表情与姿态元素之间复杂的依赖关系,增强生成动画的连贯性和自然动态性。

  • 异步隐一致性模型(LCM)采样方法:在保持高质量结果的同时降低计算复杂度,实现适用于交互应用的实时性能。

在广泛使用的基准数据集上进行的大量实验表明,AsynFusion在生成质量和计算效率方面均能达到最先进的性能。

图3中展示了方法的可视化结果:(a) 展示了语音“Well, Hello There, My name is…”生成的一系列动作序列。所述可视化证明了双向特征交互机制在协调面部表情和身体姿态方面的有效性。具体来说,在问候语“Hello There”期间,模型生成了同步的抬手姿态,自然地对齐了相应的面部表情。角色的面部展现出恰当的情感投入(从中性表情过渡到友好表情),同时双手做出连贯的问候动作。这种协调在嘴部动作和手势的自然时序配合上尤为明显,问候姿态的峰值与语音的重音部分重合。

AsynFusion框架实现高效全身音频驱动虚拟化身动画生成

(b) 突出了语音片段“And I always tell…”的动作生成。序列展示了AsynFusion相较于基线方法优越的协调能力。在结果中,当说话者强调单词“always”时,模型生成了一个渐进式抬手姿态,自然地与语音强度(图中上升的红线所示)对齐。这个动态姿态与从中性过渡到强调的恰当面部表情同步,创造了一个连贯的非语言强调表达。此例说明,与以往单独处理面部表情和身体姿态或仅使用单向信息流的方法相比,双向信息流实现了更自然、更协调的动作合成。

研究人员使用一套全面的指标评估我们的方法,包括弗雷歇距离(FMD, FGD, FED)以评估整体、姿态和表情质量,以及多样性(Div)和节拍对齐度(BA)。相关指标对生成动作的分布和时序方面提供了稳健评估。如表1所示,在BEAT、SHOW和BEAT2数据集上,AsynFusion持续超越现有方法。在BEAT数据集上,模型取得了最低的FMD(312.46)和FED(316.97),优于DiffSHEG(FMD 324.67, FED 331.72)及其他方法。

AsynFusion同样取得了最佳的FGD(421.58),相比CaMN(1635.44)以及基于扩散的方法如DiffGesture(23700.91)和DSG(1907.58)生成了更平滑、更稳定的姿态。在动作动态性方面,AsynFusion在平滑度和表现力之间取得了更好的平衡。相比CaMN(BA = 0.793),模型生成了更具动态性的姿态(BA = 0.917),同时与真实数据水平(BA = 0.915)非常接近。姿态多样性(Div = 0.561)同样优于DiffSHEG(Div = 0.536),接近真实数据多样性(Div = 0.819)。

在SHOW数据集,AsynFusion取得了最低的FMD(3.098)和最高的姿态多样性(Div = 12.53),优于Combo(Div = 10.36)、TalkSHOW(Div = 12.40)和Probotalk(Div = 10.45)。模型在节拍对齐度(BA = 0.8701)和姿态稳定性(FGD = 2.049)方面也领先,优于TalkSHOW和Combo。在BETA2数据集上,AsynFusion取得了最低的FMD(7.128)和FGD(5.436),优于EMAGE(FMD = 7.310, FGD = 5.512),以及最高的姿态多样性(Div = 14.23)。总体而言,AsynFusion通过其双向特征交互和异步采样,为协调的表情-姿态生成设立了新基准,提供了卓越的动作稳定性、多样性和同步性。

为评估表情分支和姿态分支之间的最优交互机制,团队比较了五种变体:(1) 无交互:两个分支独立运行,无信息交换;(2) 单向流(E → G):仅允许表情影响姿态(类似于DiffSHEG);(3) 单向流(G → E):仅允许姿态影响表情;(4) 简单融合:在单个DiT块中简单拼接表情和姿态特征;(5) 双向交互设计。

如表2所示,双向交互策略在所有评估指标上显著优于所有替代方案。无交互的基线表现出表情与姿态之间的协调性差(FMD = 352.41),证实了跨分支通信的必要性。尽管两种单向变体相比基线有所改进,但它们表现出不平衡的性能——表情到姿态流在面部指标上表现优异但在姿态动态性上欠佳(FGD = 435.24),而姿态到表情流则呈现相反趋势。

这一发现与DiffSHEG中的结论一致。姿态到表情的单向流模型甚至表现比简单融合方法的结果更差。这一观察启发研究人员设计了异步LCM采样,因为他们发现面部组件需要显著更少的LCM采样步骤即可获得有竞争力的结果。简单融合方法尽管允许信息交换,但未能有效建模模态间的细微关系(FMD = 340.16)。相比之下,双向交互设计取得了最佳性能(FMD = 312.46, FED = 316.97, FGD = 421.58),证明了表情与姿态之间动态、平衡的信息流的重要性。

团队接下来通过比较三种方法评估采样策略:(1) 传统DDIM采样:两个分支均使用25步;(2) 同步LCM采样:两个分支均使用8步;(3) 异步LCM方法:表情分支使用4步,姿态分支使用8步。如表3所示,DDIM采样实现了高质量,但计算成本高昂(每序列56.4秒)。同步LCM方法将推理时间减少了67%(18.6秒),而质量仅轻微下降(FMD从312.46降至318.13)。

异步LCM策略通过认识到面部表情比身体姿态收敛更快,进一步提升了效率(15.9秒)。值得注意的是,这种自适应方法保持了有竞争力的质量(FMD = 320.59),同时与DDIM相比减少了72%的推理时间。结果表明,异步策略通过使采样过程适应每个动作组件固有的特性,有效地平衡了质量和计算效率。

最后,将AsynFusion的计算效率与语音伴随动作合成的最先进方法进行了比较。如表4所示,所提出方法实现了最快的推理时间(每序列15.9秒)和最低的计算复杂度(58.4 GFLOPs),同时保持了有竞争力或更优的质量指标。与Probtalk等统一方法相比,AsynFusion减少了62%的推理时间和57%的计算需求。即使与DiffSHEG等近期高效方法相比,所提出方法也显示出推理时间减少43%和GFLOPs减少38%。这一显著改进源于双分支架构和异步采样策略,它们有效地并行化计算并优化了每个动作组件的采样步骤。结果证实,AsynFusion在保持高质量动作合成的同时,成功解决了音频驱动虚拟化身动画中的计算效率挑战。

相关论文AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars

https://arxiv.org/pdf/2505.15058

总的来说,团队提出了 AsynFusion,一种用于音频驱动虚拟化身动画、推进联合表情-姿态生成的新型框架。团队主要贡献包括:一个具有双向特征交互的双分支DiT架构,通过协同同步模块(CoSync)实现,改进了面部表情与身体姿态之间的协调性;引入了使用隐一致性模型(LCM)的异步采样策略,在保持高质量动作合成的同时显著降低了计算开销。

本文链接https://news.nweon.com/132416
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯