空 挡 广 告 位 | 空 挡 广 告 位

中传、三星、北航团队提出VarGes框架,实现语音驱动多样化3D姿态生成

查看引用/信息源请点击:映维网Nweon

从音频中生成富有表现力和多样性的人类姿态

映维网Nweon 2025年06月12日)从音频中生成富有表现力和多样性的人类姿态在VR等领域至关重要。尽管现有的方法已经取得了显著的性能,但由于数据集的多样性和音频输入的信息量有限,它们经常表现出局限性。

为了应对所述挑战,中国传媒大学,三星和北京航空航天大学团队提出了VarGes。这个variation-driven框架旨在通过整合视觉样式线索来增强语音姿态生成,同时尽量保持自然。

所述方法从Variation-Compensation Style Encoder(VEFE)模块开始,无缝地将样式参考视频数据整合到3D人体姿势估计网络中以提取StyleCLIPS,从而丰富输入的样式信息。

随后,采用Variation-Compensation Style Encoder(VCSE)来对不同的StyleCLIPS表示进行鲁棒编码,并有效地管理样式变化。最后,Variation-Driven Gesture Predictor (VDGP)模块通过交叉注意将MFCC音频特征与StyleCLIPS编码融合,将融合的数据注入交叉条件自回归模型中,以基于音频输入和样式线索调制3D人体姿态生成。

这一解决方案的有效性在基准数据集得到了验证,在姿态多样性和自然性方面优于现有方法。

头部、手部和身体手势是人类交际的重要组成,在增强语言表达、传递情感和态度、促进对话协调等方面发挥着关键作用。随着虚拟化身在教育、娱乐和医疗等不同领域的使用越来越多,基于语音生成自然且情境合适的姿态已成为一项重大的研究挑战。

这一挑战涉及多个学科,包括计算机视觉、自然语言处理和人机交互等。与语音同步生成头部、手部和身体姿态的任务大致可分为三种主要方法:基于规则的方法,基于统计模型的技术,以及基于学习的方法。

基于学习的方法已经明显成为这一领域的前沿,在产生既流畅又自然的姿态方面表现出非凡的熟练程度,可以捕获到人类表情的复杂动态。相关方法通过有效地将语音与手势的细微差别结合起来,树立了非常高的标准。然而,实现广泛多样的3D人体姿态依然是一个重大挑战。

尽管近来业界取得了进步,但相关方法经常受到限于特定人物的数据集的限制,从而限制了它们可以生成的姿态样式的广度,并导致了固定模式的学习,阻碍了在不同语音输入中的可变性。

为了解决这一限制,中国传媒大学,三星和北京航空航天大学团队提出了VarGes,一种从语音片段中生成各种3D人类姿态的方法。

团队旨在通过结合视觉和音频信息来增强3D姿态生成的多样性和自然性。通过整合这两种方式,研究人员希望以一种反映人们如何自然地使用视觉和声音来解释姿态的方式来实现人类表现力的丰富性。

具体来说,在VarGes中,视觉信息由样式参考视频表示,并编码为样式代码来指导生成过程。特别是,团队认为样式是一种稳定和个性化的特征,它通过影响动作的整体特征(如振幅、节奏和力量)来指导生成,而不是直接决定具体的动作路径。

在这种样式指导下,即使生成的动作与样式参考视频不同,都可以在整体特征上保持一致,从而实现自然多样的3D姿态生成。例如,正如指挥使用音乐家肢体语言的视觉线索和乐器的听觉线索来指导管弦乐队一样,团队提出的方法寻求利用视觉和音频数据的互补优势。

图1说明了所提出方法的核心思想,在给定任意音频剪辑的情况下,所提出方法可以生成自然、多样和逼真的姿态,展示了克服现有限制的潜力。

VarGes是一个复杂的框架,包括三个关键模块:VEFE,VCSE和VDGP。VEFE模块旨在通过无缝集成从样式参考视频中提取的StyleCLIPS来丰富语音衍生功能。这种整合捕获了手势节奏和幅度等信息,从而增加了输入的样式多样性。

在此之后,VCSE采用了一个基于transformer的编码器,以使StyleCLIPS的鲁棒编码成为深度学习表示,从而扩大了它们对姿态生成的影响。最后,VDGP模块通过交叉注意和交叉条件自回归模型巧妙地结合了样式代码和MFCC音频特征,促进了多样化和自然3D手势的生成。

实验结果证明了所述方法的显著有效性,在姿态多样性和自然度方面都明显优于现有方法。

相关论文VarGes: Improving Variation in Co-Speech 3D Gesture Generation via StyleCLIPS

总的来说,团队介绍了一种基于音频的三维人体姿态生成框架VarGes,其重点是增强姿态的变化。VarGes的核心集成了三个协同模块:VEFE将样式参考视频集成到3D姿态估计器中以提取StyleCLIPS,捕获整体运动特征,如幅度,节奏和强度,从而丰富样式细微差别的输入。

VCSE对多种样式表示进行鲁棒编码,而VDGP通过交叉注意集成了MFCC音频特征和样式编码,以调制交叉条件自回归模型,生成与音频输入一致的多种自然3D姿态。

在基准数据集上的大量实验验证了所提出方法在保持自然度的同时显著增强姿态变化的优越性。

当然,尽管取得了可喜的成果,但研究面临着一定的局限性。首先,目前的方法尚未完全优化多人场景,需要进一步的探索和扩展。其次,尽管已经成功地整合了音频特征和样式信息来增强姿态生成的多样性,但在多样性和自然度之间的平衡方面依然有很大的优化空间。未来的研究将侧重于将应用扩展到多人场景,引入更深层次的语义理解,并进一步提高生成姿态的自然度和多样性。

本文链接https://news.nweon.com/130305
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯