华南理工大学团队提出ROG框架提升VR人机交互真实感

查看引用/信息源请点击:映维网Nweon

人-物交互合成

映维网Nweon 2025年07月04日)人-物交互(HOI)合成对于为虚拟现实等应用程序创建沉浸式和逼真的体验至关重要。现有的方法通常依赖于简化的对象表示,例如对象的质心或离人最近的点,以实现物理合理的运动。然而,相关方法可能忽略几何复杂性,导致次优的交互保真度。为了解决这一限制,华南理工大学,琶洲实验室和腾讯团队引入了一种基于扩散的框架ROG,通过丰富的几何细节对HOI中固有的时空关系进行建模。

为了高效的对象表示,从对象网格中选择边界聚焦和精细细节关键点,确保对对象几何结构的全面描述。表示用于构建交互距离场(IDF),以捕获鲁棒HOI动态。另外,研究人员开发了一个基于扩散的关系模型,集成了空间和时间注意机制,从而更好地理解复杂的HOI关系。关系模型细化了生成运动的IDF,指导运动生成过程产生关系感知和语义对齐的运动。实验评估表明,ROG在合成HOI的真实感和语义准确性方面明显优于最先进的方法。

人-物交互(HOI)合成对于虚拟现实等应用创造身临其境的逼真体验至关重要。一个生动的HOI序列可能包括一系列涉及物体的动作,比如走路时拿起它,放下它,然后用脚调整它的位置,其中人与物体的运动应该同步,接触点必须精确。

实现这种逼真的人工智能需要产生自然的身体运动,并深入了解人与他们操纵物体之间的时空关系。最近,扩散模型的显著成功促使了将其应用于HOI生成。有的研究将先验信息纳入运动生成模型,如细粒度文本描述、手关节位置和可能的接触图。与此同时,其他研究实现了引导机制来对扩散模型施加额外的约束,从而实现更物理上合理的运动。

尽管取得了进步,但由于特定挑战,人与物体之间的复杂关系尚未得到充分探索,导致交互保真度达不到最佳水平。第一,有效地表示物体的几何形状十分困难,这阻碍了人与物体之间时空关系(如空间距离)的准确计算。以前的方法通常使用物体的质心或相对于人类最近的点来简化物体的表示,而忽略了物体的整体几何复杂性。由于计算成本的大幅增加,直接利用物体上的所有表面点同样不切实际。

第二,由于HOI的高维和动态特性,设计能够学习这些关系的模型本质上十分具有挑战性。捕获微妙的,依赖于上下文的交互需要复杂的建模技术,有效地将空间几何与时间动态相结合。

为了应对所述挑战,华南理工大学,琶洲实验室和腾讯团队提出了ROG。这个基于扩散的框架通过丰富的几何细节全面捕获HOI中的时空关系,为生成更逼真的交互提供指导。

对于第一个问题,团队提出了一种利用PDS的高效对象表示方法。具体来说,首先定义包围对象的最小边界框。然后,在距离边界框最近的物体上选择8个点,并应用PDS获得额外的16个点。通常,边界点位于物体的末端和角落,它们对于定义物体的整体形状至关重要。

同时,PDS可以捕获到通常可能遭到忽略的精细表面细节和微妙的几何变化。结合边界聚焦和PDS点确保了物体几何形状的整体表示。使用这种表示,研究人员构建了一个3D矩阵,以测量人体关节与物体关键点之间的距离,而这称为交互距离场(IDF)。他们使用IDF作为额外的目标函数来提高运动生成模型对HOI动力学的理解。

对于第二个问题,研究人员开发了一个基于扩散的关系模型,通过预测IDF矩阵来捕获HOI中的时空关系。更具体地说,从视频生成领域三维数据的成功建模中获得灵感,他们将空间和时间的自注意纳入关系模型,以捕获局部交互和时间依赖性。然后,设计一个引导过程,其中关系模型指导运动生成模型产生关系感知运动。具体来说,在去噪过程中,根据运动生成模型预测的运动来计算IDF矩阵。

然后,关系模型将这个矩阵作为输入,并产生一个细化的IDF矩阵,它反过来修正运动,确保生成的运动与期望的时空关系密切相关。通过集成核心设计,所提出方法能够生成更真实和语义一致的人与对象交互。

团队定量地评估了合成运动的真实性和语义正确性,与ground truth和最先进的方法进行了对比。实验结果表明,模型在定性和定量方面都超越了最先进的方法,推动了人-物交互合成领域的发展。

相关论文Guiding Human-Object Interactions with Rich Geometry and Relations

https://arxiv.org/pdf/2503.20172

总的来说,团队提出的ROG是一种基于扩散的新型框架,旨在以详细的几何精度模拟人-物交互中固有的时空关系。他们首先构建一个交互距离场(IDF),通过利用物体网格上的边界焦点和精细细节关键点来捕获HOI的动态,确保准确表示物体的几何形状。在此基础上,研究人员开发了一个基于扩散的关系模型来细化生成的运动的IDF,指导运动生成过程产生关系感知和语义对齐的运动。

本文链接https://news.nweon.com/130818
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯