雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

中科院与谷歌联合研发HOGSA框架:3D高斯飞溅技术实现双手交互数据高效增强

查看引用/信息源请点击:映维网Nweon

能够将现有数据集增强为具有各种手-物体姿态和视点的大规模逼真数据

映维网Nweon 2025年05月16日)对人机交互的理解在虚拟现实等应用中起着重要的作用。然而,由于手和物体之间的明显遮挡以及高自由度运动,收集和注释高质量的大规模数据集是一项挑战,阻碍了双手与物体交互相关基线的进一步改进。

在一项研究中,中国科学院,中国科学院大学和谷歌团队提出了一种基于3DGS的手工手-物体交互数据增强框架,而它能够将现有数据集增强为具有各种手-物体姿态和视点的大规模逼真数据。

首先,使用基于网格的3DGS对物体和手进行建模,并设计了一个超分辨率模块来解决多分辨率输入图像导致的渲染模糊问题。

其次,团队扩展了针对双手物体的单手抓取姿态优化模块,生成了双手物体交互的各种姿态,以显著扩展数据集的姿态分布。第三,研究人员分析了所提出的数据增强的不同方面对理解双手-物体交互的影响。

他们在H2O和Arctic两个基准执行了数据增强,并验证了所述方法可以提高基线的性能。

对手动手-物交互的理解,尤其是手-物体姿态和接触关系的估计,在虚拟现实应用等中发挥着越来越重要的作用。解决这一问题的最流行方法之一是基于深度学习的方法,但它需要大规模的手动手-对象交互数据集和丰富的注释。

由于人机交互的明显遮挡和高自由度运动,收集和注释高质量的数据集依然具有挑战性,阻碍了任务的进一步改进。

为了解决数据稀缺性和不准确的3D注释的挑战,业界已经探索了在传统渲染管道下使用合成数据的数据增强方法。然而,所述方法通常需要复杂和耗时的3D扫描和后处理来捕获手和物体的高质量形状和纹理图,并且需要额外的手模型混合权重来增强,而这需要大量的专业知识。

另外,从观察到的图像中捕获逼真的纹理映射(即微妙的细节和手和物体的自然外观)十分困难,所以经常导致手和物体的渲染结果缺乏真实感。

最近,得益于场景表示能力,NeRF等神经渲染方法通过合成新颖视图或新颖手部姿势实现了高质量的数据增强。NeRFmentation则使用NeRF对静态场景下的单目深度估计任务进行数据增强,但在场景发生显著变化时无法突破精度瓶颈。

HO-NeRF为手-物体交互场景构建了一个姿态驱动的NeRF,并展示了生成多种数据的潜力,但它需要对手和物体进行离线建模,并且渲染过程耗时,所以不适合大规模数据集的数据增强。

尽管神经渲染方法可以支持逼真的新视图合成,并且可能对数据增强有用,但由于多分辨率图像输入和不准确的注释,它们依然存在图像模糊的问题。不真实的图像不能解决真实图像和合成图像之间的差距,并将导致模型性能的下降。

影响基线性能的另一个关键因素是数据集中姿势的多样性。所以,有必要建立一种双手手物交互的数据增强方法,以实现高效的渲染,各种可行的手物姿态,以及逼真的渲染图像。

在研究中,中国科学院,中国科学院大学和谷歌团队提出了一个基于3DGS的数据增强框架HOGSA,并用于手动手-对象交互理解。

首先,基于手-物交互图像,采用基于网格的3DGS方法对手和物体进行建模,这可以有效地综合输入手-物位姿和视点的交互图像。其次,为了增强数据集的姿态多样性,使用姿态优化模块生成双手和物体的不同姿态,驱动手-物体高斯飞溅模型渲染新的交互姿态图像。

第三,为了保证渲染图像的真实感,团队设计了超分辨率模块来提高3DGS生成的粗糙图像的渲染质量。最后,将增强数据集与原始数据集相结合,细化了双手-物体交互的基线,并对增强数据集中影响交互理解精度的各个方面进行了系统分析。

团队在两个主要基准H2O 和Arctic 评估了所提出的方法,并且通过增强数据集提高了基线性能。

相关论文HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation

总的来说,团队提出了一个基于3DGS 的手-物体交互数据增强框架,它可以将现有的基准增强到具有各种手-物体姿态和视点的大规模真实感数据。扩展后的数据集可以进一步提高现有基线的性能。

所提出了姿态优化模块来生成各种物理上可行的手动手物交互姿态,以及通过超分辨率模块来提高使用3DGS渲染图像的真实感。团队在H2O和Arctic两个基准执行了数据增强,并验证了所提出方法可以提高基线的性能。

本文链接https://news.nweon.com/129774
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯