中外多机构联合研发Zero-Shot人机交互合成框架
人-物交互合成
(映维网Nweon 2025年07月03日)人-物交互(HOI)合成对于虚拟现实等多种应用都非常重要。但由于其复杂性和高成本,获取3D HOI数据具有挑战性。在一项研究中,香港大学,苏黎世联邦理工学院,斯坦福大学和腾讯团队提出了一种全新的zero shot HOI合成框架,不依赖于当前有限的3D HOI数据集的端到端训练。
方法的核心思想在于利用来自预训练多模态模型的广泛HOI知识。给定文本描述,系统首先使用图像或视频生成模型获得时间一致的2D HOI图像序列,然后将其提升到人类和物体姿态的3D HOI milestons。采用预训练的人体姿态估计模型提取人体姿态,并引入可泛化category-level六自由度估计方法来从二维HOI图像中获取目标姿态。估计方法适用于从文本到三维模型或在线检索得到的各种对象模板。
基于物理的追踪进一步应用于细化身体运动和物体姿态,以产生更物理上可信的HOI生成结果。实验结果表明,所述方法能够生成具有物理真实感和语义多样性的开放词汇HOI。
......(全文 1656 字,剩余 1294 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限