中外多机构联合研发Zero-Shot人机交互合成框架

编辑：广东客 | 分类：论文 | 2025年7月3日

AI 摘要

香港大学、苏黎世联邦理工等机构提出基于多模态先验的zero-shot人机交互(HOI)合成框架，通过预训练模型将文本描述转化为3D交互序列。该方法首先利用ControlNet生成时序一致的2D HOI图像，再通过两阶段优化(粗估计PnP+可微渲染细化)提取3D人体姿态和物体六自由度位姿，最后结合物理仿真优化运动合理性。相比依赖有限3D HOI数据集的方法，该框架支持开放词汇的多样化交互生成，实验显示其能增强现有运动数据并重建视频中的交互，相关论文《Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors》发表于arXiv。未来计划引入手部运动专用鉴别器提升复杂操作的真实感。

本摘要由 AI 自动生成，可能与原文存在偏差。

查看引用/信息源请点击：映维网Nweon

人-物交互合成

（映维网Nweon 2025年07月03日）人-物交互（HOI）合成对于虚拟现实等多种应用都非常重要。但由于其复杂性和高成本，获取3D HOI数据具有挑战性。在一项研究中，香港大学，苏黎世联邦理工学院，斯坦福大学和腾讯团队提出了一种全新的zero shot HOI合成框架，不依赖于当前有限的3D HOI数据集的端到端训练。

方法的核心思想在于利用来自预训练多模态模型的广泛HOI知识。给定文本描述，系统首先使用图像或视频生成模型获得时间一致的2D HOI图像序列，然后将其提升到人类和物体姿态的3D HOI milestons。采用预训练的人体姿态估计模型提取人体姿态，并引入可泛化category-level六自由度估计方法来从二维HOI图像中获取目标姿态。估计方法适用于从文本到三维模型或在线检索得到的各种对象模板。

基于物理的追踪进一步应用于细化身体运动和物体姿态，以产生更物理上可信的HOI生成结果。实验结果表明，所述方法能够生成具有物理真实感和语义多样性的开放词汇HOI。

中外多机构联合研发Zero-Shot人机交互合成框架