韩国技术研究员开发基于文本输入实现精确3D手部交互运动的技术
查看引用/信息源请点击:techxplore
基于文本引导下生成三维手-物交互序列
(映维网Nweon 2024年07月05日)韩国蔚山科学技术院的研究团队开发了一种可以通过简单文本输入来实现精确3D运动的技术,无需复杂的初始设置。
Text2HOI能够通过文本命令执行对象交互操作。由于其简化的设置过程,它的应用范围广泛,横跨各个行业,包括VR/AR、机器人和医疗保健。
由于缺乏标记数据,现有的ground truth数据集在交互类型和对象类别方面远不能泛化,阻碍了对文本提示中具有正确物理含义的不同3D手-对象交互的建模。为了应对这一挑战,团队建议将交互生成任务分解为两个子任务:手-对象接触生成;以及手对象运动生成。
对于接触生成,基于VAE的网络将文本和对象网格作为输入,并生成交互过程中手的表面和对象之间接触的概率。网络学习不同对象的各种局部几何结构,其中结构独立于对象的类别,所以它能够适用于一般对象。
对于运动生成,基于Transformer的扩散模型利用3D contact map作为强有力的先验,通过从增强的标记数据集中学习来生成作为文本提示的函数的物理合理手-物运动。其中,团队注释来自诸多现有的3D手-物运动数据的文本标签。
......(全文 743 字,剩余 332 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限