雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

武汉大学等探索基于空间约束的扩散模型生成逼真人类感知3D场景

查看引用/信息源请点击:映维网Nweon

同时考虑所有输入和平面图以生成可信3D场景

映维网Nweon 2024年12月30日)从人体运动序列生成3D场景支持一系列的应用,包括虚拟现实。然而,之前基于自回归的人类感知3D场景生成方法难以准确捕获多个对象和输入人类的联合分布,经常导致在同一空间中产生重叠的对象。

为了解决这一限制,武汉大学,Hedra和京东探索研究院团队探索了同时考虑所有输入和平面图以生成可信3D场景的扩散模型潜力。

所提出方法不仅满足所有输入的人类交互,而且符合平面的空间限制。另外,研究人员引入了两种空间碰撞引导机制:人-物碰撞避免机制和物-室边界约束机制。它们有助于避免生成与人类动作冲突的场景,同时尊重布局约束。

为了提高人类引导的场景生成的多样性和准确性,他们开发了一个自动化的管道,提高了现有3D FRONT HUMAN数据集中人类与物体交互的多样性和合理性。

在合成和现实世界数据集进行的大量实验表明,相关框架可以通过精确的人机交互生成更自然、更可信的3D场景,同时显著减少了人与物体的碰撞。

创造人类居住的多样化和逼真3D环境对于VR等应用至关重要。这种需求促使研究人员探索不同的场景生成方法,推动了3D场景合成的快速发展。尽管取得了进展,但在生成符合各种人类动作的视觉合理场景方面依然存在重大挑战。

致力于人类感知场景生成问题的研究激增。在相关研究中,常见的方法是学习一个自回归模型,根据输入的人和已生成物体顺序放置物体。然而,它们通常会产生难以置信的物体与物体碰撞场景。这种限制主要是由于自回归模型无法充分捕获多个物体和多个人类的联合分布。

所以,探索一种能够有效地建模和捕获复杂分布的生成方法对于生成逼真3D场景至关重要。最近,基于扩散的场景合成方法在简化物体联合分布近似方面表现出了令人印象深刻的能力,它可以一次生成整个场景,并增强生成场景的真实感。同时,一系列图像生成方面的研究证明,扩散模型可以有效地结合推理指导来满足用户定义的目标。

尽管有了上述进步,但目前依然没有标准的解决方案来生成合理的3D场景,既支持各种人类互动,又遵守空间限制,如避免运动碰撞和尊重房间边界。

所以,武汉大学,Hedra和京东探索研究院团队提出了SHADE,一个基于空间约束的人类感知扩散的3D环境合成。

如图1所示,所述方法可以生成合理的场景布局,避免与人类和物体之间的碰撞,同时支持各种人类活动,如坐着和躺着。研究人员的关键见解在于创新利用扩散模型,同时输入所有人和楼层平面图,以生成整体对象配置。

具体来说,输入从输入的人体运动和平面图中提取的接触边界框和自由空间。然后,学习一个扩散模型来捕获物体的联合分布,从而能够同时生成物体的位置并理解它们属性之间的关系。

为了进一步增强生成场景的合理性,团队设计了两个空间碰撞引导功能:

  • 运动碰撞避免,计算物体与移动的人之间的碰撞比率,以防止不合理的穿透;

  • 边界约束,惩罚物体延伸到平面之外的距离,确保物体放置尊重房间边界。

在推理过程中,将两个制导函数与一个对象-对象碰撞函数结合在一起。这允许扩散模型生成尊重人类运动、房间边界和防止物体重叠的无碰撞场景。

除了模型设计,研究人员同时通过解决3D FRONT HUMAN等数据集中的关键数据挑战来增强人类感知的场景生成。具体来说,他们解决了两个主要问题:

  • 人-物交互中的错误穿透阻碍了准确的空间关系建模

  • 有限的交互多样性限制了模型的泛化

研究使用校准的数据集来训练SHADE,并在合成数据集和真实数据集对其进行评估。结果表明所述方法产生了更逼真的人-场景交互的3D场景,并有效地减少了人-物体的碰撞。

相关论文Human-Aware 3D Scene Generation with Spatially-constrained Diffusion Models

不过,SHADE存在一定的限制。首先,所有生成的场景都是静态的,这意味着目前的方法不能适应复杂的人类交互中涉及的动态对象,比如移动床头柜。

所以在未来的工作中,研究人员将探索建模人与动态对象之间的相互作用。另外,未来的研究可以探索人类与地面的相互作用或在场景生成过程中纳入接触感知文本描述,从而能够支持更广泛的人类运动。

本文链接https://news.nweon.com/126754
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯