苏黎世联邦理工与Meta提出自监督潜在空间实时物理模拟框架

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

为虚拟现实等计算资源受限的场景提供了可行的解决方案

映维网Nweon 2025年12月18日)苏黎世联邦理工学院与Meta Reality Labs开发了一种基于自监督学习的潜在空间动力学模拟框架。这项技术能够以极低的计算成本实现弹性物体的实时物理模拟,在保持高保真动态效果的同时,将计算效率提升了三个数量级,为虚拟现实等计算资源受限的场景提供了可行的解决方案。

苏黎世联邦理工与Meta提出自监督潜在空间实时物理模拟框架

物理模拟是构建逼真虚拟环境的核心技术,尤其在对弹性物体如头发、布料、软体等的动态建模中至关重要。传统基于有限元的模拟方法虽然能够生成高质量的物理动画,捕获物体在受力后的自然变形和运动轨迹,但其计算复杂度极高,需要在每个时间步求解包含数千甚至数万个自由度的非线性系统。即便是最先进的优化算法,都难以在普通CPU实现实时运行。

子空间模拟方法通过将系统投影到低维基上来减少计算负担,提供了速度与通用性之间的有效折衷。然而,大多数现有方法在时间步进过程中依然需要频繁评估全空间能量及其导数。这种全空间评估需要大量的计算资源,阻碍了它们在计算能力有限的设备上的部署。因此,即使采用子空间模拟方法,实现真正的实时性能仍然是一个难以实现的目标。

创新方法:完全在潜在空间中运行的神经网络积分器

针对上述问题,研究团队提出了一种全新的两阶段框架,将动态模拟完全置于低维潜在空间中执行,彻底摆脱了对全维空间计算的依赖。

在第一阶段,团队利用深度自动编码器将高维顶点位置数据压缩到低维潜在空间。编码器网络将每一帧的顶点位置映射为紧凑的潜在向量,而解码器网络则负责将这些潜在向量重建回全维空间。为了提高重建质量并抑制高频伪影,研究团队采用了特殊的技术手段:使用PCA基来初始化编码器的第一层和解码器的最后一层,这为神经网络训练提供了良好的起点。

针对不同类型的物体,团队设计了专门的相对编码策略:对于头发丝,采用根部相对编码,即沿着给定头发的每个顶点都编码为到根部的相对距离;对于布料和固体例子,则编码网格顶点相对于狄利克雷顶点平均位置的位置。

在第二阶段,团队训练了一个轻量级多层感知机作为潜在空间积分器。这个神经网络以前两个时间步的潜在状态(zt-1, zt-2)以及当前和前两个时间步的边界条件(pt, pt-1, pt-2)作为输入,直接预测下一帧的潜在向量zt。关键在于,该积分器采用了一种创新的自监督学习策略,其损失函数并非传统的L2误差,而是建立在全空间物理能量基础上的变分隐式欧拉损失。

具体而言,损失函数包含四个关键组成部分:基于连续三个位置计算的惯性能量、外部力产生的能量、用于强制执行边界条件的二次惩罚势能,以及物体固有的弹性势能。这个损失函数与离线全空间仿真中最小化的目标函数完全一致,但优化变量从位置变量转变为神经网络权重和偏置参数。

关键技术突破:数据增强与平衡策略保障长期稳定性

为确保在自回归推理中的长期稳定性——即使用网络自身预测作为后续步骤的输入时不会发散——团队提出了两项关键的训练策略:

训练噪点注入技术通过在每个训练批次中,对输入的前两个潜在向量添加均匀分布噪点来实现数据增强。具体来说,噪点幅度被设置为该批次标准差的10%,同时保持边界条件不变。这种方法使网络在训练过程中能够接触到非平衡状态,而无需生成额外的训练数据,从而显著提升了对推理过程中累积误差的鲁棒性。

数据平衡归一化策略解决了不同系统能量水平差异导致的梯度不平衡问题。研究团队观察到,较高能量状态往往主导梯度下降过程,导致低能量系统的预测精度下降。为此,他们提出了基于平均速度的损失归一化方法:将每个数据点的损失除以上一帧的平均速度模长,其中平均速度通过前两个时间步的全空间位置计算得到。这种方法有效防止了高能状态主导优化过程,确保了在不同能量状态下都能获得准确的结果。

苏黎世联邦理工与Meta提出自监督潜在空间实时物理模拟框架

实验结果:多领域验证与性能对比分析

研究团队在多个具有挑战性的例子上评估了该方法,包括离散弹性杆、离散弹性壳和体积有限元,证明了其广泛的适用性。

在头发摆动与旋转实验中,系统仅用4维潜在空间就实现了对10,800自由度数头发丝的动态模拟。训练数据包含12个不同序列,边界条件速度从10 m/s到120 m/s以10 m/s为增量变化。在测试时,即使从超出训练分布的高速开始并突然降低一个数量级,网络也能平滑适应这些边界条件变化,单帧推理时间仅需0.72毫秒。

在布料模拟实验中,团队模拟了一个具有StVK拉伸能量和基于铰链的弯曲能量的离散弹性壳在重力影响下的行为。通过固定布料的两个角点并沿线性轨迹以变化速度动画化它们,训练仅使用序列前750帧数据,就能在后续帧上生成符合边界条件的逼真运动,包括自然的褶皱形成和动态摆动。

在实体变形实验中,倒置的犰狳模型和附着在刚性兔子头上的兔子耳朵在复杂边界运动下展现了真实的非线性变形行为。训练分别使用序列的前60%数据(780帧和540帧),测试在完整序列(1300帧和900帧)上仍保持稳定,准确捕捉了重力作用下耳朵的动态运动和头部运动变化的影响。

性能对比分析显示,该方法在CPU上的推理速度比传统全空间模拟快1000倍以上。具体而言,头发旋转例子的全空间模拟需要268毫秒每帧,而该方法仅需0.72毫秒;犰狳例子的全空间模拟需要136.8毫秒每帧,该方法仅需0.489毫秒。更重要的是,即使与最先进的基于优化的潜在空间积分方法相比,该方法的完整推理时间(包括积分和解码)也比计算单个雅可比向量积的操作更为高效。

当前局限性与未来研究方向

尽管该方法实现了30 FPS的实时模拟,但目前尚不支持可变帧率测试,且所学的非线性子空间受限于单一几何和拓扑结构。研究人员观察到,虽然预测结果稳定,但与真实仿真数据相比存在动能损失的现象。未来工作将探索跨几何泛化技术、接触处理机制、材料参数变化支持等方向,并尝试将框架扩展至真实捕获数据,而非仅依赖于仿真数据。

相关论文Self-supervised Learning of Latent Space Dynamics

https://arxiv.org/pdf/2507.07440

总的来说,这项研究通过将物理规律深度融入神经网络训练过程,实现了高效、稳定且可泛化的动态模拟,为在便携设备上实现逼真物理效果开辟了新的技术途径,有望推动虚拟现实等领域的进一步发展。

本文链接https://news.nweon.com/136813
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯