EgoWorld框架实现从第三人称视角到第一人称视角的转换
将第三人称视角转换为第一人称视角
(映维网Nweon 2025年11月06日)自中心视觉(Egocentric vision)对于视觉理解至关重要,特别是在捕获操作任务所需的详细手部-物体交互方面。将第三人称视角转换为第一人称视角,能极大地惠及增强现实和虚拟现实等应用。然而,当前的外中心(exocentric)到自中心(egocentric)视角转换方法受限于其对2D线索、同步多视角设置以及不现实假设(例如在推理过程中需要初始自中心帧和相对camera姿态)的依赖。
为了克服所述挑战,LG,韩国科学技术院,英国牛津大学团队入了EgoWorld。这个新颖的两阶段框架能够从丰富的外中心观察(包括投影点云、3D手部姿态和文本描述)中重建自中心视角。所提出方法从估计的外中心深度图重建点云,将其重投影到自中心视角,然后应用基于扩散模型的修复技术来生成密集、语义连贯的自中心图像。在H2O和TACO数据集上的评估表明,EgoWorld实现了最先进的性能,并展示了对新物体、动作、场景和主体的强大泛化能力。另外,即使在未标记的真实世界示例上,EgoWorld都显示出有希望的结果。

自中心视觉在推进人类和智能系统的视觉理解方面扮演着关键角色。自中心视角对于捕获详细的手部-物体交互特别有价值,并在烹饪、组装或演奏乐器等技能密集型任务中至关重要。然而,大多数现有资源是从第三人称视角录制,这主要是由于头戴式摄像头和可穿戴录制设备的可用性有限。因此,从外中心输入生成或预测自中心图像的能力,对于增强现实和虚拟现实等应用具有重大潜力。
另外,这种转换能力解锁了开发强大的、以用户为中心的世界模型,可捕获大规模实时感知、规划和交互所必需的空间和时间细节。尽管外中心到自中心的视角转换前景广阔,但它依然是计算机视觉中一个特别困难的挑战。主要障碍源于第三人称和第一人称视角之间巨大的视觉和几何差异。
自中心视角侧重于手部和物体,具有精确操作所需的精细细节,而外中心视角提供了更广泛的背景和运动学线索,但缺乏对这些复杂交互的强调。由于遮挡、视野受限以及不同视角间的外观变化等因素,桥接这些视角本质上是欠约束的,无法仅通过几何对齐来解决。例如,像书本内页这样的元素在外中心视角中可能完全被遮挡,但仍然需要在自中心输出中进行真实推断。同时,在外中心视角中不可见的自中心视角的背景细节重建是一项不简单的任务。
最近,扩散模型的显著成就为将生成技术应用于外中心到自中心视角转换任务开辟了新的可能性。然而,许多现有方法依赖于限制性的输入条件,例如多视图图像、已知的相对camera姿态或参考自中心帧以生成后续帧,这使得它们在只有单视图图像可用的场景中不实用。
更近期的Exo2Ego尝试从单个外中心图像生成自中心视图。然而,它在很大程度上依赖于准确的2D手部布局预测来进行结构转换,这在遮挡、视角模糊或杂乱环境的情况下可能不可靠。另外,它难以泛化到新环境和物体,常常过拟合训练数据集。总体而言,当前方法缺乏对外中心观察的详细理解,而这对于从第一人称视角合成精确且真实的手部-物体交互是必要的。
为了应对当前方法的局限性,LG,韩国科学技术院,英国牛津大学团队提出了EgoWorld。这个新颖的框架利用丰富的外中心观察将外中心视图转换为自中心视图,如图1所示。所提出方法采用两阶段流程来重建自中心视图:(1) 从外中心视图提取多样化的观察,包括投影点云、3D手部姿态和文本描述;(2) 基于这些提取的线索重建自中心视图。
在第一阶段,通过将输入的外中心RGB图像与经过尺度对齐的估计外中心深度图相结合,并使用3D外中心手部姿态进行空间校准,来构建一个点云。然后,使用从两个视角预测的3D手部姿态计算出的平移矩阵,将该点云变换到自中心视角。点云投影后,获得一个稀疏的自中心图像,随后使用基于扩散的模型将其重建为密集、高质量的自中心图像。
为了进一步增强手部-物体重建的语义对齐和视觉保真度,在重建过程中加入了预测的外中心文本描述和估计的自中心手部姿态。研究人员通过在H2O和 TACO数据集(它们提供了标注良好的外中心和自中心视频对)上进行大量实验来评估EgoWorld的有效性。所提出方法在此基准测试中实现了最先进的性能。因此,得益于其端到端的设计,EgoWorld在各种场景(包括未见过的物体、动作、场景和主体)中展示了强大的泛化能力。同时,团队在未标记的真实世界示例上进行了测试,而EgoWorld显示出强大的in-the-wild泛化能力,这意味着EgoWorld可以扩展到现实世界的用例中。
为了将EgoWorld与相关工作进行比较,考虑了几种最先进的方法:
pix2pixHD,一种单视图图像到图像转换模型;
pixelNeRF ,一种可泛化的神经渲染方法,通过将像素对齐特征与NeRF风格的体积渲染相结合,从一个或几个图像合成新视图;
CFLD,一种coarse-to-fine的latent扩散框架,在生成过程的不同阶段解耦姿态和外观信息。
基于在H2O上针对4个未见场景进行的实验,所提出方法在所有指标上均优于基线,达到了最先进的性能。如表1所示,pix2pixHD和pixelNeRF在所有场景中表现均较差。CFLD基于给定的手部姿态图生成视图感知的人物图像合成,在视图变化下表现出比pix2pixHD和pixelNeRF更强的性能。然而,其能力主要局限于转换手部区域,在重建未见区域(如物体和场景)时表现不佳。相比之下,EgoWorld成功地从外中心视角重建信息,并以在自中心视角中连贯自然的方式呈现,在所有未见场景的所有指标上均优于最先进的方法。

具体来说,在未见物体场景中,与CFLD相比,EgoWorld在FID、PSNR、SSIM和LPIPS上分别显示出约30.67%、16.84%、10.66%和23.42%的显著性能提升。在未见动作场景中,其提升分别约为34.68%、9.78%、5.30%和17.70%。在未见场景中,其提升分别约为23.04%、6.37%、9.77%和4.71%。在未见主体场景中,其提升分别约为25.42%、15.30%、13.12%和1.29%。特别是,显著的FID改进归因于模型生成的图像更接近ground-truth,尤其是在占据图像大部分区域的背景区域。

相比之下,基线模型生成的背景常常与真实情况显著不同。如图3所示,pix2pixHD生成的自中心图像带有明显噪点,而pixelNeRF生成的输出模糊,缺乏精细细节。依赖于基于标签图的图像到图像转换的pix2pixHD似乎不适合解决外中心到自中心的视角转换问题。类似地,pixelNeRF是为从多个输入视图进行新视图合成而设计的,使其不太适合单视图到单视图的转换任务。相比之下,CFLD能有效重建手部姿态,但无法转换关于物体和场景的详细信息,常常导致不真实的物体或完全无关的背景。
EgoWorld则有效利用了来自外中心视角的多样化信息,包括姿态图、文本描述和稀疏地图,即使在涉及物体和场景等复杂元素的具有挑战性的未见场景中,都能实现稳健的性能。另外如图4所示,EgoWorld即使在包含比H2O更多样物体和动作的TACO数据集上也表现出强大的泛化性能。与难以重建手部区域以外信息的CFLD不同,EgoWorld显示出卓越的能力,不仅能恢复手部,还能恢复交互的物体和周围场景。这些结果证实了EgoWorld能够在多样领域提供稳健的性能。更多的比较结果将在附录中讨论。
为了评估在未标记真实世界示例上的in the wild泛化能力,在EgoWorld上与一个最先进的基线模型进行了实验。他们采集了人们用手与任意物体交互的in the wild图像。请注意,团队仅依赖于使用智能手机(iPhone 13 Pro)捕获的单个RGB图像,并应用如图2所示的完整流程。除了这个单一的外中心图像外,没有使用任何额外信息。研究人员使用在H2O的未见动作场景上训练的模型的预训练权重,并选择CFLD作为基线,因为它在主要实验中显著优于其他方法。

如图5所示,CFLD生成的自中心图像看起来不自然,过度偏向于H2O中的训练图像,并且与新的交互场景不一致。相比之下,EgoWorld通过有效利用稀疏地图,生成了逼真、自然的自中心视图,在未见和真实世界设置中展示了强大的泛化能力。这些结果突显了EgoWorld在野外场景中的鲁棒性,并且通过在多样化数据集上进行进一步训练,我们相信它具有强大的实际应用潜力。

为了验证每种模态的贡献,团队进行了消融研究。如表2所示,当同时提供姿态和文本信息时,所有指标均达到最佳性能。值得注意的是,如图6所示,缺少文本会导致对未见物体的错误重建。相比之下,当文本可用时,从外中心图像预测的文本物体信息被有效地反映在自中心视图重建中,从而产生更合理的输出。另外,手部姿态信息的存在使得EgoWorld能够生成更接近ground-truth的手部配置。这些验证了EgoWorld在同时利用姿态和文本观察时表现最佳。
由于自中心视图重建与图像补全任务非常相似,团队将所提出方法与最先进的图像补全主干网络进行了比较,例如MAE、MAT和LDM。具体来说,MAE专门用于基于掩码的图像编码,使其能有效填充缺失像素区域。MAT是一种基于Transformer的模型,擅长通过长程上下文建模恢复大的缺失区域。LDM作为EgoWorld的基线,其不同之处在于能够以文本和姿态等多种模态为条件。

如图7所示,团队基于LDM的方法以比其他方法更自然和高质量的方式重建自中心视图图像。尽管原始MAT模型在填充缺失区域方面表现良好,但它常常难以与周围内容保持一致。例如,可以注意到桌子颜色的细微差异。为了解决这个问题,他们开发了一个改进版的MAT,使用随机块掩码和恢复。然而,这种方法往往无法保持详细局部交互(如手部-物体交互)的完整性。相比之下,基于LDM的方法通过在潜在空间中添加和去除噪点进行操作,不仅在局部区域实现了连贯的恢复,而且还保持了与现有区域的一致性。如表3所示,所提出方法在所有评估指标上均定量地优于所有其他方法。因此,基于这些结果,采用LDM作为EgoWorld的主干网络。
相关论文:EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations
总的来说,团队提出的EgoWorld是一个新颖的框架,它可以利用丰富的多模态外中心线索将外中心观察转换为自中心视图。这个两阶段方法首先提取外中心观察(如投影点云、3D手部姿态和文本描述),然后通过一个以姿态和文本为条件的扩散模型,从稀疏的自中心地图生成真实的自中心图像。在H2O和TACO基准测试上进行的大量实验验证了EgoWorld的有效性和优越性。在各种具有挑战性的场景中,包括未见过的物体、动作、场景和主体,它在所有指标上始终优于现有基线。另外,与最先进技术相比,EgoWorld在未标记的真实世界样本上显示出强大的泛化能力,这意味着EgoWorld足以扩展到野外场景。这些结果证明了EgoWorld作为一种从外中心输入进行自中心视图合成的强大且多功能的解决方案的潜力,为跨视图理解和生成的未来研究铺平了道路。
当然,虽然有效,但EgoWorld依赖于准确的3D手部姿态和深度估计,在遮挡或噪点下可能会性能下降。它在处理稀有物体类别或模糊姿态配置时可能会遇到困难。社会效益包括在辅助技术和AR中的应用,但风险涉及潜在的隐私滥用。未来的研究可以专注于提高模型在具有挑战性的视觉条件下的鲁棒性,整合视频序列中的时间信息以实现更一致的重建,以及将框架扩展到多人或多物体交互。


