雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

CVPR2021 Part 1:百篇AR/VR关联性研究成果汇总

查看引用/信息源请点击:映维网

或能应用于增强现实/虚拟现实的部分论文及相关摘要

映维网 2021年07月07日)2021年计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition;CVPR)早前已经公布了收录的论文,涵盖对象映射与渲染,3D人类姿态生成,语义分割和透明对象关键点估计等一系列的计算机视觉研究。

延伸阅读CVPR2021 Part 1:百篇AR/VR关联性研究成果汇总

延伸阅读CVPR2021 Part 2:百篇AR/VR关联性研究成果汇总

延伸阅读CVPR2021 Part 3:百篇AR/VR关联性研究成果汇总

下面映维网整理了或能应用于增强现实/虚拟现实的部分论文及相关摘要,一共分三篇,这是第一篇:

1. Polka Lines: Learning Structured Illumination and Reconstruction for Active Stereo

从结构光捕获中恢复深度的主动立体摄像头已成为三维场景重建和跨应用领域理解任务的基础传感器。主动立体摄像头在对象表面投影一个伪随机点图案,以独立于对象纹理提取视差。这种手动制作的图案是在与场景统计、环境照明条件和重建方法隔离的情况下设计而成。在这项研究中,我们提出了一种方法来共同学习结构化照明和重建。我们提出了一种基于波动光学和几何光学的主动立体可微成像模型和三目重建网络。我们将这种联合优化图案称为“Polka Line”,而连同重建网络,它们能够在整个成像条件下实现精确的主动立体深度估计。

相关论文:Polka Lines: Learning Structured Illumination and Reconstruction for Active Stereo

2. Visually Informed Binaural Audio Generation without Binaural Audios

立体声音频,尤其是双耳音频,在沉浸式环境中起着至关重要的作用。最近的研究探索了通过多声道音频采集监督的立体声音频。但由于专业记录设备的要求,现有的数据集在规模和种类方面受到限制,从而阻碍了监督方法在现实场景中的推广。我们在这项研究中提出了PseudoBinaural,一个无需双耳录音的有效管道。关键的洞察是仔细建立伪视觉立体对与单声道数据的训练。具体来说,我们利用球谐分解和头相关脉冲响应(HRIR)来确定空间位置和接收到的双耳音频之间的关系。然后在视觉模态中,单声道数据的相应视觉线索手动放置在声源位置以形成对。与完全监督模式相比,我们的管道在交叉数据集评估中表现出极大的稳定性,并且在主观偏好下达到了相当的性能。

相关论文:Visually Informed Binaural Audio Generation without Binaural Audios

3. Dual Attention Guided Gaze Target Detection in the Wild

注视目标检测的目标是推断场景中每个人的注视点。现有的研究主要集中在二维注视和二维显著性,没有充分利用三维背景。在这项研究中,我们提出了一个三阶段方法来模拟人类在三维空间中的注视推理行为。在第一阶段,我们引入一个由粗到精的策略来稳健地估计头部的三维注视方向。预测的注视分解为图像平面的平面注视和深度通道注视;在第二阶段,我们开发了一个Dual Attention Module(DAM),它利用平面注视产生视场,并根据深度通道注视来屏蔽受深度信息调节的干扰对象;在第三阶段,我们使用双注视作为引导以执行两个子任务:(1)识别注视目标是在图像内部还是外部,(2) 如果目标在里面的话,定位目标。

相关论文:Dual Attention Guided Gaze Target Detection in the Wild

4. Privacy Preserving Localization and Mapping from Uncalibrated Cameras

对于解决混合现实和机器人技术中的云端解决方案所引起的线条特征隐私问题,最近的研究在已经取得了重大进展。对校准摄像头的要求是所述方法的一个基本限制,这妨碍了它们在众多众包映射场景中的应用。在本文中,我们针对未经校准的隐私保护定位和映射问题提出了一个解决方案。我们的方法同时从线条特征恢复摄像头的内在和外在校准。这使得未经校准的设备既可以在现有映射中定位自己,又可以对映射作出贡献,并且同时保护图像内容的隐私。

相关论文:Privacy Preserving Localization and Mapping from Uncalibrated Cameras

5. Pixel-aligned Volumetric Avatars

图片真实感人头获取与绘制是一个极具挑战性的研究课题,对虚拟临场感的实现具有特别重要的意义。对于目前最高质量的方法,其主要是通过在多视图数据以特定于人的方式所训练的体三维方法来实现。与更简单的基于网格的模型相比,这种模型能够更好地表示头发等精细结构。体三维模型通常使用一个全局代码来表示面部表情,这样它们就可以由一组小的动画参数来驱动。尽管这样的架构实现了令人印象深刻的渲染质量,但它们不容易扩展到多标识设置。在本文中,我们设计的方法只需给予少量的输入即可预测体三维化身的人头。我们通过一种新的参数化方法来将神经辐射场与直接从输入中提取的局部像素对齐特征结合起来,从而避免了对深度或复杂网络的需求。我们的方法是以端到端的方式训练,完全基于光度重渲染损失,不需要显式3D监督。

相关论文:Pixel-aligned Volumetric Avatars

6. Monocular Depth Estimation via Listwise Ranking Using the Plackett-Luce Model

在许多实际应用中,对象在图像中的相对深度对于场景理解至关重要。目前的方法主要是将单目图像的深度预测问题作为一个回归任务来处理。在本文中,我们详细阐述了将所谓的listwise排序作为pairwise方法的泛化。我们的方法是基于Plackett-Luce(PL)模型,一种基于排名的概率分布,并结合最先进的神经网络结构和简单的采样策略来降低训练复杂度。另外,利用PL作为随机效用模型的表示,我们提出的预测器提供了一种从训练时提供的仅排名数据中恢复度量深度信息的自然方法。

相关论文:Monocular Depth Estimation via Listwise Ranking Using the Plackett-Luce Model

7. Holistic 3D Scene Understanding from a Single Image with Implicit Representation

我们为从单张图像理解holistic 3D场景提出了一个新管道,其可以预测对象形状,对象姿态和场景布局。由于这是一个高度不适定的问题,现有的方法通常会遇到形状和布局估计不准确的问题,特别是对于杂乱的场景,对象之间存在严重的遮挡。我们建议利用最新的深层隐式表示来解决这个问题。我们不仅提出了一种基于图像的局部结构化隐式网络来改进目标形状估计,而且通过一种利用隐式局部目标特征的隐式场景图神经网络来细化三维目标的姿态和场景布局。另外,我们提出了一种新的物理冲突损失方法,以避免对象间的情景错误。

相关论文:Holistic 3D Scene Understanding from a Single Image with Implicit Representation

8. DeepI2P: Image-to-Point Cloud Registration via Deep Classification

本文提出了DeepI2P:一种新的图像与点云跨模态配准方法。给定在同一场景中不同位置捕获的图像(例如来自rgb摄像头)和一般点云(例如来自3D激光雷达扫描仪),我们的方法估计摄像头和激光雷达坐标帧之间的相对刚性变换。由于两种模式之间缺乏外观和几何相关性,所以学习公共特征描述符来建立配准对应具有内在的挑战性。我们通过将配准问题转化为分类和逆摄像头投影优化问题来规避这一困难。我们同时设计了一种分类神经网络,将其用于标记点云中每个点的投影是在摄像头截锥体的内部还是外部。这些标记点随后被传递到一个新的逆摄像头投影解算器来估计相对姿态。

相关论文:DeepI2P: Image-to-Point Cloud Registration via Deep Classification

9. OpenRooms: An Open Framework for Photorealistic Indoor Scene Datasets

我们提出了一个新的框架来创建室内场景的大规模照片级真实感数据集,包括ground truth几何、材质、光照和语义。我们的目标是提高数据集创建过程的可访问性,将扫描转换为具有高质量外观、布局、语义标签、空间变化BRDF和复杂照明的照片级真实感数据集。我们证明,在所提出的数据集上训练的深度网络在真实图像的形状、材质和光照估计方面具有很好的性能。我们同时展示了我们的语义标签可以用于分割和多任务学习。最后,我们证明了我们的框架可以与物理引擎集成。

相关论文:OpenRooms: An Open Framework for Photorealistic Indoor Scene Datasets

10. SliceNet: deep dense depth estimation from a single indoor panorama using a slice-based representation

我们提出了一种新的深度神经网络来估计单目室内全景图的深度图。所述网络直接支持等矩形投影,从而充分利用室内360度图像的特性。从重力在室内场景设计和构建中的重要作用出发,我们提出了一种将场景紧凑地表示为球体垂直切片的方法,并利用切片间的长短期关系来恢复等矩形深度映射。我们的设计使得在提取的特征中保持高分辨率的信息成为可能。

相关论文:SliceNet: deep dense depth estimation from a single indoor panorama using a slice-based representation

11. Pulsar: Efficient Sphere-based Neural Rendering

我们提出了一个基于球体的可微渲染器Pulsar。由于与PyTorch紧密集成,它比竞争技术快几个数量级,模块化,且易于使用。微分渲染是现代神经渲染方法的基础,因为它能够实现从图像观察到的三维场景表示进行端到端训练。然而,基于梯度的神经网格、体素或函数表示的优化面临多重挑战:拓扑不一致、内存占用高或渲染速度慢。为了缓解这些问题,Pulsar采用了:1)基于球体的场景表示,2)高效的可微渲染引擎,3)神经着色。使用球体作为场景表示,在避免拓扑问题的同时可以获得前所未有的速度。Pulsar完全可微,所以可以实现从三维重建到一般神经渲染的大量应用。

相关论文:Pulsar: Efficient Sphere-based Neural Rendering

12. STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering

我们提出的STaR可以在不需要任何人工注释的情况下,从多视点RGB视频中对具有刚性运动的动态场景执行自监督跟踪和重建。最近的研究表明,神经网络在将一个场景的许多视图压缩成一个学习函数方面是出人意料的有效。遗憾的是,一旦场景中的任何对象发生移动,所述方法就失去了所有的预测能力。在这项探究中,我们显式建模对象的刚性运动。不需要任何额外的人类指定监督,通过同时将其分解成两个组成部分,并用自己的神经表示编码每一个,我们可以重建一个包含单一刚性对象在运动的动态场景。我们通过联合优化两个神经辐射场的参数和一组刚性姿态来实现这一点。

相关论文:STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in Motion with Neural Rendering

13. Monocular Real-time Full Body Capture with Inter-part Correlations

我们提出了一种实时全身捕捉的方法,其可以从一幅单色图像中估计出身体和手部的形状和运动,以及一个动态的三维人脸模型。我们的方法使用了一种利用身体和手部之间相关性的神经网络结构,其具有很高的计算效率。与以前的研究不同,我们的方法是在多个分别专注于手部,身体和人脸的数据集上联合训练,不需要同时对所有部分进行注释的数据。这种多数据集训练的可能性使其具有优越的泛化能力。与早期的单目全身方法相比,我们的方法通过估计统计人脸模型的形状、表情、反照率和光照参数来捕捉更具表现力的三维人脸几何结构和颜色。

相关论文:Monocular Real-time Full Body Capture with Inter-part Correlations

14. ContactOpt: Optimizing Contact to Improve Grasps

手部和对象之间的物理接触在人类的抓握中起着至关重要的作用。我们发现,通过优化手部姿态来实现与目标的预期接触,可以改善通过基于图像的方法所推断出的手部姿态。给定一个手部网格和一个对象网格,一个基于ground truth接触数据训练的深层模型可以推断出网格表面的理想接触。然后,ContactOpt使用可微的接触模型来有效地优化手部姿势以获得理想的接触。值得注意的是,我们的接触模型鼓励网格穿透来近似手部可变形的软组织。

相关论文:ContactOpt: Optimizing Contact to Improve Grasps

15. Plan2Scene: Converting Floorplans to 3D Scenes

我们要解决的任务是将一个平面图和一组住宅相关照片转换成一个具有纹理的三维网格模型,我们将我们的系统称之为Plan2Scene。我们的系统可以:1)将平面图图像提升为三维网格模型;2) 根据输入的照片合成表面纹理;以及3)使用图神经网络结构推断未观察表面的纹理。为了训练和评估我们的系统,我们创建了室内表面纹理数据集,并用校正的表面裁剪和附加注释扩充先前研究的平面图和照片数据集。定性和定量评估表明,我们的系统产生了逼真的三维室内模型。

相关论文:Plan2Scene: Converting Floorplans to 3D Scenes

16. Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time

从一幅图像中估计三维手部和对象姿态是一个极具挑战性的问题:手和对象在交互过程中常常是自遮挡的,而且三维注释是稀缺的,因为即使是人类都无法直接从一幅图像中完美地标注出ground-truth。为了解决这些问题,我们提出了一个通过半监督学习来估计三维手部和对象姿态的统一框架。我们建立了一个联合学习框架。在这个框架中,我们通过一个转换器在手部和对象表示之间进行显式情景推理。在半监督学习中,我们超越了单一图像中有限的三维标注,利用大规模手部目标视频中的时空一致性作为生成伪标签的约束条件。通过根据不同视频进行大规模训练,我们的模型能更好地推广到多个域外数据集。

相关论文:Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time

17. Continual Semantic Segmentation via Repulsion-Attraction of Sparse and Disentangled Latent Representations

深度神经网络在学习新任务时存在着遗忘旧任务的缺陷。在本文中,我们主要研究语义切分中的类增量连续学习,其中新类别随着时间的推移而变得可用,而先前的训练数据不被保留。所提出的持续学习方案在形成隐空间以减少遗忘的同时提高了对新类的识别。我们的框架是由三个新组件驱动,我们同时可以轻松地将它们结合到现有技术之上。首先,原型匹配在旧类上强制隐空间一致性,约束编码器在后续步骤中为先前看到的类生成类似的隐表示。第二,特征稀疏化允许在隐空间中腾出空间来容纳新类。最后,采用对比学习的方法对特征进行语义聚类,同时对不同类别的特征进行拆分。对Pascal VOC2012和ADE20K数据集的广泛评估表明了我们方法的有效性。

相关论文:Continual Semantic Segmentation via Repulsion-Attraction of Sparse and Disentangled Latent Representations

18. Self-supervised Geometric Perception

我们提出了一种自监督几何感知(SGP),这是一个在没有任何ground-truth几何模型标签的情况下学习特征描述的通用框架。我们的第一个贡献是将几何感知表述为一个优化问题,联合优化了给定大量视觉测量数据的特征描述和几何模型。在这个优化公式下,我们证明了视觉中两个重要的研究方向,即鲁棒模型拟合和深度特征学习,分别对应于优化一个未知变量块和固定另一个未知变量块。这一分析自然导致了我们的第二个贡献:SGP算法,它执行交替最小化来解决联合优化问题。SGP迭代地执行两个元算法:一个teacher对给定的学习特征进行稳健的模型拟合以生成几何伪标签,另一个student在伪标签的噪点监督下进行深度特征学习。

相关论文:Self-supervised Geometric Perception

19. Stay Positive: Non-Negative Image Synthesis for Augmented Reality

在光学透明和投影仪增强现实等应用中,生成图像相当于解决非负图像生成问题,即只能向现有图像添加光。然而,大多数图像生成方法都不适合这种问题设置,因为它们假设可以为每个像素指定任意颜色。我们知道,人类的视觉系统可能会被涉及亮度和对比度的某些空间配置的光学错觉所欺骗。我们的关键洞察是,可以利用这种行为产生高质量的图像与可忽略的伪影。例如,我们可以通过使周围像素变亮来创建较暗斑块的假象。我们提出了一个新的优化过程来产生同时满足语义和非负性约束的图像。我们的方法可以结合现有的最先进方法,并在各种任务重表现出强大的性能。

相关论文:Stay Positive: Non-Negative Image Synthesis for Augmented Reality

20. 3D-to-2D Distillation for Indoor Scene Parsing

由于遮挡、对象变形和视点变化等原因,从RGB图像中进行室内场景语义分析具有非常大的挑战性。我们提出了一种新的方法3D到2D蒸馏框架,它使我们能够利用从大规模三维数据存储库中提取的3D特征来增强从RGB图像中提取的2D特征。我们的工作有三个新颖的贡献。首先,我们从预先训练好的3D网络中提取3D知识,监督2D网络在训练过程中从2D特征中学习模拟的3D特征,这样2D网络就可以在不需要3D数据的情况下进行推理。第二,我们设计了一个两阶段的维度标准化方案来校准2D和3D特征,以便实现更好地集成。第三,我们设计了一个语义感知的对抗性训练模型来扩展我们的框架,并用于训练不成对的三维数据。

相关论文:3D-to-2D Distillation for Indoor Scene Parsing

21. Large-scale Localization Datasets in Crowded Indoor Spaces

利用视觉定位来估计摄像头的精确位置可以实现有趣的应用,如增强现实或机器人导航。这在其他定位技术(如GNSS)无法支持的室内环境中尤其有用。室内空间对视觉定位算法提出了有趣的挑战:人的遮挡、无纹理的表面、大的视点变化、低光、重复的纹理等。现有的室内数据集要么相对较小,要么仅涵盖上述挑战的一个子集。在本文中,我们介绍了5个新的室内数据集,并用于在具有挑战性的真实环境中进行视觉定位。为了获得精确的ground truth摄像头姿态,我们开发了一种鲁棒的激光雷达SLAM。它提供初始姿态,然后使用基于运动优化的新结构对初始姿态进行细化。

相关论文:Large-scale Localization Datasets in Crowded Indoor Spaces

22. Scene-aware Generative Network for Human Motion Synthesis

人体运动合成对一系列的现实世界应用非常有用。尽管已有许多方法用于这一任务,但它们通常局限于两个方面:关注姿态而忽略位置运动,以及忽略环境对人体运动的影响。在本文中,我们提出了一个新的框架,其考虑了场景和人体运动之间的相互作用。考虑到人体运动的不确定性,我们将这一任务描述为一个生成性任务,其目标是在场景和人体初始位置上生成合理的人体运动。所述框架将人体运动的分布分解为以场景为条件的运动轨迹分布,以及以场景和轨迹为条件的人体姿态动力学分布。我们进一步推导了一种基于GAN的学习方法,使用鉴别器来增强人体运动和背景场景之间的兼容性,以及3D到2D的投影约束。

相关论文:Scene-aware Generative Network for Human Motion Synthesis

23. Exploring Sparsity in Image Super-Resolution for Efficient Inference

在空间上均匀分配计算资源的情况下,基于CNN的现有超分辨率(SR)方法对所有位置进行平均处理。然而,由于低分辨率(LR)图像中的细节缺失主要存在于边缘和纹理区域,相关区域只需要较少的计算资源。所以,基于CNN的现在方法在存在冗余计算,增加了计算量,限制了其在移动设备的应用。为了提高随机共振网络的推理效率,本文研究了图像随机共振的稀疏性。具体地说,我们开发了一个Sparse Mask SR(SMSR)网络来学习稀疏掩码,从而减少冗余计算。在我们的SMSR中,空间掩码学习识别“重要”区域,而信道掩码学习标记那些“不重要”区域中的冗余信道。

相关论文:Exploring Sparsity in Image Super-Resolution for Efficient Inference

24. StylePeople: A Generative Model of Fullbody Human Avatars

我们提出了一种基于参数化网格的人体模型与神经纹理相结合的新型全身人体化身。我们表明,借助于神经纹理,这样的化身可以成功地模拟衣服和头发。我们同时展示了如何使用反向传播从视频的多个帧中创建所述化身。然后,我们提出了一个生成模型,其可以从图像和视频数据集中训练化身。生成模型允许我们采样随机化身,或可以从一张或几张图片中创建穿衣化身。

相关论文:StylePeople: A Generative Model of Fullbody Human Avatars

25. SOE-Net: A Self-Attention and Orientation Encoding Network for Point Cloud based Place Recognition

针对点云数据的位置识别问题,我们提出了一种基于自注意和方向编码的网络SOE-Net。这个网络充分挖掘了点与点之间的关系,并将长程情景引入到点域描述中。PointOE模块捕获八个方向上每个点的局部信息,而局部描述符之间的长程特征依赖关系则使用自关注单元捕获。另外,我们提出了一种新的损失函数 Hard Positive Hard Negative quadruplet loss (HPHN quadruplet),它比常用的度量学习损失具有更好的性能。在各种基准数据集的实验表明,这个网络的性能优于目前最先进的方法。

相关论文:SOE-Net: A Self-Attention and Orientation Encoding Network for Point Cloud based Place Recognition

26. DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion

我们提出了一种基于姿态视频流的在线多视点深度预测方法,所述方法将前一个time step中计算出的场景几何信息以一种有效且几何合理的方式传播到当前time step中。我们方法的核心是一个实时的、轻量级的编码器-解码器,它依赖于从图像对计算出的成本量。我们通过在瓶颈层放置一个ConvLSTM单元来扩展它。我们方法的新颖之处在于,通过考虑time step之间的视点变化来传播单元的隐藏状态。给定time step,我们使用先前的深度预测来将先前的隐藏状态扭曲到当前摄影头平面。我们的扩展只带来了很小的计算时间和内存消耗开销,同时显著提高了深度预测。

相关论文:DeepVideoMVS: Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion

27. CodedStereo: Learned Phase Masks for Large Depth-of-field Stereo

传统的立体图像在成像体积和信噪比(SNR)之间有一个基本的权衡。受扩展景深摄像头的启发,我们提出了一种基于端到端学习的技术,通过在立体成像系统中的摄像头光圈平面引入相位掩模来克服这一限制。相位掩模创建了一个依赖于深度,但在数值上可逆的点扩展函数,这允许我们恢复锐利的图像纹理和立体对应。相位掩模模式、EDOF图像重建和立体视差估计都使用端到端学习的深度神经网络进行训练。我们同时构建了一个实验原型,并利用原型系统获得的实际结果对方法进行了验证。

相关论文:CodedStereo: Learned Phase Masks for Large Depth-of-field Stereo

28. Continuous Face Aging via Self-estimated Residual Age Embedding

人脸合成,特别是人脸老化,已经成为一个主要的主题。大多数现有的人脸老化方法将数据集划分为多个年龄组,并利用基于组的训练策略,这在本质上缺乏提供精细控制的连续老化合成能力。在这项研究中,我们提出的网络结构可以将线性年龄估计器嵌入到基于GAN的模型中。其中,嵌入的年龄估计器与编码器和解码器联合训练,以估计人脸图像的年龄,并为年龄进行/回归提供个性化的目标年龄嵌入。个性化目标年龄嵌入是通过结合当前年龄的个性化剩余年龄嵌入和目标年龄的样本人脸老化基来合成。相关公式提供了估计年龄和生成个性化老年人脸的统一视角,每个年龄都可以学习自估计年龄嵌入。对不同数据集的定性和定量评价进一步证明,与最新技术相比,持续面部老化方面有显著改善。

相关论文:Continuous Face Aging via Self-estimated Residual Age Embedding

29. DI-Fusion: Online Implicit 3D Reconstruction with Deep Priors

以前的在线3D密集重建方法难以在内存存储和表面质量之间取得平衡。本文提出了一种基于Probabilistic Local Implicit Voxels (PLIVoxs)的DI-Fusion(DI-Fusion)方法。我们的PLIVox编码场景先验同时考虑了局部几何和由深度神经网络参数化的不确定性。有了这样深度先验知识,我们能够进行在线隐式三维重建,并达到最先进的摄像头轨迹估计精度和映射质量,同时实现了更好的存储效率。

相关论文:DI-Fusion: Online Implicit 3D Reconstruction with Deep Priors

30. ChallenCap: Monocular 3D Capture of Challenging Human Performances using Multi-Modal References

捕捉具有挑战性的人体运动对于许多应用来说都至关重要,但它在单目环境下具有复杂的运动模式和严重的自遮挡。在本文中,我们提出了ChallenCap。这是一种基于模板的方法,其借助多模态参考和一个新颖的学习和优化框架来使用单个RGB摄像头捕捉具有挑战性的3D人体运动。我们提出了一种混合运动推理平台,其使用时间编码-解码器从成对稀疏视图参考中提取运动细节,并使用运动鉴别器以数据驱动方式来提取特定的运动特征。通过利用从监督的多模态参考中学习到的运动细节,以及从输入图像参考中获得的可靠运动提示,我们进一步采用稳健的运动优化阶段来提高追踪精度。

相关论文:ChallenCap: Monocular 3D Capture of Challenging Human Performances using Multi-Modal References

31. Zillow Indoor Dataset:Annotated Floor Plans With 360o Panoramas and 3D Room Layouts

我们介绍了Z Zillow Indoor Dataset(ZInD):这个大型室内数据集包含1524个无家具家庭的71474幅全景图。ZInD提供了三维房间布局、二维和三维楼层平面、楼层平面中的全景位置、以及窗门位置的注释。 ground truth建设花了1500多个小时的注释工作。据我们所知,ZInD是具有布局注释的最大真实数据集。它的一个独特属性是房间布局数据,其遵循真实世界的分布,而不是当前公共可用数据集中的主要长方体或曼哈顿布局。同时,本文所提供的比例尺和注释对房间布局和楼层平面分析的有效研究有一定的参考价值。为了证明ZInD的优点,我们对单全景和多视图配准的房间布局估计进行了基准测试。

相关论文:Zillow Indoor Dataset:Annotated Floor Plans With 360o Panoramas and 3D Room Layouts

32. Ego-Exo: Transferring Visual Representationsfrom Third-person to First-person Videos

我们介绍了一种利用大规模第三人称视频数据集对自我中心视频模型进行预训练的方法。从纯粹以自我为中心的数据中学习受到数据集规模和多样性的限制,而使用纯粹以外部为中心(第三人称)的数据则会带来很大的领域不匹配。我们的想法是,在第三人称视频中发现隐信号,而这些信号可以预测关键的自我中心特性。将这些信号作为预训练过程中的知识提取损失,可以得到既能从第三人称视频数据的规模和多样性中获益,又能捕获显著自我中心特性的表示的模型。实验表明,我们的“Ego-Exo”框架可以无缝地集成到标准视频模型中。

相关论文:Ego-Exo: Transferring Visual Representationsfrom Third-person to First-person Videos

33. Uncertainty-Aware Camera Pose Estimation from Points and Lines

Perspective-n-Point-and-Line(PnPL)算法是现代机器人和AR/VR系统中的一个重要组成部分,其目标是从2D-3D特征对应中快速地、准确地、鲁棒地定位3D模型。目前基于点的姿态估计方法只使用2D特征检测的不确定性,而基于直线的姿态估计方法没有考虑不确定性。在我们的设置中,特征的3D坐标和2D投影都被认为是不确定的。我们提出了基于EPnP和DLS的PnP解算器,并用于不确定性感知的姿态估计。我们同时修改了仅运动束调整以考虑3D不确定性。我们在两个不同的视觉里程计数据集进行了详尽的实验。

相关论文:Uncertainty-Aware Camera Pose Estimation from Points and Lines

34. High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation

3D视频化身可以通过提供压缩、隐私、娱乐和临场感来增强通信能力。特定于人像的图片真实感3D模型对光照不鲁棒,所以它们的结果通常会遗漏细微的面部行为,并导致伪影。这是所述模型的一个主要缺点。本文通过学习深度学习光照模型,并结合高质量的3D人脸跟踪算法来解决以往的局限性,并提供了一种从普通视频到3D照片逼真化身的精细人脸运动转换方法。

相关论文:High-fidelity Face Tracking for AR/VR via Deep Lighting Adaptation

35. Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo

现有的多视点多人三维姿态估计方法明确建立了多个摄像头视图的二维姿态检测组的交叉视点对应关系,并解决了每个人的三维姿态估计问题。建立跨视图通信是多人场景中的一个挑战,而不正确的通信会导致多级管道的次优性能。本文提出了一种基于平面扫描立体图像的多视点三维姿态估计方法,其将交叉视点融合和三维姿态重建结合起来,实现了单镜头的三维姿态重建。具体地,我们建议对目标摄像头视图中每个二维姿势的每个关节执行深度回归。通过平面扫描算法,多个参考摄像头视图隐式强制交叉视图一致性约束,以便于精确的深度回归。采用粗到细的方法,首先对人的水平深度进行回归,然后进行人均关节水平相对深度估计。三维姿态是从给定估计深度的简单反投影中获得。

相关论文:Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo

36. Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction

我们引入神经变形图来进行非刚性对象的全局一致变形跟踪和三维重建。具体地说,我们通过一个深层神经网络隐式建模一个变形图。这种神经变形图不依赖于任何特定对象的结构,因此可以应用于一般的非刚性变形跟踪。我们的方法在给定的非刚性运动对象的深度摄像头观测序列上全局优化这个神经网络图。基于显式视点一致性和帧间图面一致性约束来对底层网络进行自监督训练。另外,我们利用隐式可变形multi-MLP形状表示法对对象的几何结构进行了优化。我们的方法不假设连续的输入数据,因此能够对快速运动甚至暂时断开的记录进行鲁棒跟踪。我们的实验表明,我们的神经变形图在定性和定量上都优于最新的非刚性重建方法,重建效率提高了64%,变形跟踪性能则提高了62%。

相关论文:Neural Deformation Graphs for Globally-consistent Non-rigid Reconstruction

37. Lighting, Reflectance and Geometry Estimation from 360◦ Panoramic Stereo

我们提出了一种从360度图像中估计场景的高清晰度空间变化照明、反射率和几何结构的方法。我们的模型利用了360度输入观察整个场景的几何细节,然后联合估计场景的物理约束属性。我们首先重建一个近场环境光来预测场景中任何三维位置的光照。然后,我们提出了一个深度学习模型,利用立体信息来推断反射率和表面法线。最后,我们结合光照和几何体之间的物理约束来细化场景的反射率。

相关论文:Lighting, Reflectance and Geometry Estimation from 360◦ Panoramic Stereo

本文链接https://news.nweon.com/87275
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯