CVPR2021 Part 3:百篇AR/VR关联性研究成果汇总
或能应用于增强现实/虚拟现实的部分论文及相关摘要
(映维网 2021年07月09日)2021年计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition;CVPR)早前已经公布了收录的论文,涵盖对象映射与渲染,3D人类姿态生成,语义分割和透明对象关键点估计等一系列的计算机视觉研究。
延伸阅读:CVPR2021 Part 1:百篇AR/VR关联性研究成果汇总
下面映维网整理了或能应用于增强现实/虚拟现实的部分论文及相关摘要,一共三篇,这是第三篇:
1. SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences
场景图是一种紧凑的显式表示方法,并成功地应用于各种二维场景理解任务中。本文提出了一种从给定RGB-D帧序列的3D环境中逐步建立语义场景图的方法。我们利用图神经网络从原始场景组件中聚集点网特征。我们同时提出了一种新的注意机制,它非常适合在这种增量重建场景中出现的部分和缺失的图形数据。尽管我们提出的方法设计成在场景的子贴图上运行,但我们同时展示了它在整个3D场景中的传递。实验表明,我们的方法比3D场景图预测方法大幅度地提高,其精度与其他3D语义和全景分割方法相一致,而速度则为35Hz。
相关论文:SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences
2. How Privacy-Preserving are Line Clouds? Recovering Scene Details from 3D Lines
视觉定位是估计给定图像相对于已知场景的camera姿态的问题。视觉定位算法是先进的计算机视觉应用的基本组成部分。在实际应用中,许多算法通过运动点云结构来表示场景,并使用查询图像和三维点之间的2D-3D匹配来估计camera的姿态。如最近所示,通过将稀疏点云的渲染转换为图像,可以从Structure-from-Motion(SfM)点云中准确地恢复图像细节。为了解决由此产生的潜在用户隐私风险,最近有人提议将点云提升为线云,方法是用经过这些点的随机定向三维线替换三维点。人类无法理解由此产生的表示,而且它能够有效地防止了点云到图像的转换。本文表明,大量的三维场景几何信息保存在这些线云中,使我们能够(近似)恢复三维点位置,从而(近似)恢复图像内容。我们的方法是基于这样的观察,即直线之间的最近点可以很好地逼近原始的三维点。
相关论文:How Privacy-Preserving are Line Clouds? Recovering Scene Details from 3D Lines
3. Shape and Material Capture at Home
在本文中,我们提出了一种只使用摄像头,手电筒,和可选三脚架来估计对象几何和反射率的技术。我们提出了一种简单的数据捕获技术,其中用户在对象周围走动,用手电筒照明,并且只需捕获少量图像。我们的主要技术贡献是引入了一种递归神经结构,所述结构可以预测2{k}*2{k}分辨率下的几何结构和反射率,给定2{k}*2{k}分辨率下的输入图像,并以2{k-1}*2{k-1}分辨率从上一步估计几何结构和反射率。这种递归结构称为RecNet,它以256×256的分辨率进行训练,但在推理过程中可以很容易地对1024×1024个图像进行操作。结果表明,在给定三幅或更少的输入图像的情况下,我们的方法可以产生更精确的表面法线和反照率,特别是在高光区域和投射阴影区域。
4. We are More than Our Joints: Predicting how 3D Bodies Move
了解人类行为的关键一步是预测三维人体运动。成功的解决方案在人体跟踪、人机交互和图形方面有许多应用。大多数以前的研究是,给定一个来自过去的序列三维关节,预测未来三维关节位置的一个时间序列。这种欧几里德公式通常比预测关节旋转的姿势效果更好。但是,身体关节位置并不能完全约束三维人体姿势,使自由度无法定义,因此很难仅从关节设置真实人体的动画。请注意,可以将三维关节视为稀疏点云。所以,人体运动预测问题可视为点云预测问题。通过这一观察,我们可以预测身体表面与动捕标记相对应的一组稀疏位置。给定这些标记,我们拟合一个参数化的身体模型来恢复人的三维形状和姿势。这些稀疏的表面标记同时携带关节中不存在的人体运动详细信息,从而增加了预测运动的自然度。利用AMASS数据集,我们训练MOJO。这个新的变分自动编码器产生运动的隐频率。MOJO保留了输入运动的全部时间分辨率,并且从隐频率的采样显式地将高频分量引入到生成的运动中。我们注意到,随着时间的推移,运动预测方法会积累错误,导致关节或标记偏离真实的人体。为了解决这个问题,我们将SMPL-X拟合到每个时间步的预测,将解投射回有效身体的空间。
相关论文:We are More than Our Joints: Predicting how 3D Bodies Move
5. End-to-End Human Pose and Mesh Reconstruction with Transformers
我们提出的MEsh TRansfOrmer (METRO)能够从单个图像重建三维人体姿势和网格顶点。我们的方法使用一个转换器编码器来联合建模顶点和顶点关节的相互作用,并同时输出三维关节坐标和网格顶点。与现有的姿态和形状参数回归技术相比,METRO不依赖于SMPL等参数化网格模型,因此可以很容易地扩展到手等其他对象。我们进一步放宽了网格拓扑结构,允许变换器的自注意机制在任意两个顶点之间自由参与,使得学习网格顶点和关节之间的非局部关系成为可能。利用所提出的遮罩顶点模型,我们的方法在处理部分遮挡等具有挑战性的情况时更具鲁棒性和有效性。
相关论文:End-to-End Human Pose and Mesh Reconstruction with Transformers
6. Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
学习穿衣人体几何的一个关键挑战在于ground truth实数据(如三维扫描模型)的有限可用性,这导致三维人体重建在应用于真实图像时性能下降。我们通过利用一个新的数据资源来应对这一挑战:大量的社交媒体舞蹈视频,涵盖不同的外观、服装风格、表演和身份。每一个视频都描述了一个人的身体和衣服的动态运动,但缺乏3D ground truth几何图形。为了利用这些视频,我们提出了一种新的方法来使用局部变换,将预测的局部几何体从一幅图像在不同的时刻扭曲到另一幅图像。另外,我们通过最大化局部纹理、褶皱和阴影的几何一致性来共同学习深度,以及对局部纹理、褶皱和阴影高度敏感的曲面法线。我们的方法属于端到端可训练,可产生高保真深度估计。
相关论文:Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
7. Learning Progressive Point Embeddings for 3D Point Cloud Generation
三维点云生成模型在场景/对象重建应用中具有极其重要的意义。尽管近年来基于深度学习的表示学习取得了成功,但由于以下几个方面的困难,深度神经网络合成或重构高保真点云仍然是一个巨大的挑战:1)学习有效的点态表示;从复杂分布生成真实的点云。在本文中,我们设计了一个点云生成的双生成器框架,它以渐进的方式泛化传统的生成对抗式学习框架。具体而言,第一生成器旨在以广度优先的方式学习有效的点嵌入,而第二生成器基于深度优先的点嵌入来细化生成的点云,以生成稳健且均匀的点云。因此,提出的双生成器框架能够逐步学习有效的点嵌入,以精确生成点云。
相关论文:Learning Progressive Point Embeddings for 3D Point Cloud Generation
8. Neural Lumigraph Rendering
新视图合成是一个具有挑战性的不适定逆渲染问题。神经渲染技术最近已经为这项任务实现了照片级真实感图像质量。然而,最先进的(SOTA)神经体三维渲染方法训练速度慢,需要几分钟的推理(即渲染)时间才能获得高分辨率的图像。我们采用高容量的神经场景表示和周期性的激活来联合优化一个隐式曲面和一个由二维图像监督的场景的辐射场。我们的神经渲染管道将SOTA神经体三维渲染速度提高了约两个数量级,而我们的隐式曲面表示方法在允许我们导出具有视图相关纹理信息的网格方面独一无二。因此,与其他隐式曲面表示一样,我们的方法与传统的图形管道兼容,同时实现了实时渲染速率,以及与其他曲面方法相比前所未有的图像质量。
9. Deep Homography for Efficient Stereo Image Compression
本文提出了一种端到端可训练的立体图像压缩深度网络HESIC。为了充分挖掘两幅立体图像之间的互信息,我们使用深度回归模型来估计单应矩阵,即H矩阵。然后,利用H矩阵对左图像进行空间变换,仅对左图像和右图像之间的剩余信息进行编码以节省比特率。HESIC采用双分支自动编码器结构,分别对应左右图像。对于熵编码,我们采用了两种条件立体熵模型,即基于高斯混合模型(GMM)和基于情景的熵模型,从而充分挖掘了两幅图像之间的相关性,并降低了编码比特率。在解码过程中,我们提出了一种基于逆H矩阵的图像质量增强模块。实验结果表明,在InStereo2K和KITTI数据集上,我们的HESIC方法在定性和定量上都优于现有的SIC方法。
10. VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency
我们介绍了一种新的语音分离方法。给定一个视频,我们提取与人脸相关的语音,不管背景声音和/或其他说话人是否同时出现。鉴于现有的方法侧重于学习说话人的嘴唇运动及其产生声音之间的对齐,我们建议利用说话人的面部外观作为一个额外的先验来分离出它们可能产生的相应声音质量。我们的方法从未标记的视频中联合学习视听语音分离和跨模态说话人嵌入。它在五个语音分离和增强的基准数据集上产生了最先进的结果,并且很好地泛化到具有挑战性的不同场景真实视频。
相关论文:VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency
11. CompositeTasking: Understanding Images by Spatial Composition of Tasks
我们将合成任务的概念定义为多个空间分布任务的融合。学习执行空间分布任务的动机是,任务之间频繁出现的仅稀疏标签,以及对紧凑的多任务网络的渴望。为了简化合成任务,我们引入了一种新的任务调节模型:一个单一的编码器-解码器网络,其可以同时执行多个空间变化任务。所述网络以一幅图像和一组像素密集的任务请求作为输入,对每个像素执行请求的预测任务。另外,我们根据一些复合任务规则学习需要执行的任务的组合,其中包括在哪里应用哪个任务的决策。它不仅为我们提供了一个紧凑的多任务网络,而且允许任务编辑。所述方法的另一个优点是只需为每个任务提供稀疏的监督。得到的结果与我们使用密集监督和multi-headed multi-tasking设计的基线一致。
相关论文:CompositeTasking: Understanding Images by Spatial Composition of Tasks
12. 3D Object Detection with Pointformer
由于三维点云数据的不规则性,基于点云的三维目标检测的特征学习具有很大的挑战性。在这篇论文中,我们提出了Pointformer。具体地说,我们使用局部变换模块来建模局部区域中各点之间的交互,从而在对象级别学习情景相关的区域特征。我们设计了一个全局转换器来学习场景级的情景感知表示。为了进一步捕获多尺度表示之间的依赖关系,我们提出了Local-Global Transformer,从更高的分辨率将局部特征与全局特征相结合。另外,我们介绍了一个有效的坐标细化模块,将down-sampled点移到更接近目标质心的位置,从而提高了目标建议生成的效率。
13. Single-View 3D Object Reconstruction from Shape Priors in Memory
现有的单视图三维对象重建方法直接学习将图像特征转化为三维表示。然而,由于提取的图像特征信息不足以重建高质量的三维形状,这些方法容易受到背景噪点和遮挡严重图像的影响。人类通常使用图像中不完整或有噪点的视觉线索来从记忆中提取相似的三维形状,并重建对象的三维形状。受此启发,我们提出了一种新的方法Mem3D,它显式地构造形状先验来补充图像中缺失的信息。具体地说,形状先验在记忆网络中以“图像-体素”对的形式存在,在训练过程中通过精心设计的writing策略来存储。我们同时提出了一个体素三重损失函数,以帮助从形状先验中提取与输入图像高度相关的精确三维形状。我们介绍了一种基于LSTM的形状编码器,其可用于从检索到的三维形状中提取信息,从而帮助恢复严重遮挡或复杂环境中的对象三维形状。
相关论文:Single-View 3D Object Reconstruction from Shape Priors in Memory
14. Blocks-World Cameras
室内场景等人造环境的三维几何可以用少量的主平面来表示。然而,传统的三维视觉技术通常首先获取密集的三维点云,然后再估计紧凑的分段平面表示。这种方法在采集和计算要求方面的成本都非常昂贵,并且由于噪点点云的存在而可能不可靠。所以,我们提出了成像系统Blocks-World Cameras,它可以直接恢复分段平面场景(块世界)的主平面,不需要点云。Blocks World Cameras基于一个结构光系统,可投影一个具有稀疏十字形特征集的单一图案。我们开发了一种新的几何算法来恢复场景平面,无需显式的对应匹配,从而避免了计算密集型搜索或优化例程。所提出的方法仅需较低的设备量和计算复杂度,并且只需要捕获一个或两个图像。
相关论文:Blocks-World Cameras
15. Learning Compositional Representation for 4D Captures with Neural ODE
基于学习的表示已经成为许多计算机视觉系统成功的关键。尽管业界已经提出了许多三维表示方法,但如何表示动态变化的三维对象仍然是一个尚未解决的问题。在本文中,我们介绍了一种用于4D捕获的合成表示法,即在时间跨度变形的3D对象,它可分别分离形状、初始状态和运动。每个组件通过一个经训练的编码器由一个隐代码表示。为了对运动进行建模,我们训练一个神经Ordinary Differential Equation(ODE)来更新初始状态,解码器在每个时间戳处取形状码和更新后的状态码来重建三维模型。为此,我们提出了一种Identity Exchange Training(IET)策略来鼓励网络学习有效地解耦各个组件。大量实验表明,所述方法优于基于深度学习的4D重建方法,在运动传递和完成等方面有显著的改进。
相关论文:Learning Compositional Representation for 4D Captures with Neural ODE
16. Bidirectional Projection Network for Cross Dimension Scene Understanding
二维图像在规则的网格中表示,可以有效地进行处理。三维点云则是无序的,分散在三维空间中。这两个视觉域中的信息具有很好的互补性,如二维图像具有细粒度纹理,而三维点云包含丰富的几何信息。然而,目前大多数视觉识别系统都是单独处理两者。本文提出了一种用于2D和3D联合推理的端到端双向投影网络(BPNet)。它包含具有对称结构的二维和三维子网络连接。互补的二维和三维信息可以在多个架构层次相互作用,这样就可以将这两个视觉域中的优势结合起来,以获得更好的场景识别。大量的定量和定性实验结果表明,在二维和三维视觉领域的联合推理可以同时有利于二维和三维场景的理解。
相关论文:Bidirectional Projection Network for Cross Dimension Scene Understanding
17. Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction
本文研究了一个新的问题:如何使预先训练好的人体网格重建模型适应域外流媒体视频。大多数基于参数化SMPL模型的方法在具有意外的、特定于域的属性的新域中性能不佳。我们的总体思路是在附加时间约束的情况下对测试视频流的源模型进行动态微调,这样可以在不过度拟合单个测试帧的2D信息的情况下减小域间隙。接下来的挑战是如何避免二维约束和时间约束之间的冲突。针对这一问题,我们提出了一种新的训练算法Bilevel Online Adaptation(BOA)。它主要将多目标优化过程分为训练迭代中的权值探测和权值更新两个步骤。我们证明BOA在两个人体网格重建基准上产生了最先进的结果。
相关论文:Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction
18. LED2-Net: Monocular 360◦ Layout Estimation via Differentiable Depth Rendering
尽管在房间布局估计方面已经取得了很大的进展,但大多数方法的目的是减少二维像素坐标的损失,而不是利用三维空间中的房间结构。为了重建房间的三维布局,我们将360度布局估计任务视为一个预测全景地平线深度的问题。具体地说,我们提出了可微深度绘制过程,使得从布局到深度预测的转换是可微的,从而允许我们提出的模型在充分利用三维几何信息的同时不需要提供ground truth深度。我们的方法在众多的360度平台都实现了最先进的性能。另外,我们的公式能够在深度数据集上进行预训练,这进一步提高了布局估计模型的通用性。
相关论文:LED2-Net: Monocular 360◦ Layout Estimation via Differentiable Depth Rendering
19. Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition
本文提出了一种用于有效人脸表情识别新的特征分解与重构学习(FDRL)方法。我们将表达式信息视为跨不同表达式的共享信息和每个表达式的唯一信息的组合。更具体地说,FDRL主要由两个关键网络组成:特征分解网络(FDN)和特征重构网络(FRN)。特别地,FDN首先将从主干网络中提取的基本特征分解为一组面部动作感知的隐特征来建模表情相似性。然后,FRN捕获潜在特征的特征内和特征间关系来描述特定于表达的变化,并重构表达特征。为此,我们在FRN中开发了两个模块:特征内关系建模模块和特征间关系建模模块。实验结果表明,本文提出的FDRL方法比现有的几种方法具有更高的识别精度。
相关论文:Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition
20. Seeing Behind Objects for 3D Multi-Object Tracking in RGB-D Sequences
从RGB-D视频序列中跟踪多目标是一个具有挑战性的问题,因为随着时间的推移,视点、运动和遮挡会发生变化。我们观察到,拥有对象的完整几何结构有助于它们的跟踪,所以我们建议对于随时间刚性移动的对象,联合推断对象的完整几何结构及跟踪它们。我们的关键洞察是,推断出对象的完整几何结构有助于跟踪。通过hallucinating对象的不可见区域,我们可以在同一实例之间获得额外的对应关系,从而即使在外观发生强烈变化的情况下都能提供鲁棒跟踪。从RGB-D帧序列中,我们检测每一帧中的目标,并学习预测其完整的目标几何以及到正则空间的密集对应映射。这使我们能够为每一帧中的对象导出6自由度的姿态,以及它们在帧之间的对应关系,从而在RGB-D序列中提供鲁棒的对象跟踪。在合成和真实RGB-D数据上的实验表明,我们在动态目标跟踪方面取得了最先进的性能。
相关论文:Seeing Behind Objects for 3D Multi-Object Tracking in RGB-D Sequences
21. Semantic Scene Completion via Integrating Instances and Scene in-the-Loop
语义场景完成的目的是从一幅单视点深度或RGBD图像中重建一个具有精确体素语义的完整三维场景。对于室内场景的理解来说,这是一个非常重要但极具挑战性的问题。在本文中,我们提出了一种新的场景-实例-场景网络(Scene-Instance-Scene-Network,SISNet)框架,它综合了实例级和场景级的语义信息。我们的方法能够推断出细粒度的形状细节以及语义类别容易混淆的邻近对象。关键在于我们将实例从粗略完成的语义场景中分离出来,而不是从原始的输入图像中分离出来,以指导实例和整个场景的重建。SISNet进行迭代场景到实例(SI)和实例到场景(IS)语义补全。具体来说,SI能够对对象的周围环境进行编码,以便有效地将实例与场景分离,并且每个实例可以体素化为更高的分辨率以捕获更精细的细节。通过IS,细粒度的实例信息可以整合回3D场景中,从而导致更精确的语义场景完成。利用这种迭代机制,场景和实例的完成相辅相成,以达到更高的完成精度。
相关论文:Semantic Scene Completion via Integrating Instances and Scene in-the-Loop
22. Deep Learning in Latent Space for Video Prediction and Compression
近年来,基于学习的视频压缩技术取得了长足的进展。最有影响力的方法是采用深度神经网络(DNNs)来通过找到视频帧合适的低维表示来消除空间和时间冗余。我们提出了一种基于DNN的视频序列预测和压缩框架。所述方法首先学习每个视频帧的有效低维隐空间表示,然后在隐域进行帧间预测。我们提出的隐域压缩是通过生成对抗网络(GAN)训练的深层自动编码器来实现。为了利用视频帧序列中的时间相关性,我们采用卷积长短时记忆(ConvLSTM)网络来预测未来帧的潜在向量表示。我们用两个例子来说明我们的方法。与专为视频压缩或异常检测而设计的最新算法相比,我们的方法具有更高的性能。
相关论文:Deep Learning in Latent Space for Video Prediction and Compression
23. Camera Pose Matters: Improving Depth Prediction by Mitigating Pose Distribution Bias
单目深度预测器通常是在大规模训练集上训练,但这些训练集对camera姿态的分布有自然的偏差。结果,训练好的预测器无法对在不常见的camera姿势下拍摄的测试样本进行可靠的深度预测。为了解决这个问题,我们提出了两种新的技术。首先,我们介绍了一个简单的透视感知数据扩充,它通过以几何一致的方式扰动现有的训练示例,从而合成具有更多不同视图的新训练示例。其次,我们提出了一个条件模型,利用每幅图像的camera姿态作为先验知识,将其编码为输入的一部分。我们发现,联合应用这两种方法可以改善在不常见甚至从未见过的camera姿势下拍摄的图像的深度预测。我们证明,当我们的方法应用于一系列不同的预测器架构时,它可以提高性能。
相关论文:Camera Pose Matters: Improving Depth Prediction by Mitigating Pose Distribution Bias
24. VS-Net: Voting with Segmentation for Visual Localization
近年来,基于场景坐标回归的方法在静态小场景的视觉定位中表现出了良好的性能。然而,它仍然从许多较低的场景坐标估计camera姿态。为了解决这个问题,我们提出了一个新的视觉定位框架,它通过一系列可学习的场景特定landmark在查询图像和三维映射之间建立二维到三维的对应关系。在landmark生成阶段,目标场景的三维表面过度分割成mosaic patches,其中心被视为场景特定的landmark。为了鲁棒、准确地恢复场景中特定的landmark,我们提出了Voting with Segmentation Network(VS-Net),通过一个分割分支将像素分割成不同的landmark块,并通过一个landmark位置投票分支来估计每个landmark块中的landmark位置。由于一个场景中的landmark数量可能达到5000个,因此对于常用的交叉熵损失来说,训练一个包含如此多类的分割网络在计算量和内存方面都非常昂贵。我们提出的方法能够有效地训练含有大量标签的语义切分网络。我们提出的VS-Net在多个公共基准上进行了广泛的测试,结果表明它优于最先进的视觉定位方法。
相关论文:VS-Net: Voting with Segmentation for Visual Localization
25. Probabilistic 3D Human Shape and Pose Estimation from Multiple Unconstrained Images in the Wild
本文研究了基于RGB图像的三维人体形状和姿态估计问题。在这一领域的最新进展集中在单一图像,视频或多视角图像作为输入。相比之下,我们提出了一个新的任务:从一组多幅人体图像中估计形状和姿势,不受被摄体姿势、camera视点或组内图像之间背景条件的限制。我们的解决方案预测SMPL身体形状和姿势参数的分布。我们概率地结合预测的身体形状分布以获得最终的多图像形状预测。实验表明,多图像输入组中存在的额外身体形状信息改善了3D人体形状估计度量。另外,预测三维对象的分布使我们能够量化姿态预测的不确定性,这在面对具有重大遮挡的输入图像时非常有用。我们的方法在3DPW数据集上展示了有意义的姿态不确定性,并且在姿态估计度量方面具有竞争力。
相关论文:Probabilistic 3D Human Shape and Pose Estimation from Multiple Unconstrained Images in the Wild
26. D-NeRF: Neural Radiance Fields for Dynamic Scenes
对于将机器学习与几何推理相结合的神经渲染技术,其已经成为从稀疏图像集中合成场景新视图的最有前途的方法之一。其中,突出的是神经辐射场(NeRF),它训练一个深度网络,将5D输入坐标映射为体积密度和视情况而定的发射辐射。然而,尽管在生成的图像上实现了前所未有的真实感,NeRF仅适用于静态场景。本文介绍了D-NeRF,一种将神经辐射场扩展到动态域的方法,它允许从一个在场景中移动的camera重建和渲染对象在刚性和非刚性运动下的新图像。为此,我们考虑时间作为系统的附加输入,并将学习过程分成两个主要阶段:一个将场景编码成规范空间,另一个将该规范表示映射到特定时刻的变形场景。一旦网络完成训练,D-NeRF就可以渲染出新颖的图像,控制camera的视角和时间变量,从而控制对象的运动。
27. Depth Completion using Plane-Residual Representation
深度完成的基本框架是使用非常稀疏的输入数据来预测像素级的密集深度图。为了解决这个问题,本文将基于回归的深度估计问题转化为深度平面分类和残差回归相结合。我们提出的方法是,首先通过计算像素应该位于多个离散深度平面中的哪个平面来加密稀疏的深度信息,然后通过预测到指定平面的距离来计算最终的深度值。这将有助于减轻由无深度信息直接回归绝对深度信息的负担,以较少的计算量和推理时间有效地获得更准确的深度预测结果。为此,我们首先介绍了一种新的方法来解释深度信息与最近的深度平面标签p和残差值r,我们称之为平面残差(PR)表示。我们同时提出了一种利用PR表示的深度完成网络,它由一个共享编码器和两个解码器组成,其中一个对像素的深度平面标签进行分类,而另一个对分类深度平面的归一化距离进行回归。通过在PR表示中解释深度信息并使用相应的深度完井网络,我们能够获得比以前更快的计算速度和更好的深度完成性能。
28. Robust Consistent Video Depth Estimation
我们提出了一种基于单目视频的一致密集深度映射和camera姿态估计算法。我们将基于学习的深度先验知识与几何优化相结合,以卷积神经网络的形式训练用于单个图像的深度估计,从而估计平滑的camera轨迹和详细而稳定的深度重建。我们的算法结合了两种互补的技术:(1)用于低频大规模对齐的flexible deformation-splines;(2)用于精细深度细节高频对齐的几何感知深度滤波。与先前的方法相比,我们的方法不需要camera姿势作为输入,并且对于包含大量噪点、抖动、运动模糊和滚动快门变形的手持式手机捕获实现鲁棒重建。
29. NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video
本文提出了一种基于单目视频的实时三维场景重建框架NeuralRecon。与以往在每个关键帧上分别估计单视点深度图并进行融合的方法不同,本文提出了用神经网络直接为每个视频片段重建表示为稀疏TSDF体的局部表面。基于学习的TSDF融合模块基于选通递归单元,并用于指导网络融合先前片段的特征。这种设计使得网络能够在连续重构三维曲面时,获得曲面的局部光滑性先验和全局形状先验,从而实现精确、一致、实时的曲面重构。在ScanNet和7场景数据集上的实验表明,我们的系统在精度和速度上都优于现有的方法。
相关论文:NeuralRecon: Real-Time Coherent 3D Reconstruction from Monocular Video
30. Back-tracing Representative Points for Voting-based3D Object Detection in Point Clouds
点云中的三维目标检测是一项具有挑战性的视觉任务。如何利用端到端可训练的Hough投票来生成目标方案是近年来的研究热点。然而,现有的投票策略只能从潜在对象表面获得部分投票,同时也只能从杂乱的背景中获得严重的离群投票,这阻碍了输入点云信息的充分利用。受传统Hough投票方法中回溯策略的启发,本文提出了一种新的三维目标检测方法Back-tracing Representative Points Network(BRNet)。它生成性地从投票中心回溯代表点,并围绕这些生成点重新访问互补的种子点,以便更好地从原始点云中捕获潜在对象周围的精细局部结构特征。因此在我们的BRNet中,这种自下上升,然后自顶向下的策略加强了预测投票中心和原始表面点之间的相互一致性,从而获得更可靠和灵活的对象定位和类预测结果。
相关论文:Back-tracing Representative Points for Voting-based3D Object Detection in Point Clouds
31. FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining
Neural Architecture Search(NAS)产生了最先进的神经网络,其性能优于最好的手动设计网络。然而,以前的NAS方法在一组训练超参数下搜索architecture,忽略了卓越的architecture-recipe组合。为了解决这一问题,我们提出了Neural Architecture-Recipe Search(NARS),同时搜索(a)architecture和(b)它们相应的训练recipe。NARS利用一个精确的预测因子来联合评分architecture和训练recipe,并指导样本选择和排名。此外,为了补偿搜索空间的扩大,我们利用“自由”架构统计来对预测器进行预处理,这显著提高了预测的样本效率和预测可靠性。通过约束迭代优化训练预测器后,我们在短短的CPU分钟内运行快速进化搜索,以生成各种资源约束的architeture-recipe对:FBNetV3。FBNetV3构成了一系列最先进的紧凑型神经网络,与自动和手动设计的竞争对手相比,它的性能都表现出色。
相关论文:FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining
32. PatchmatchNet: Learned Multi-View Patchmatch Stereo
我们为高分辨率多视点立体匹配提出了一种新颖的、可学习的级联格式PatchmatchNet。PatchmatchNet具有较高的计算速度和较低的内存需求,可以处理更高分辨率的图像,适合在资源有限的设备上运行。我们首次在端到端可训练架构引入了迭代多尺度Patchmatch算法,并对Patchmatch核心算法进行了改进。大量实验表明,我们的方法在DTU、Tanks&Temples和ETH3D上具有很强的竞争力和通用性,而且效率明显高于所有现有的顶级性能模型:至少比最先进的方法快两倍半,内存使用量少两倍。
33. Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation
现有的半监督视频对象分割(Semi-VOS)方法通过传播前一帧的信息来生成当前帧的分割模板。但对于静止或慢速移动的对象,如果帧间的变化最小,则会导致不必要的计算。在这项研究中,我们利用这一观察,通过时间信息快速识别帧与最小的变化,并跳过重量级掩模生成步骤。为了实现这一效率,我们提出了一种新的动态网络来估计帧间的变化,并根据期望的相似性来决定选择哪条路径。实验结果表明,在具有挑战性的Semi-VOS数据集davis16、davis17和YouTube-VOS上,我们的方法显著提高了推理速度,同时不会降低精度。另外,我们的方法可以应用于多个Semi-VOS方法,证明了其通用性。
相关论文:Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised Video Object Segmentation
34. DeepSurfels: Learning Online Appearance Fusion
我们提出了一种新的几何和外观信息的混合场景表示方法DeepSurfels。DeepSurfels将显式和神经构建块结合起来,共同编码几何图形和外观信息。与已建立的表示法相比,DeepSurfels能够更好地表示高频纹理,非常适合于外观信息的在线更新,并且可以很容易地与机器学习方法相结合。我们进一步提出了一个端到端可训练的在线外观融合管道,它将来自RGB图像的信息融合到所提出的场景表示中,并使用重投影误差对输入图像施加的自监督进行训练。我们的方法优于传统的纹理映射方法以及最近的基于学习的技术。另外,与现有方法相比,我们同时展示了更低的运行时间、改进的泛化能力以及更好的可扩展性。
35. NeuTex: Neural Texture Mapping for Volumetric Neural Rendering
最近的研究表明,对于网格重建失败的挑战性场景,体场景表示与可微体渲染相结合可以实现真实感场景的渲染。但是,这些方法将几何体和外观纠缠在一个无法编辑的“黑盒”中。相反,我们提出的方法明确地将几何体(表示为连续的三维体积)与外观(表示为连续的二维纹理贴图)分离。我们通过在体积表示中引入三维到二维纹理映射(或表面参数化)网络来实现这一点。我们使用一个额外的二维到三维逆映射网络和一个新的循环一致性损失来约束这个纹理映射网络,使三维表面点映射到二维纹理点,然后映射回原始的三维点。我们证明,这种表示可以只使用多视图图像监督进行重建,并生成高质量的渲染结果。更重要的是,通过分离几何体和纹理,我们允许用户通过简单地编辑2D纹理贴图来编辑外观。
相关论文:NeuTex: Neural Texture Mapping for Volumetric Neural Rendering
36. Real-Time Sphere Sweeping Stereo from Multiview Fisheye Images
带有鱼眼镜头的摄像头可用来捕捉广阔的视场。由于鱼眼透镜的光学特性,基于极线几何的传统扫描线立体算法直接不适用于这种非针孔摄像头;因此,现有的完整360度RGB-D成像系统还很少实现实时性能。在本文中,我们介绍了一种高效的球面扫描立体,它可以直接在多视点鱼眼图像上运行,不需要额外的球面校正。我们的主要贡献是:首先,我们提出了一种自适应球面匹配方法,考虑了每个输入鱼眼摄像头的球面畸变分辨率;其次,我们提出了一种快速的尺度间双边代价-体积滤波方法,它在噪点和无纹理区域以最优的O(n)复杂度细化距离,并可以在保留边缘的同时进行实时密集距离估计;最后,鱼眼颜色和距离图像无缝组合成一个完整的360度RGB-D图像。我们演示了一个由一个移动GPU和四个鱼眼摄像头组成的嵌入式360度RGB-D成像原型。我们的原型能够捕捉到分辨率为200万像素、每秒29帧的完成360度RGB-D视频。实验结果表明,所述方法的实时性优于传统方法。
相关论文:Real-Time Sphere Sweeping Stereo from Multiview Fisheye Images