CVPR2021 Part 2:百篇AR/VR关联性研究成果汇总
或能应用于增强现实/虚拟现实的部分论文及相关摘要
(映维网 2021年07月08日)2021年计算机视觉和模式识别大会(Conference on Computer Vision and Pattern Recognition;CVPR)早前已经公布了收录的论文,涵盖对象映射与渲染,3D人类姿态生成,语义分割和透明对象关键点估计等一系列的计算机视觉研究。
延伸阅读:CVPR2021 Part 1:百篇AR/VR关联性研究成果汇总
下面映维网整理了或能应用于增强现实/虚拟现实的部分论文及相关摘要,一共分三篇,这是第二篇:
1. Single-Stage Instance Shadow Detectionwith Bidirectional Relation Learning
实例阴影检测的目的是找到与投射阴影的对象配对的阴影实例。之前的研究采用两阶段框架,首先从区域建议中预测阴影实例、对象实例和阴影对象关联,然后利用后处理对预测进行匹配,并形成最终的阴影对象对。本文提出了一种新的单阶段完全进化网络结构,通过一个双向关系学习模块,其以端到端的方式直接学习阴影和对象实例之间的关系。与以往的研究相比,本方法积极探索阴影与对象之间的内在联系,更好地学习阴影与对象之间的配对,从而提高了阴影检测的整体性能。
相关论文:Single-Stage Instance Shadow Detectionwith Bidirectional Relation Learning
2. Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion
鉴于当前三维传感器的突出特点,对基本点云数据进行细粒度分析是值得进一步研究的问题。特别是真实的点云场景能够直观地捕捉到真实世界中的复杂环境,但三维数据的原始性对机器感知提出了很大的挑战。在这项研究中,我们专注于基本的视觉任务:语义分割。一方面,为了减少邻近点的歧义,我们充分利用双边结构中的几何和语义特征来增强其局部情景。另一方面,我们从多个分辨率综合解释了点的显著性,并在点级采用自适应融合的方法表示特征图,从而实现了精确的语义分割。另外,为了验证我们的关键模块,我们提供具体的消融研究和直观的可视化。通过在三个不同的基准上与最先进的网络进行比较,我们证明了我们网络的有效性。
相关论文:Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion
3. AutoInt: Automatic Integration for Fast Neural Volume Rendering
数值积分是科学计算中的一项基础技术,并且是许多计算机视觉应用的核心。在这些应用中,神经体三维渲染最近成为了一种新的视图合成范式,以实现照片级真实感的图像质量。但使这些方法实用化的一个基本障碍是,在训练和推理过程中,沿渲染光线所需的体三维积分会导致极端的计算和内存需求。我们提出了自动积分。这个框架使用基于坐标的神经网络来学习有效的封闭形式解以进行积分。为了训练,我们实例化了对应于网络导数的计算图。将所述计算图拟合到信号进行积分。在优化之后,我们重新组合图,得到一个表示反导数的网络。根据微积分的基本定理,这使得我们可以在网络的两次求值中计算任意定积分。将这种方法应用到神经渲染中,我们改进了渲染速度和图像质量之间的折衷:在稍微降低图像质量的情况下,我们将渲染时间提高10倍以上。
相关论文:AutoInt: Automatic Integration for Fast Neural Volume Rendering
4. NeRD: Neural 3D Reflection Symmetry Detector
最近的研究表明,对称性是大多数对象所表现出来的一种结构先验,它可以支持多种单视图三维理解任务。然而,从图像中检测三维对称性依然是一项具有挑战性的任务。以前的研究要么假设对称性是给定的,要么用启发式方法检测对称性。本文提出了一种基于神经网络的三维反射对称性检测器NeRD,它结合了基于学习的识别和基于几何的重构的优点,能够精确地恢复对象镜面的法线方向。具体地说,我们首先用从粗到细的策略枚举对称平面,然后通过构建三维代价体来检测图像中像素的对称性,从而找到最佳的对称平面。
5. Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis
场景理解是计算机视觉中的一个关键问题。本文提出了一种基于三维点的场景图生成(SGGPPoint)框架,通过场景图构造、推理和推理三个顺序实现场景理解,有效地桥接感知和推理,实现场景理解。在推理阶段,我们建立了一个面向边缘的图卷积网络(EdgeGCN),利用多维边缘特征进行显式关系建模,并探索了节点与边缘之间的两种关联孪生交互机制,实现场景图表示的独立演化。总体上,我们建立了一个综合的SGGPPoint框架,从真实场景和基于合成的三维点场景中寻找和推断感兴趣的场景结构。实验结果表明,面向边缘推理在场景图生成研究中具有良好的应用前景。同时,我们还展示了该方法在几种传统的图形表示学习基准数据集上的优势,包括引文网络的节点分类和分子分析的全图识别问题。
相关论文:Exploiting Edge-Oriented Reasoning for 3D Point-based Scene Graph Analysis
6. Differentiable Diffusion for Dense Depth Estimation from Multi-view Images
我们提出了一种通过优化稀疏点集来估计密集深度的方法。我们优化点的位置,深度和权重的损失。另外,我们开发了一个高效的优化程序,其可以同时优化复杂场景重建所需的50k+点。我们使用ground truth数据验证了我们的程序,而它显示出高重建的质量。然后,我们通过自我监督将此方法应用于光场和更宽的基线图像,并对从不精确的稀疏点扩散的深度图的平均误差和离群误差进行了改进。最后,我们将定性和定量结果与图像处理和深度学习方法进行了比较。
相关论文:Differentiable Diffusion for Dense Depth Estimation from Multi-view Images
7. LAU-Net: Latitude Adaptive Upscaling Network for Omnidirectional Image Super-resolution
由于受到采集、存储和传输的限制,全向图像(ODI)通常分辨率较低。传统的二维图像超分辨率方法对于球形ODI并不有效,因为ODI具有非均匀分布的像素密度和不同纬度的纹理复杂度。在这项研究中,我们提出了一种latitude adaptive upscaling network(LAU-Net)网络,它允许不同纬度的像素采用不同的upscaling因子。具体地说,我们引入了一种拉普拉斯多级分离结构,将ODI分解为不同的纬度带,并用不同的因子对其进行分层upscale。另外,我们提出了一种具有纬度适应性奖励的深度强化学习方案,以自动选择不同纬度波段的最佳upscaling因子。
相关论文:LAU-Net: Latitude Adaptive Upscaling Network for Omnidirectional Image Super-resolution
8. Synthesizing Long-Term 3D Human Motion and Interaction in 3D Scenes
合成三维人体运动在许多图形应用以及理解人类活动中起着重要的作用。尽管行业在生成真实自然的人体运动方面做了很多努力,但大多数方法忽略了人体场景交互和可供性建模的重要性。另一方面,可供性推理主要研究静态人体姿势和手势,很少涉及人体运动。在这篇论文中,我们提出将人体运动合成和场景可供性推理联系起来。我们提出了一个分层的生成框架来合成三维场景结构上的长期三维人体运动条件。在此框架的基础上,我们进一步在人体网格和场景点云之间施加多种几何约束,以提高真实感合成。我们的实验表明,与以前的方法相比,在场景中生成自然和物理上合理的人体运动有了显著的改进。
相关论文:Synthesizing Long-Term 3D Human Motion and Interaction in 3D Scenes
9. PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds
我们介绍了一种用于三维点云处理的卷积运算Position Adaptive Convolution (PAConv)。PAConv的关键是通过动态组合存储在权值库中的基本权值矩阵来构造卷积核。其中,权值矩阵的系数通过记分网从点位置自适应学习。这样,内核以数据驱动的方式构建,赋予PAConv比二维卷积更大的灵活性,能够更好地处理不规则和无序的点云数据。
相关论文:PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds
10. Human POSEitioning System (HPS): 3D Human Pose Estimation and Self-localization in Large Scenes from Body-Mounted Sensors
我们介绍了一种利用可穿戴传感器对周围环境进行三维扫描,并恢复人体完整三维姿态的方法Human POSEitioning System(HPS)。利用附着在肢体的IMU和头戴式摄像头,HPS融合了基于摄像头的自定位和基于IMU的人体跟踪。前者提供无漂移但有噪点的位置和方向估计,而后者在短期内是准确的,但在较长时间内会漂移。我们表明,基于优化的集成充分利用了两者的优点,从而使姿态精度无漂移。另外,我们将3D场景约束整合到我们的优化中,例如脚与地面的接触,从而产生物理上合理的运动。HPS补充了基于第三人称的三维姿态估计方法。它允许捕获更大的记录体积和更长的运动周期,并可用于VR/AR应用程序。对于HPS,我们记录了一组人类与大型3D场景(300-1000平方米)交互的数据集,其中包括7名被试和3个多小时的不同动作。
11. Learning Compositional Radiance Fields of Dynamic Human Heads
动态人类的真实感渲染是临场感系统、虚拟购物、合成数据生成等领域的重要因素。近年来,将计算机图形和机器学习技术相结合的神经渲染方法已经建立了人体和物体的高保真模型。但是,其中一些方法对于可驱动的人体模型没有产生足够高逼真度的结果,而其他方法的渲染时间则非常长。本文提出了一种新的组合三维表示方法,它结合了以往的方法,既能产生更高的分辨率,又能更快地获得更高的结果。我们的表示将一个粗略的三维动画代码网格与连续学习的场景函数相结合,将每个位置及其相应的局部动画代码映射到与其视图相关的发射辐射度和局部体积密度,从而弥合离散和连续体积表示之间的差距。采用可微体三维渲染方法计算头部和上身的真实感新颖视图,并用二维监督训练我们的新型表示。
相关论文:Learning Compositional Radiance Fields of Dynamic Human Heads
12. StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision
本文提出了一种结合立体视觉的几何约束和PIFu的隐函数表示的StereoPIFu,它可以从一对低成本的校正图像中恢复人体的三维形状。首先,我们从立体视觉网络中引入有效的体素对齐特征来实现深度感知重建。另外,采用新的相对z-offset来将预测的高保真人体深度和占用推断关联起来,这有助于恢复精细的水平表面细节。其次,为了提高人体重建质量,我们设计了一种充分利用立体图像几何信息的网络结构。因此,我们的StereoPIFu可以自然地推断出人体在camera空间的空间位置,并保持人体不同部位的正确相对位置。与以往的研究相比,我们的StereoPIFu显著提高了服装人体重建的鲁棒性、完整性和准确性。
相关论文:StereoPIFu: Depth Aware Clothed Human Digitization via Stereo Vision
13. FS-Net: Fast Shape-based Network for Category-Level 6D Object Pose Estimation with Decoupled Rotation Mechanism
本文主要研究基于单目RGB-D图像的类别级6D姿态和尺寸估计。以往的方法在类别级的姿态特征提取效率不高,导致精度和推理速度较低。为了解决这一问题,我们提出了一种基于形状的网络(FS-Net),这个网络具有有效的类别级特征提取,并可用于6D姿态估计。首先,我们设计了一个方向感知的三维图形卷积自动编码器,以用于隐特征提取。由于三维图形卷积的平移和尺度变化特性,学习到的隐特征对点位移和对象大小不敏感。然后,为了有效地从隐特征中解码类别级的旋转信息,我们提出了一种新的解耦旋转机制,使用两个解码器互补地访问旋转信息。对于平移和尺寸,我们分别用两个残差来估计:目标点平均值和ground truth平移的差值,以及类别平均尺寸和ground truth尺寸的差值。最后,为了提高FS网络的泛化能力,我们提出了一种基于在线box-cage的三维变形机制来扩充训练数据。
14. Learning monocular 3D reconstruction of articulated categories from motion
单目三维重建关节对象类别具有挑战性。在这项论文中,我们使用视频自我监督,通过基于运动的周期损失来强制实现连续三维重建的一致性。这大大提高了基于优化和基于学习的三维网格重建。我们进一步介绍了一种可解释的三维模板变形模型,通过少数局部可学习的控制柄的位移来控制三维曲面。我们将这个操作描述为一个依赖于网格拉普拉斯正则化的结构化层,并证明它可以以端到端的方式进行训练。最后,我们介绍了一种基于样本的数值优化方法,通过联合优化视频中的网格位移和摄像头来提高训练和测试时后处理的精度。
相关论文:Learning monocular 3D reconstruction of articulated categories from motion
15. DECOR-GAN: 3D Shape Detailization by Conditional Refinement
我们介绍了一个用于三维形状细化的深度生成网络。通过将问题视为几何细节转移的问题,我们解决了从一小部分样本创建大量高分辨率和详细三维几何体的挑战。给定一个低分辨率的粗体素形状,我们的网络通过体素上采样将其细化为一个具有丰富几何细节的高分辨率形状。输出形状保留了输入的整体结构(或内容),而其细化生成则取决于与详细示例相对应的输入“样式代码”。这是通过一个生成性的对抗性网络来实现:DECOR-GAN。这个网络利用3D-CNN发生器对粗体素进行上采样,利用3D-PatchGAN鉴别器对生成的模型进行局部补片,使其与训练细节形状中的补片相似。在测试过程中,样式代码被输入到生成器中以调节优化。我们证明了我们的方法可以将一个粗糙的形状细化成不同风格的各种细节形状。生成的结果将根据内容保留、合理性和多样性进行评估。
相关论文:DECOR-GAN: 3D Shape Detailization by Conditional Refinement
16. Model-Aware Gesture-to-Gesture Translation
手势到手势的转换是一个重要而有趣的问题,其在许多应用中起着关键的作用,例如手语的产生。这个任务涉及对源手势和目标手势之间映射的细粒度结构理解。目前的研究遵循基于稀疏2D联合表示的数据驱动范式。然而,由于二维关节的表示能力不足,这种方法容易导致生成结果模糊,结构不正确。本文提出了一种新的手势到手势转换框架。这个框架引入了手的先验知识,以手的网格作为中间表示。为了充分利用结构化的手模型,我们首先建立一个密集的拓扑图,将图像平面与可见手网格的编码嵌入对齐。然后,根据源和目标拓扑图的对应关系,计算变换流。在生成阶段,我们通过空间自适应的方式调节激活,将拓扑信息注入到生成流中。根据变换流程,结合源局部特征对转换后的手势图像进行增强。
17. Back to the Feature: Learning Robust Camera Localization from Pixels to Pose
近年来,多种学习算法共同研究的一项三维几何任务是:已知场景中的摄像头姿态估计。许多人从输入图像中回归精确的几何量,如姿势或三维点。这要么无法推广到新的视点,要么将模型参数绑定到特定场景。在本文中,我们回到特征:我们认为深度网络应该集中学习鲁棒和不变的视觉特征,而几何估计应该留给原则算法。我们介绍了PixLoc,这个跨场景神经网络可以从图像和三维模型中估计出精确的6自由度姿态。我们的方法是基于多尺度深度特征的直接对齐,将摄像头定位作为度量学习。PixLoc通过从像素到姿态的端到端训练来学习强数据先验知识,并通过分离模型参数和场景几何来表现对新场景的异常泛化。这个系统可以在给定粗略姿态先验的大环境下进行定位,同时通过联合细化关键点和姿态,以较小的开销提高稀疏特征匹配的精度。
相关论文:Back to the Feature: Learning Robust Camera Localization from Pixels to Pose
18. Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors for Efficient and Robust 4D Reconstruction
本文主要研究点云序列的4D形状重建问题。尽管近年来将深度隐式表示扩展到4D空间取得了成功,但如何设计一个灵活的框架,从4D点云中学习鲁棒的时空形状表示,以及开发一种有效的形状动态捕捉机制依然是巨大的挑战。在这项研究中,我们提出了一种新的管道。这个管道可以通过跨帧占用域之间的空间连续变换函数来学习三维人体形状的时间演变。其核心思想是通过从鲁棒的时空形状表示中显式学习连续的位移矢量场,在不同的时间步长上并行地建立预测占用场之间的密集对应关系。与现有技术的广泛比较表明,在4D形状自动编码和完成问题上,该方法具有较高的精度,并且网络推理速度快得多,速度提高了8倍左右,证明了该方法的有效性。
19. Few-shot 3D Point Cloud Semantic Segmentation
许多现有的三维点云语义分割方法都是完全监督的。这些完全监督的方法在很大程度上依赖于大量难以获得,且训练后不能分割新类的标记训练数据。为了克服这些局限性,我们提出了一种新的attention-aware multi-prototype transductive few-shot点云语义分割方法。给定的几个标注实例,它就可以进行新类的分割。具体来说,每个类由多个原型表示,以模拟标记点的复杂数据分布。随后,我们采用一种转导标签传播方法来利用标记多原型与未标记点之间以及未标记点之间的affinities。另外,我们设计了一个attention-aware multi-level特征学习网络来学习捕捉点间几何依赖关系和语义关联的区别性特征。
20. Learning Camera Localization via Dense Scene Matching
摄像头定位的目的是从RGB图像中估计6自由度的摄像头姿态。传统的方法是在查询图像和预先建立的三维模型之间检测和匹配兴趣点。基于学习的方法将场景结构编码到特定的卷积神经网络(CNN)中,从而能够从RGB图像中预测密集坐标。然而,由于网络容量有限,这些算法大多需要重新训练或适应新的场景,难以处理大规模场景。我们提出了一种基于密集场景匹配(DSM)的跨场景摄像头定位方法。成本量和相应的坐标由CNN处理以预测密集坐标。摄像头姿态可以通过PnP算法求解。此外,我们的方法可以扩展到时域,这会在测试期间带来额外的性能提升。
21. Context Modeling in 3D Human Pose Estimation: A Unified Perspective
由于多个三维关节配置可能具有相同的二维投影,所以从单个图像估计三维人体姿势具有严重的模糊性。现有的方法往往依赖于图像结构模型(PSM)或图神经网络(GNN)等情景建模方法来减少歧义。然而,没有一项研究严格地将它们并排进行比较。因此,我们首先给出了一个通用的情景建模公式。通过对上述两种方法的比较,我们发现GNN中的端到端训练方案和PSM中的肢体长度约束是提高训练效果的两个互补因素。为了结合它们的优点,我们提出了基于注意机制的ContextPose,其允许在深层网络中实施软肢体长度约束。
相关论文:Context Modeling in 3D Human Pose Estimation: A Unified Perspective
22. ST3D: Self-training for Unsupervised Domain Adaptation on 3D Object Detection
我们提出了一种新的域自适应自训练管道ST3D,以用于点云三维目标检测的无监督域自适应。首先,我们使用我们提出的随机目标缩放策略在源区域预先训练3D探测器,以减轻源区域偏差的负面影响。然后,通过交替执行两个步骤在目标域对检测器进行迭代改进。针对3D目标检测的特定设计使得检测器能够训练成具有一致和高质量的伪标签,并且避免对伪标签数据中的大量简单示例进行过度拟合。我们的ST3D在所有评估数据集上都达到了最先进的性能,甚至超过了KITTI 3D目标检测基准上完全监督的结果。
相关论文:ST3D: Self-training for Unsupervised Domain Adaptation on 3D Object Detection
23. Model-based 3D Hand Reconstruction via Self-Supervised Learning
由于手部结构的多样性和深度的模糊性,从单视点RGB图像重建三维手部是一项具有挑战性的工作。为了从单眼图像中可靠地重建三维手,大多数最先进的方法在训练阶段严重依赖于三维标注,但获取三维标注的成本十分昂贵。为了减少对标记训练数据的依赖,我们提出了S2HAND,一个能够联合估计姿势、形状、纹理和摄像头视点的自监督三维手重建网络。具体地说,我们通过容易获取的二维检测关键点从输入图像中获得几何线索。为了从这些有噪点的几何线索中学习一个精确的手部重建模型,我们利用了二维和三维表示之间的一致性,并提出了一组新的损失来合理化神经网络的输出。
相关论文:Model-based 3D Hand Reconstruction via Self-Supervised Learning
24. FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds
场景流描述了三维场景的动态特性,其对于自动驾驶、机器人导航、AR/VR等各种应用至关重要。通常,场景流是从密集/规则的RGB视频帧中估计而成。随着深度传感技术的发展,通过点云可以进行精确的三维测量,这引发了三维场景流的新研究。然而,由于典型点云采样模式的稀疏性和不规则性,从点云中提取场景流一滩具有挑战性。与不规则采样相关的一个主要问题是点集提取/特征提取过程中的随机性。针对不稳定抽象问题,我们提出了一种新的空Spatial Abstraction with Attention(SA2)层。另外,本文提出了一种 Temporal Abstraction with Attention(TA2)层来校正时域中的注意,使得运动在更大范围内进行缩放。
相关论文:FESTA: Flow Estimation via Spatial-Temporal Attention for Scene Point Clouds
25. SG-Net: Spatial Granularity Network forOne-Stage Video Instance Segmentation
视频实例分割(VIS)是计算机视觉中一项新的关键任务。到目前为止,性能最好的VIS方法通过添加跟踪分支扩展了两阶段Mask R-CNN。相比之下,我们从一个新的角度来处理VIS任务,并提出了一个单阶段空间粒度网络(SGNet)。与传统的两阶段方法相比,SG-Net具有四个优点:1)该方法具有单阶段结构紧凑,每个任务头(检测、分割和跟踪)相互依赖,能够有效地共享特征,享受联合优化;2) 我们的掩模预测是在每个检测实例的子区域上动态执行,从而得到高质量的细粒度掩模;3) 我们的每个任务预测都避免使用昂贵的基于提议的RoI特性,从而大大降低了每个实例的运行时复杂性;4) 跟踪头对目标的中心运动进行建模,有效地提高了对不同目标外观的跟踪鲁棒性。
相关论文:SG-Net: Spatial Granularity Network forOne-Stage Video Instance Segmentation
26. Keypoint-graph-driven learning framework for object pose estimation
最近许多6D姿态估计方法利用对象三维模型生成合成图像进行训练。然而,由于真实图像和合成图像之间数据分布的域偏移,仅对合成图像进行训练的网络无法捕获真实图像中的鲁棒特征。我们的解决方案是使网络对不同的域脱敏。受域自适应方法的启发,我们提出了一种包含域自适应层的域自适应关键点检测网络(Domain Adaptive Keypoints Detection Network;DAKDN),以减小合成图像与真实图像之间深度特征的差异。这里的一个独特挑战是缺乏真实图像的ground truth标签(即关键点)。幸运的是,关键点之间的几何关系在实域/合成域下是不变的。因此,我们建议使用关键点之间的域不变几何结构作为“桥梁”约束来优化DAKDN,以实现跨域的6D姿态估计。具体地说,DAKDN采用一个图卷积网络(GCN)块从合成图像中学习几何结构,并用GCN来指导真实图像的训练。基于预测的关键点,其采用 Perspective-n-Point(PnP)算法计算对象的6D姿态。
相关论文:Keypoint-graph-driven learning framework for object pose estimation
27. High-Fidelity Neural Human Motion Transfer from Monocular Video
基于视频的人体运动传递创建人体跟随源运动的视频动画。然而,缺乏对合理穿衣动态(包括精细和高频细节)的时间一致性处理大大限制了可获得的视觉质量。我们在本文中尝试解决这些局限性,并提出了一种新的框架。与之前的技术不同,我们在随后的三个阶段中执行图像生成,综合人的形状、结构和外观。给定一个演员的单目RGB视频,我们训练一堆递归的深层神经网络,而它可以从2D姿势及其时间导数生成这些中间表示。将困难的运动转换问题分解为能够感知时间运动情景的子任务。它同时允许通过操纵各个框架阶段对结果进行控制。
相关论文:High-Fidelity Neural Human Motion Transfer from Monocular Video
28. NeuralFusion: Online Depth Fusion in Latent Space
我们提出了一种新的在线深度图融合方法,它可以在隐性特征空间中学习深度图的聚集。以往的融合方法都是使用SDFs等显式场景表示,本文提出了一种学习的特征表示方法,通过一个额外的转换网络将用于融合的场景表示与输出场景表示分离。我们的神经网络结构由两个主要部分组成:深度和特征融合子网络,然后是转换子网络,以产生最终的表面表示(例如TSDF)。我们的方法是一个在线过程,可处理高噪点水平,特别是能够处理光度立体深度图常见的粗异常值。
29. Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction
我们提出动态神经辐射场来模拟人脸的外观和动态。对说话人进行数字建模和重建是各种应用的关键组成部分。与对几何和材质属性进行显式建模的最新方法不同,我们引入了一种基于场景表示网络的头部隐式表示。为了处理人脸的动态,我们将场景表示网络与低维可变形模型相结合。我们使用体三维渲染从这种混合表示生成图像,并证明这种动态神经场景表示可以仅从单目输入数据学习,不需要专门的捕获设置。
相关论文:Dynamic Neural Radiance Fields for Monocular 4D Facial Avatar Reconstruction
30. Denoise and Contrast for Category Agnostic Shape Completion
对于我们在本文中提出的深度学习模型,其可以利用自我监督的力量来执行三维点云完成,估计缺失部分和周围的情景区域。局部和全局信息编码在一个组合的嵌入中。denoising pretext task为网络提供所需的局部线索,与高级语义解耦,并自然地在多个类中共享。另一方面,对比学习可以最大限度地提高同一形状的变体之间的一致性,从而产生一种能够捕捉形状整体外观的表示。与现有方法不同的是,这允许更好地将完成特性概括为在训练时看不到的新类别。此外,在对得到的关节表示进行解码时,通过关注其已知的周围区域并重建该帧作为辅助目标,我们能够更好地将重建的缺失部分与部分形状融合。
相关论文:Denoise and Contrast for Category Agnostic Shape Completion
31. Indoor Panorama Planar 3D Reconstruction via Divide and Conquer
全景图通常由平行或垂直于重力的人造结构组成。我们利用这一现象来近似360度图像中的场景(H)水平面和(V)垂直面。为此,我们提出了一种基于像素平面方向估计的有效divide-and-conquer策略;后续实例分割模块在每个平面方向组中能够更容易地完成平面聚类任务。另外,V平面的参数依赖于摄像头的偏航旋转,而平移不变的CNNs对偏航变化的感知能力较弱。因此,我们提出一个偏航不变的V平面重参数化来供CNNs学习。我们用 ground truth H&V平面扩展现有360深度数据集,同时建立了室内全景平面重建的基准。
相关论文:Indoor Panorama Planar 3D Reconstruction via Divide and Conquer
32. Riggable 3D Face Reconstruction via In-Network Optimization
我们提出了一种基于单眼图像的可操纵三维人脸重建方法,所述方法联合估计一个人脸模型和一幅图像的表情、姿态和光照等参数。为了实现这一目标,我们设计了一个端到端的可训练网络,并在网络优化中嵌入了一个可微控制器。所述网络首先用神经译码器将人脸模型参数化为一个紧凑的隐性代码,然后通过可学习的优化算法估计隐性代码和每幅图像的参数。接下来,利用深度学习中的数据驱动先验知识来约束不适定单目设置和降低优化难度。
相关论文:Riggable 3D Face Reconstruction via In-Network Optimization
33. FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
我们在这项论文中提出了FFB6D,这个Full Flow Bidirectional网络可根据单一的RGBD图像进行6D姿态估计。我们的主要见解是,RGB图像中的外观信息和深度图像中的几何信息是两个互补的数据源,如何充分利用它们仍然未知。为此,我们提出了FFB6D,它学习结合外观和几何信息进行表示学习和输出表示选择。具体来说,在表示学习阶段,我们在两个网络的全流程中构建双向融合模块,其中融合应用于每个编码层和解码层。这样,两个网络可以利用另一个网络的局部和全局互补信息来获得更好的表示。此外,在输出表示阶段,考虑到对象的纹理和几何信息,我们设计了一种简单有效的三维关键点选择算法,从而简化了关键点定位,并实现了精确的姿态估计。
相关论文:FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation
34. Shape from Sky: Polarimetric Normal Recovery Under The Sky
天空通过散射未偏振的太阳光呈现出独特的空间偏振模式。就像昆虫用这种独特的角度模式来导航一样,我们用它来把像素映射到天空的方向。我们证明了编码在偏振外观中的独特偏振图案可以被解码,以揭示每个像素处的表面法线。我们推导了太阳和晴空照射下漫反射加镜面的偏振反射模型。所述模型用于从一幅偏振图像或一天中不同时间拍摄的多幅偏振图像中恢复对象的每像素表面法线。实验结果清楚地表明,这种完全利用自然界独特光照的精细几何恢复被动方法是三维传感的可行选择。随着四拜耳偏振芯片的出现,我们相信我们的方法可以用于广泛的领域。
相关论文:Shape from Sky: Polarimetric Normal Recovery Under The Sky
35. RAFT-3D: Scene Flow using Rigid-Motion Embeddings
我们解决了场景流问题:给定一对立体或RGB-D视频帧,估计像素方向的三维运动。我们介绍了RAFT-3D,一种新的场景流深层结构。RAFT-3D基于为光流开发的RAFT模型,但迭代更新像素级SE3运动的密集场,而不是2D运动。RAFT-3D的一个关键创新是刚性运动嵌入,它将像素软分组到刚性对象中。对刚性运动嵌入不可或缺的是可微层Dense-SE3。实验表明RAFT-3D达到了最先进的性能。
36. ACTION-Net: Multipath Excitation for Action Recognition
时空模式、通道模式和运动模式是视频动作识别中三种重要的互补信息。传统的2D CNN计算成本低,但不能捕捉时间关系;3D CNN可以获得良好的性能,但计算量大。在这项研究中,我们设计了一个通用且有效的模块来解决这个难题。我们提出了一个spAtiotemporal, Channel and moTion excitatION(ACTION)模块,其包括三条路径:Spatio-Temporal Excitation (STE)路径, Channel Excitation (CE) 路径, 以及Motion Excitation (ME)路径。STE路径采用单通道3D卷积来表征时空表示。CE路径通过在时间方面显式地建模信道之间的相互依赖性来自适应地重新校准信道特征响应。ME路径计算特征级的时间差,然后利用这些时间差来激励运动敏感通道。我们将所提出的ACTION模块装备到2D CNN上,并形成一个简单而有效的ACTION-Net,而且额外的计算成本非常有限。
相关论文:ACTION-Net: Multipath Excitation for Action Recognition