Facebook分享：如何利用AI技术将2D图片转换成3D图片

编辑：刘余欣 | 分类：快讯 / 研发 | 2020年3月5日

现已支持所有iPhone 7或更高版本，或中高端Android设备的Facebook应用

（映维网 2020年03月05日）Facebook于2018年推出了3D Photos功能，并将其作为一种与朋友和家人分享图片的全新沉浸式格式。但这项功能依赖于高端智能手机的双头摄像头“人像模式”。所以，只有一个后置摄像头的典型移动设备无法予以使用。为了将这种视觉格式带给更多用户，Facebook采用了最先进的机器学习技术，允许几乎任何的标准2D图片生成3D图片。

团队指出，无论是使用标准单摄像头的Android或iOS设备所拍摄的照片，还是上传到智能手机或笔记本电脑的数十年前的老照片，这一系统可以推断任何图片的3D结构。

Facebook分享：如何利用AI技术将2D图片转换成3D图片

利用这项先进的技术，数百万搭载单摄像头的智能手机或平板电脑将能够首次轻松地利用3D照片技术。转换为3D同时可以令你以全新的方式体验数十年前的家庭照片和其他珍贵图像。拥有先进双摄像头设备的用户同样可以从中受益，因为你现在可以利用单个前置摄像头进行3D自拍。现在，所有iPhone 7或更高版本，或最新的中高端Android设备用户都可以在Facebook应用程序中进行尝试。

这个动画说明了系统是如何为创建3D图像而估算2D图片不同区域的深度。

构建这种增强的3D照片技术需要克服各种技术挑战，如训练可正确推断出多个主体的3D位置的模型，以及优化系统，令其能够支持常规的移动处理器快速完成处理。为了克服相关挑战，Facebook AI团队通过数百万对公共3D图像及其随附的深度图来训练卷积神经网络，并利用FBNet和ChamNet等先前开发的各种移动优化技术。

现在这项功能已经向所有Facebook用户开放，而团队日前通过博文介绍了相关的开发细节。

原图是用单透镜相机拍摄，不包含任何深度图数据。Facebook的系统将其转换下图所示的3D图像。

1. 为移动设备带来高效的性能

给定标准RGB图像，3D Photos CNN可以为每个像素估计距摄像头的距离。团队通过以下四种方式来实现所述目标：

使用一组可参数化，针对移动设备优化的神经构建模块所构建的网络架构。
自动化架构搜索，为其寻找有效配置，从而令系统能够支持任何设备在少于一秒内执行任务。
量化感知训练，从而在移动设备利用高性能的INT8量化，同时最大程度地减少量化过程中潜在的质量下降。
来自公共3D照片的大量训练数据。

2. 神经构建模块

团队开发的架构使用了受FBNet启发的构建模块。FBNet是用于为移动设备和其他资源受限设备优化ConvNet架构的框架。构造模块由点式卷积，可选的上采样，K x K深度式卷积，以及附加的点式卷积组成。研究人员实现了一个U-net样式的架构，并修改为沿着skip connection放置FBNet构建模块。U-net编码器和解码器包含五个阶段，每个阶段对应于不同的空间分辨率。

网络架构概述：所述的网络架构是一个U-net，并且包含沿skip connection放置的额外宏级别构建模块。

3. 自动化架构搜索

为了找到有效的架构配置，团队使用了由Facebook AI开发的算法ChamNet来自动化搜索过程。ChamNet算法迭代地从搜索空间中采样点并用以训练精度预测器。所述精度预测器用于加速genetic search，从而定位一个在满足指定资源限制的同时最大化预测准确性的模型。在这种设置下，研究成员使用了一个会改变通道扩展因子和每个模块输出通道数的搜索空间，从而产生3.4x1022的可能架构。然后，他们使用800个Tesla V100 GPU在大约三天内完成搜索，设置及调整模型架构的FLOP约束以实现不同的运算点。

4. 量化感知训练

默认情况下，模型使用单精度浮点权重和激活进行训练，但团队发现了将权重和激活量化为8位的显著优势。特别地，int8权重仅需要float32权重所需存储量的四分之一，从而减少了首次使用时必须传输到设备的字节数。

图像一开始都是常规2D图像，并通过Facebook AI的深度估计神经网络转换为3D。

与基于float32的运算符相比，基于Int8的运算符同时具有更高的吞吐量，这要归功于QNNPACK等经过精细调整的库（已集成到PyTorch中）。团队使用量化意识训练（Quantization-aware training；QAT）来避免由于量化而导致的质量下降。QAT（现已作为PyTorch的一部分）在训练过程中模拟量化并支持反向传播，从而消除了训练和实际性能之间的差距。

这个神经网络可处理多种内容，包括复杂场景的绘画和图像。

5. 寻找创建3D体验的新方法

除了完善和改进深度估算算法外，团队同时致力于为移动设备拍摄的视频提供高质量的深度估算。视频带来了一个值得关注的挑战，因为每个帧的深度必须与下一帧的深度一致。但这同时是提高性能的机会，因为对同一对象的多次观察可为高精度的深度估计提供额外的信号。视频长度深度估计将为用户带来各种创新的内容创建工具。随着团队继续改善神经网络的性能，他们将探索在诸如增强现实之类的实时应用中利用深度估计，表面法线估计和空间推理。

Facebook指出：“除了这些潜在的新体验之外，这项研究还将帮助我们更全面地理解2D图像的内容。更好地理解3D场景同时可以帮助机器人导航并与现实世界交互。我们希望通过共享有关3D Photos系统的详细信息，我们可以帮助AI社区在这些领域取得进展，并创造利用先进3D理解的新体验。”