从Spilly谈社交AR应用的技术实现原理
文章相关引用及参考:映维网
Spilly于本周正式发布了AR应用Spilly World,而本文正是来自于Spilly团队
(映维网 2018年01月18日) 2014年,一家名为Looksery的乌克兰初创公司利用这项技术为消费者创建了一个数字化妆自拍应用程序,而该应用程序的下载量超过了一百万次。Snapchat发现了潜在的巨大市场,并且斥资收购了Looksery。6个月后,这为Snapchat带来了现在十分知名的“Lens”产品。在另一边厢,Facebook感觉到竞争对手的危险,他们在这之后的第二年收购了MSQRD应用程序背后的团队。“自拍AR”这种以人为核心的计算机视觉突然在世界范围内引起了轰动,成为了两大社交媒体巨头之间斗争的关键武器。
在2017年,苹果和Snapchat都第一次推出了基于SLAM技术的ARKit和World Lenses(允许设备在平面上置放数字对象),而Facebook则为市场带来了AR Studio(允许开发者创建自己的AR滤镜)。然而,有消息称相关的努力尚未成为用户之间极速蹿红。
那么接下来是什么呢?对我们来说,这是新型社交AR的兴起。社交AR不仅能够作为自拍AR阶段和眼镜AR之间的桥梁,而其潜在相关的技术有可能成为未来的关键组成部分。要做到这一点,我们需要开发一个神经网络,在所有配置中(不仅只是自拍)实时检测和追踪人像。然而,这向我们提出了一系列的挑战。
对于利用前置摄像头实现的自拍AR追踪,其基本上是识别和追踪人像时的一个特殊情况。从前置摄像头转移到后置摄像头,我们将有可能遇上其他情况,如:
- 对象更有可能偏离相对于摄像头的中心位置。
- 他们可以出现在不同的距离,或以不同的大小呈现。
- 他们往往不是面向摄像头,所以我们不能只是寻找人脸,而是要寻找头部,头发,帽子和各种相关特征。
- 视图中经常出现多个人像。
为了实现我们的技术,以上是我们需要克服的事项。那么,技术的工作原理到底是什么呢?下面我们将其分解成4个部分:
1. 多个头部与身体的检测
我们的技术能够实时检测多个头部与身体。在提供用户的摄像头图像后,应用程序可以识别图像中显示头部及其相应身体的区域。
这能够做什么呢?这允许我们根据头部大小来估计人像的距离。对于身体,我们可以锚定人像运动的任何视觉信息。
2. 场景/视图中的持续性个人追踪
为了追踪场景中人像的动作与特征,我们根据多个帧来比较多个头部和身体的信息。这样,即使他们是被其他人包围,即使他们离开摄像头视图后又重新进入,我们也能够将视觉信息固定在特定的人像身上。
3. 单独背景与全身细分
对于每个目标追踪人像,我们会进一步分类属于面部,皮肤,头发,衣服和背景的像素。就这样,我们能够清晰地分离开一系列不同的图层,然后我们可以将其用于AR效果的高级混合。如果不是这样,设备只能通过光场或深度感知技术实现,而这对当前的智能手机而言并不实际。
4.编辑器
我们专门培训了我们的神经网络,令其产生任何设计师都可以轻松进行交互和操作的图层。由于网络基于简单的数学计算,因此我们很容易在桌面和移动设备上以相同的质量实现。这使得设计人员能够使用我们的自定义编辑器来快速迭代和设计面向Spilly应用程序的视觉效果。
以上是具体的工作原理,下面让我们看看技术的部分用例:
- 我们开发的三款社交AR应用程序:鼓励人们聚在一起,扮演自己喜欢的明星,来回作弄对方等等。
- 游戏体验:人们现在可以成为游戏中的可定位和可操作的角色。
- 时尚应用:将衣服/滤镜应用至用户身上,不仅有趣,而且你可以进行虚拟“试穿”和购买。
- 把你自己放入第三方内容:借助我们的全图细分技术,用户可以将头部置放于任意视频中的人像身上,从而完成“头部移植手术”。不知道你想不想成为最爱电影中的主角呢?
潜在的用例很有很多。在眼镜AR时代,人们很可能成为一系列相互作用的情境触发器,如室内生活情景(如特定于某人的提醒,比方说提醒丈夫做早餐),个人细节,或者说更丰富的游戏体验。接下来,我们可能会看到涉及商业交易的户外交互(如“分类广告网站”项目的个人付款),以及视觉增强,你可以期待Tumblr和Pinterest(皆为图片分享应用)背后的相同动机扩展到你个人身上。
简而言之,人管理着这个由技术驱动的世界,而这种以人为中心的视觉技术进步只会进一步将人与技术联系在一起。我们正在走向这么一个未来:以智能手机为基础的商业,娱乐和自我表达将从屏幕束缚中解放出来,数字世界将直接集成至我们面前的世界。我们需要谨慎行事,但这个潜在未来的价值已经清晰可见。