Meta为AR眼镜理解真实世界提出AVT摄像画面预测架构

查看引用/信息源请点击:映维网

预测未来人类行为是人工智能系统的一项重要任务

映维网 2021年11月08日)预测未来人类行为是人工智能系统的一项重要任务。比方说一辆正在等待红灯的自动驾驶汽车,它需要预测行人是否会过马路。做出这一决定需要对复杂的视觉信号进行建模,以反映行人的动作,如行走速度和方向)。

类似地,一台增强现实设备可以通过摄像头观察用户的活动,例如,当用户烹饪一道新菜或组装一件家具时,系统需要预测用户的下一步行动,以便及时提供帮助。在许多这样的应用中,识别视频中发生的事情并不足够。相反,视觉系统必须预测接下来可能采取的行动。所以,人们越来越有兴趣将活动预期任务公式化,并开发多个挑战基准来支持它。

与传统的动作识别相比,预测往往更具挑战性。首先,它需要超越将当前时空视觉模式划分为单一行动类别的范畴(这项任务非常适合于今天久经磨练的判别模型),并预测未来活动的多模式分布。

另外,尽管动作识别通常可以通过利用即时情景线索来回避时间推理,但预测本身就需要对过去动作的进展进行建模,从而预测未来。例如,一盘带叉子的食盘可能足以表明进食的动作,而预测相同的动作则需要识别和推理之前的动作顺序,例如切菜、烹饪、上菜等。事实上,最近的研究发现,建模长时间情景通常对预测非常关键,而动作识别中的帧级建模通常足够。

所述挑战在实践中同样得到了证实。例如,当在同一测试剪辑上处理识别与预测时,当今性能最好的视频模型之一的准确率从42%下降到17%。显然,预测未来哪怕是一秒钟都比识别当前动作困难得多。

解决预测推理任务的典型方法包括使用标准架构提取帧或片段级特征,然后使用基于聚类、递归或attention的模型进行聚合。除了重复出现的模型外,大多数此类模型仅在时间范围内聚合特征,很少考虑视频在帧上的时序演化。尽管像LSTM这样的循环模型已经被探索用于预测,但由于它们的顺序(非并行)性质,它们难以建模远期的时间依赖性。最近的研究通过对不同数量的情景进行基于attention的聚合来产生短期和远期特征,从而缓解这一限制。但是,它依然会将视频简化为多个聚合表示,并失去其连续性。另外,它依赖于对架构和用于不同聚合特性的情景量的仔细和特定于数据集的调优。

在名为《Anticipative Video Transformer》的论文中,Facebook和得克萨斯大学奥斯汀分校介绍了一种替代的视频建模架构Predictive Video Transformer(AVT)。它用预测架构来取代基于“聚合”的时间建模。为了克服上述权衡,所提出的模型自然地包含了视频的顺序性,同时最大限度地减少了重复架构带来的限制。

与周期性模型类似,AVT可以无限期地roll out以预测未来(即生成未来预测),但它在处理输入的同时能够处理远期attention,而这是周期性架构中经常丢失的部分。

具体地说,AVT利用了流行的transformer架构,其中causal掩膜attetion,每个输入帧只允许关注它前面的帧。团队训练模型来共同预测下一个动作,同时学习预测与真实未来特征及其中间动作标签相匹配的未来特征。

图1显示了AVT的空间和时间attention如何在两个先前观察到的帧(洗西红柿和关闭水龙头)传播的示例。通过合并intermediate未来预测损失,AVT鼓励预测性视频表示,以拾取视觉活动可能在未来展开的模式。模型的这一方面类似于语言。在语言中,经过大量文本语料库训练的transformer现在是预测单词序列的强大工具。尽管具有卷积结构且没有intermediate自我监督损失,但增量时间建模方面同时有用于探索动作识别。尽管到目前为止所描述的体架构可以应用于各种帧或片段编码器之上,但团队进一步提出了一种纯attention-based的视频建模架构,方法是用Vision Transformer中的attention-based帧编码器替换主干。这使得AVT不仅能够处理特定的帧,而且能够在一个统一的框架中处理帧内的空间特征。

当在以自我中心视频进行训练时,模型会自发地学习关注与手和对象相对应的空间特征,这在预测未来活动时往往特别重要。总之,本次研究的贡献是:一种新颖的端到端纯attention-based预测视频建模架构AVT;结合了自我监督的未来预测损失,使该架构特别适用于预测任务,如行动预测;
对模型进行广泛的分析和实验。

具体而言,VT在EpicKitchens553, EpicKitchens-1003, EGTEA Gaze+, and 50-Salads方面的表现优于所有已发表的前期研究成果。最值得注意的是,所述方法优于EpicKitchens-100 CVPR’21挑战赛的所有提交作品。

相关论文Anticipative Video Transformer

团队相信,AVT非常适合预测之外的任务,例如自我监督学习,发现动作模式和边界,甚至对于需要建模时间顺序的任务中的一般动作识别。当然,研究人员计划在今后的研究中探索所述方向。

本文链接https://news.nweon.com/91360
转载须知:转载摘编需注明来源映维网并保留本文链接
入行必读:AR/VR——计算机历史第二次大浪潮

更多阅读推荐......

资讯