Meta为AR眼镜理解真实世界提出AVT摄像画面预测架构

小编 ovaliu | 分类：论文 | 2021年11月8日

加入映维网会员

预测未来人类行为是人工智能系统的一项重要任务

（映维网 2021年11月08日）预测未来人类行为是人工智能系统的一项重要任务。比方说一辆正在等待红灯的自动驾驶汽车，它需要预测行人是否会过马路。做出这一决定需要对复杂的视觉信号进行建模，以反映行人的动作，如行走速度和方向）。

类似地，一台增强现实设备可以通过摄像头观察用户的活动，例如，当用户烹饪一道新菜或组装一件家具时，系统需要预测用户的下一步行动，以便及时提供帮助。在许多这样的应用中，识别视频中发生的事情并不足够。相反，视觉系统必须预测接下来可能采取的行动。所以，人们越来越有兴趣将活动预期任务公式化，并开发多个挑战基准来支持它。

与传统的动作识别相比，预测往往更具挑战性。首先，它需要超越将当前时空视觉模式划分为单一行动类别的范畴（这项任务非常适合于今天久经磨练的判别模型），并预测未来活动的多模式分布。

另外，尽管动作识别通常可以通过利用即时情景线索来回避时间推理，但预测本身就需要对过去动作的进展进行建模，从而预测未来。例如，一盘带叉子的食盘可能足以表明进食的动作，而预测相同的动作则需要识别和推理之前的动作顺序，例如切菜、烹饪、上菜等。事实上，最近的研究发现，建模长时间情景通常对预测非常关键，而动作识别中的帧级建模通常足够。

......（全文 1594 字，剩余 1093 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限