Meta为AR眼镜理解真实世界提出AVT摄像画面预测架构
预测未来人类行为是人工智能系统的一项重要任务
(映维网 2021年11月08日)预测未来人类行为是人工智能系统的一项重要任务。比方说一辆正在等待红灯的自动驾驶汽车,它需要预测行人是否会过马路。做出这一决定需要对复杂的视觉信号进行建模,以反映行人的动作,如行走速度和方向)。
类似地,一台增强现实设备可以通过摄像头观察用户的活动,例如,当用户烹饪一道新菜或组装一件家具时,系统需要预测用户的下一步行动,以便及时提供帮助。在许多这样的应用中,识别视频中发生的事情并不足够。相反,视觉系统必须预测接下来可能采取的行动。所以,人们越来越有兴趣将活动预期任务公式化,并开发多个挑战基准来支持它。
与传统的动作识别相比,预测往往更具挑战性。首先,它需要超越将当前时空视觉模式划分为单一行动类别的范畴(这项任务非常适合于今天久经磨练的判别模型),并预测未来活动的多模式分布。
另外,尽管动作识别通常可以通过利用即时情景线索来回避时间推理,但预测本身就需要对过去动作的进展进行建模,从而预测未来。例如,一盘带叉子的食盘可能足以表明进食的动作,而预测相同的动作则需要识别和推理之前的动作顺序,例如切菜、烹饪、上菜等。事实上,最近的研究发现,建模长时间情景通常对预测非常关键,而动作识别中的帧级建模通常足够。
......(全文 1594 字,剩余 1093 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限