Facebook用竞技体育训练深度学习框架,为AR/VR探索复杂密集性交互

查看引用/信息源请点击:映维网

探讨了用于训练二人竞技体育的控制系统的技术

映维网 2021年07月13日)大多数体育项目都需要长时间的竞赛,同时其间会穿插敏捷的技巧表现。例如在拳击和击剑等双人竞技运动中,运动员在比赛中经常表现出高效的战术动作。这种关键时刻往往决定着比赛的结果,而观众一直在等待并为其欢呼。

但是,这同样意味着复杂性,所以动画角色一般难以精确再现。如果能够创建可以自动执行竞技动作,并将它们组合成制胜策略,我们将在游戏、电影和体育广播中开辟众多新应用。创建多人动画场景是一个挑战,因为它不仅要求每个人以自然的方式行事,而且要求它们之间的交互在时间和空间域同步。

交互越密集,问题就越具有挑战性,因为没有时间在交互之间“重置”。使用物理模拟的角色简化了问题的一部分,因为底层物理交互(如碰撞)是通过模拟自动生成。然而,由于学习构成一场完整比赛的一系列技能的计算复杂性,如何协调不同技能尚未得到深入研究。在竞技体育中使用模拟角色的一个关键挑战是,我们需要学习基本技能和赛级别策略,以便它们能够协调一致地工作。近年来,深度强化学习技术在为运动和操纵等常见行为,以及骑自行车和体操等更复杂行为创建控制器或控制策略方面取得了长足的进步。不过,所述行为大多只涉及单个角色,需要角色间相互作用的行为尚没有得到深入的研究。

在名为《Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports》的论文中,Facebook AI Reasearch探讨了用于训练二人竞技体育的控制系统的技术,并开发了一个为具有多个自由度的模拟运动员生成控制策略的学习框架。团队提出的框架采用了两步学习法,用深度强度学习来学习基本技能和学习比赛级别策略,以及深度强化学习。

研究人员开发了一个基于编码器-解码器结构的策略模型,其包含一个自回归潜变量和一个Mixture-of-Experts(MOE)解码器。为了证明框架的有效性,Facebook AI Reasearch实现了两个竞技体育项目:拳击和击剑,并且展示了框架学习到的控制策略。团队同时通过与其他学习配置和消融研究的比较来评估控制策略。

Facebook AI Reasearch的框架以一组包含两人竞技运动基本技能的运动数据为输入,然后生成两个物理模拟运动员的控制策略。控制策略允许玩家以正确的动作和时机完成一系列基本技能,从而赢得比赛。图2展示了框架的概述。首先,团队收集一定的运动剪辑,包括在没有对手的情况下实现的基本技能动作。然后采用单代理深度强化学习方法,对运动进行单次模仿策略学习。最后,将模仿策略转化为竞技策略,每名参与者通过具有竞争奖励的多代理体深度强化学习来增强自己的策略。为了有效地从模仿策略转换到竞技策略,研究人员使用了由一个task-encoder和一个motor-decoder组成的全新策略模型。

研究人员创建了两个竞技体育环境:拳击和击剑,作为示例,两名运动员为了赢得比赛而互相竞技(图1)。在拳击比赛中,研究人员扩大了双手,使其尺寸更大并类似拳击手套的大小。竞技场的大小是5米*5米, 玩家只能用手套击打对手的上半身。一轮60秒,对对手造成最大伤害的玩家获胜。对于击剑环境,研究人员在右手末端附加了一个刀片,以模仿一把牢牢握住的剑。竞技场的大小是12米*2米, 运动员只能用剑接触对手的躯干,这类似于花剑规则。先碰到对手的玩家赢得比赛,但是,如果玩家在1秒内成功反击,比赛可以变成平局。

在实验中,尽管Facebook AI Reasearch的方法能够生成竞争策略的紧急行为,但生成运动的自然性依然取决于输入参考运动的质量。例如在拳击比赛中,职业运动员在比赛中表现出极其敏捷的行为,而实验中的模拟运动员则相对动作缓慢。团队认为,造成这种差异的主要原因是,实验使用的输入动作是从一个训练非常有限的拳击手那里获得。有研究表明,使用一小时的协调运动捕捉数据可以获得高质量的结果。使用所述数据将有助于增加框架生成运动的自然性和多样性。

随着输入动作的数量和包含的行为变得越来越大和多样化,以端到端的方式学习模仿策略将失败。分层方法可能是一种补救方法:首先将输入运动分为几个类别,学习每个类别的模仿策略,最后将它们组合成一个单一的模仿策略。团队指出,本文描述的方法是第一个为二人竞技项目自动生成多自由度仿人控制策略的方法。

另外,尽管这只是一项初步研究,但研究人员希望能够继续探索提高框架的性能,并克服目前的方法的局限性。从长远来看,这一研究方向旨在帮助人类用户能够在各种应用程序中能够与以物理合理方式控制的智能角色进行交互,比如收游戏和虚拟现实。

总结而言,名为《Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports》的论文的贡献包括:

  1. 新颖的结果。团队展示了成功的控制策略,其能够在高自由度的物理模拟竞争环境中产生响应性和自然外观的行为。
  2. 策略模型和学习程序。团队的策略模型针对有效的转移学习而设计,其可使用一名单独演员的运动剪辑来进行类推。例如,它利用拳击手单独练习的几分钟时间来为模拟角色拳击制定合理的竞争政策。
  3. 为未来的研究奠定了基线。团队实现了两个情景:拳击和击剑。为了支持未来的研究人员,团队计划分享所述的两个情景和学习策略。

更多关于论文的研究说明和实验统计请访问Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports

本文链接https://news.nweon.com/87518
转载须知:转载摘编需注明来源映维网并保留本文链接
入行必读:AR/VR——计算机历史第二次大浪潮

更多阅读推荐......

资讯