卡内基梅隆大学提出一种无人监督的视频重定向技术
文章相关引用及参考:cmu
一种无人监督的视频重定向技术
(映维网 2018年10月16日)卡内基梅隆大学的研究人员日前提出了一种无人监督的视频重定向技术:Recycle-GAN。这是一种基于数据的方法,可以将内容从一个域转换至另一个域,同时保留域的原生样式。比方说约翰·奥利佛的发言内容转换至史蒂芬·科拜尔,然后生成属于史蒂芬·科拜尔风格的内容/发言。
卡内基梅隆大学研究团队的方法结合了空间与时间信息,以及用于内容转换和风格保存的对抗性丢失。在这项研究中,团队首先研究使用了时空约束相较于空间约束的优势。然后,他们演示了针对空间与时间信息问题的方法,如面部到面部的转换,花到花,风和云合成,日出和日落。
用于面部与花朵的视频重定向技术。上面一栏是从约翰·奥利佛到史蒂芬·科拜尔;下面一栏是合成花朵随输入花朵开花的过程
1. 面部到面部
研究团队采用了各个公众人物的公开视频来执行面部到面部的转换任务。他们采用通过OpenPose生成的面部关键点来提取面部。示例视频中的公众人物包括马丁·路德·金,奥巴马,特朗普,约翰·奥利佛和史蒂芬·科拜尔等。
约翰·奥利佛到史蒂芬·科拜尔
马丁·路德·金到奥巴马
约翰·奥利佛到史蒂芬·科拜尔
上面的视频显示了针对各个公众人物进行面部到面部转换的随机示例。在没有任何输入调整或手动监督的情况下,研究团队的方法可以捕捉公众人物的风格表达。举个例子,约翰·奥利佛在微笑时会露出酒窝,唐纳德·特朗普的标志性嘴形等。
研究团队演示了Cycle-GAN和Recycle-GAN数个对比示例
特朗普到奥巴马
奥巴马到特朗普
约翰·奥利佛到史蒂芬·科拜尔
2. 身体到身体
以上示例专注于面部。在下面的示例中,研究团队将相同的技术应用于身体重定向。
上面视频是从到马丁·路德·金到奥巴马的转换。低分辨率的输入-输出导致面部精细细节的缺失(如嘴部移动)。生成高分辨率的输出可以帮助生成精细的细节。
3. 花到花
从面部和其他传统转换扩展开来,研究团队把目光放了花朵身上。他们采用了各种花朵,并从公开的视频中提取它们的延时定格。延时定时能够演示不同花朵的绽放,但不存在任何同步。研究团队利用他们的方法来对齐内容,即令花朵一起绽放或枯萎。
他们使用了蒲公英花来比较Recycle-GAN与Cycle-GAN。从视频中可以看到,Recycle-GAN可以在两个域中学习适当的对应关系。
4. 基于重定向技术的视频操纵
研究人员通过两种情况下的视频重定向来演示他们的自动视频操纵方法:视频中合成云和风;在不同的视频中制作日出和日落。
4.1 云与风的合成
研究人员的方法可以用于合成包含所需环境条件的新视频(比方说云和风),不需要实际地重新进行捕捉。他们采用来自所需环境条件的给定视频和视频数据来作为实验中的两个域,然后使用条件性视频和训练的转换模型来生成所需的输出。
对此这个实验,研究团队采集了各种风与云条件的视频数据,例如平静的一天或刮风的日子。借助开发的视频重定向方法,他们可以将平静的一天转变为刮风的日子,或者是将刮风的日子转变为平静的一天,同时不会改变场景的美学。
上面的视频展示了研究团队模拟环境条件的尝试。他们可以根据需要进行调节,并在不改变场景美学的情况下合成条件。
上面的视频展示了研究团队模拟环境条件的尝试。他们可以根据需要进行调节,并在不改变场景美学的情况下合成条件。
4.2 日出与日落
作为人类,我们倾向于对齐抽象概念,并思考/想象如果我们在另外某个位置来观察事物时的情景。例如,你可能在纽约大西洋沿岸看到日落,并且可能开始想象加利福尼亚日落的情景;或者你可能正漫步于匹兹堡的街道,并可能开始想象在巴黎街头漫步的感觉。
受这一思维过程的启发,研究人员从各种网络视频中提取出日出和日落数据,并演示了他们的方法是如何用于视频处理和内容对齐。这类似于云与风合成实验中的设置。
上面的视频显示了研究团队在给定地点合成日出的尝试
上面的视频显示了研究团队在两个不同位置对齐日落内容的尝试
5. 学习真实飞鸟的折纸飞鸟
研究团队利用了Kholgade等人的原始折纸飞鸟视频
相关论文:recycle gan