AirSketch:基于手部动作的无标记悬空绘图与可控图像扩散模型探索
使用嵌入到智能眼镜等设备中的任何标准摄像头捕获的手部动作视频生成绘图
(映维网Nweon 2025年01月02日)诸如《Tilt Brush》等应用已经证明了在XR中直接进行艺术创作的效用,但它们通常需要额外的控制器,以及一定的操作技巧,这限制了它们的无障碍性和可移植性。另外,手势对于社交表达同样有着重要的辅助补充作用。
为了解决相关挑战,中佛罗里达大学团队提出了AirSketch的裸手悬空绘图概念,目标是使用嵌入到智能眼镜等设备中的任何标准摄像头捕获的手部动作视频来生成忠实和视觉连贯的绘图。
团队设计了一个基于增强的自监督训练程序,令一个可控的图像扩散模型能够学习从高噪点手部追踪图像转换为整洁清晰的绘图,同时保留原始追踪数据中的基本视觉线索。
研究人员提出了两个悬空绘图数据集来研究这个问题。结果表明,除了能够从精确的空间输入产生逼真的图像外,可控的图像扩散可以有效地从噪点输入产生精细、清晰的绘图。他们指出,这是迈向无标记悬空绘图的第一步,并揭示了可控制扩散模型在AirSketch和AR/VR中的不同应用。
手势是交流中必不可少的元素。特别是,通过悬空绘图可以帮助描绘讨论对象的视觉方面。这种表达形式经常用于补充口头交流,并用于各种实际应用,包括概念讨论,克服语言障碍和辅助视觉设计。
另外,《Tilt Brush》等热门艺术创作应用一般需要额外的控制器和一定的操作技巧。然而,控制器可以提供准确的定位和各种选项,是生产高质量绘图的关键。
所以,我们能在没有额外传感器或控制器的情况下通过手部动作生成绘图吗?为了提高无障碍性和便利性,中佛罗里达大学团队的目标是使用嵌入到智能眼镜等设备中的任何标准摄像头捕获的手部动作视频生成绘图。
尽管可以通过部署手部追踪算法来将相关手部运动视频转化为绘图。然而,单独使用手部追踪算法创建悬空绘图存在数个挑战,包括用户的绘图能力、身体疲劳和手部追踪不准确等等。
手部追踪中的噪点会严重扭曲绘图,使其几乎无法识别。所以,目标是从高噪点和扭曲的手部运动输入生成清洁的绘图,并忠实地代表用户的意图。这项任务要求模型对形状和对象先验有深刻的理解,使其能够辨别和纠正变形的运动线索,同时过滤掉不需要的噪点。
团队将这项任务称为生成运动绘图。有一系列的方法可以完成这项任务,涉及不同的架构和数据模式。输入模式可能包括学习的视频表示、来自手部追踪算法的坐标序列或光栅化图像。根据模态,任务可以重新表述为视频到草图、序列到序列、图像到图像或其组合。
这种多样性为所有不同方法的丰富探索带来了有趣的机会。中佛罗里达大学团队研究了使用可控图像扩散模型(DM)从运动中生成草图。ControlNet和T2IAdapter等现有方法在给定空间精确的条件图像的情况下可以生成逼真的图像,而他们探索了一个不同的用例,通过使用可控的DM从手部追踪算法获得的严重扭曲和噪点的输入图像中“重建”干净的绘图。
研究人员提出了一个简单的、基于增强的、自我监督的训练程序,并构建了两个用于评估目的的悬空绘图数据集。实验表明,通过基于增强的训练,可控图像DM能够从高噪点的图像中识别和解释正确的视觉线索,包括甚至看起来几乎无法人眼识别的图像,然后生成忠实而清晰的绘图。
总的来说,团队通过利用空间控制扩散模型来解决无标记悬空绘图的问题。他们设计了一个基于增强的无数据训练程序来学习从噪点到干净绘图的映射。他们收集了两个数据集,并验证了训练后的模型可以有效地从高噪点追踪图像中生成连贯和忠实的绘图,并表现出出色的泛化性。