俄罗斯团队研发HapticVLM多模态触觉系统,实现84.7%材料识别准确率
多模态系统
(映维网Nweon 2025年08月22日)在一项研究中,俄罗斯斯科尔科沃科学技术研究院团队介绍了一种新颖的多模态系统HapticVLM。它将视觉语言推理与深度卷积网络相结合,以实现实时触觉反馈。HapticVLM利用基于ConvNeXt的材料识别模块生成鲁棒的视觉嵌入,以准确识别物体材料。同时,采用先进的视觉语言模型(Qwen2-VL-2B-Instruct)根据环境线索推断环境温度。
系统通过扬声器提供振动触觉反馈,并通过帕尔贴模块传递温度线索,从而合成了触觉感受,弥合了视觉感知与触觉体验之间的鸿沟。实验评估表明,系统在五种不同的听觉-触觉模式平均识别准确率达到84.67%。在15种场景下,温度估计准确率达到86.7%。
当然,团队坦诚,当前研究存在一定的限制,未来工作将着重于扩展触觉模式范围并增加用户研究,以进一步完善和验证系统性能。总体而言,HapticVLM向情境感知、多模态触觉交互迈出了重要一步,在虚拟现实等领域具有潜在应用价值。
感知和区分纹理、温度、硬度等材料属性是人类与物理世界互动的基本能力。人类的触觉感知整合了视觉、听觉和触觉线索,形成对物体表面的全面理解,从而实现精确的材料识别和交互。尽管计算机视觉和机器学习的最新进展显著提升了物体检测和分类能力,但复制细粒度的触觉感知依然是一个开放的挑战。特别是,触觉反馈系统通常依赖于预定义的材质特性或直接的触觉传感,限制了其动态适应新环境的能力。
随着视觉语言模型的出现,深度学习在从多模态输入推断物体属性方面展现出更强的能力。然而,视觉语言模型在触觉反馈系统中的应用在很大程度上尚未得到探索。针对这个问题,俄罗斯斯科尔科沃科学技术研究院团队提出HapticVLM。
这是一个新颖的系统,它利用卷积神经网络进行材料识别,利用视觉语言模型进行环境评估,以生成实时触觉反馈。系统通过两个主要阶段运行:首先,一个神经网络根据物体的视觉特征(即金属、木材或织物)对其进行材料分类。分类后,系统检索与识别材料相关联的预先录制的表面交互声音,并使用扬声器再现相应的触觉感受。通过整合振动和听觉线索,HapticVLM使用户能够以高度模拟真实世界触觉交互的方式感知纹理。
第二阶段涉及根据环境条件估计物体的热属性。利用VLM驱动的推理,系统分析上下文视觉线索(包括环境光照和物体反射率)以推断预期温度。这个估计的热响应通过帕尔贴模块呈现,使用户能够体验到与推断的材料温度相对应的动态热反馈。
与依赖预定义参数或手工制作材料特性的现有触觉反馈方法不同,HapticVLM引入了一种数据驱动的方法来动态合成触觉感受。先前在触觉系统中的研究探索了基于振动的纹理模拟和基于力的动觉反馈,但它们在整合实时感知推理方面能力依然有限。
团队提出的方法通过利用视觉语言模型进行物体识别,而且进行材料属性推断(随后转化为触觉反馈),将视觉、声音和触觉融合成一个统一的系统。另外,以前的系统对每种材料使用固定温度值,而HapticVLM的创新之处在于根据环境线索动态地从多个预定义的热状态中选择,确保更真实地模拟温度变化。
通过将多模态感知与AI驱动的触觉反馈相结合,HapticVLM为智能、情境感知的触觉交互提出了一个新范式,并为下一代触觉技术奠定基础,能够提供比传统触觉反馈更丰富、更沉浸、感知更一致的体验。
图2a展示了HapticVLM系统材料识别模块的流程。采用ConvNeXt架构生成材料的嵌入表示。深度学习模型专为从图像中提取高质量特征表示而设计,确保嵌入准确捕获每种材料的独特特性。模型的输入数据包括包含材料的图像以及指示其在图像中位置的掩码。图像作为视觉信息的主要来源,而掩码则突出显示感兴趣区域,使模型能够聚焦于相关特征。为了构建用于识别任务的鲁棒数据库,选择N种材料并对其嵌入进行了预处理。选择这些材料是为了确保多样性和相关性,在预处理后计算并存储其嵌入。
从视频中实时识别材料是可实现的,这意味着随着视频帧顺序处理,系统可以快速识别每一帧中的材料而不会出现显著延迟。对于这些图像,应用相同的掩码,假设材料位于每帧的中心位置。这种简化设定目标材料占据显著位置,从而在保持准确性的同时降低了计算复杂度。随后,使用余弦相似度将生成的嵌入与数据库中的嵌入进行比较。通过计算嵌入之间的余弦相似度,系统能有效判断给定材料与数据库中存储材料的匹配程度,即便在具有挑战性的场景下都能实现准确识别。这种方法将先进的深度学习技术与实际应用相结合,提升了各种背景下的材料识别能力。
图2b展示了温度估计任务。为了确定室温,采用视觉语言模型并处理由摄像头捕获的周围空间图像,以及一个基于照片询问房间温度的查询。研究人员选择了Qwen2-VL-2B-Instruct这个在泛化和高效多模态学习方面表现出色的开源模型,使其特别适用于需要实时推理的应用。所提出方法利用视觉语言模型的优势有效解释视觉线索,基于从图像中提取的上下文信息实现准确的温度估计。
将视觉数据与自然语言查询相结合,可实现更直观的交互,通过根据环境条件提供即时反馈来增强用户体验。这种能力对于开发能够适应不同场景并向用户实时传递可靠信息的响应式系统至关重要。在此背景下使用VLM体现了其在不同领域实际应用中的多功能性和潜力。
同时,扬声器用来通过振动提供物理交互,而用户可以通过将手掌放在扬声器上来感受这些振动。所再现的声音经过精心挑选,以高度模拟真实的触觉感受。需要注意的是,人类主要在1至1000赫兹频率范围内的声音才能物理感知到振动,这对音频选择构成了限制。以这种方式集成扬声器增强了感官体验,使用户能够有效地连接听觉和触觉反馈。通过确保音频输出与触觉反馈一致,系统创造了更具吸引力和更直观的用户体验。
对于温度反馈,使用了帕尔贴模块(TEC1-03108,20×20mm)。这种热电装置的工作原理是当电流通过时产生温差,使一侧变热而另一侧冷却。帕尔贴模块对于需要精确温度控制的应用特别有效,因为它能快速响应操作条件的变化。
相关论文:HapticVLM: VLM-Driven Texture Recognition Aimed at Intelligent Haptic Interaction
总的来说,团队提出的HapticVLM是一种新颖的系统,它利用视觉语言模型和深度卷积网络来生成实时、多模态的触觉反馈。系统架构包含两个主要模块:材料识别和温度估计。材料识别模块采用基于ConvNeXt的编码器从材料图像生成嵌入表示,通过余弦相似度度量实现鲁棒的识别。同时,温度估计模块利用Qwen2-VL-2B-Instruct模型从视觉线索推断环境温度,然后通过帕尔贴模块呈现。与触觉振动同步的听觉线索进一步增强了系统提供的多感官体验。
实验评估在两个领域都展示了良好的结果。触觉模式识别研究实现了平均84.7%的准确率,其中如木材雕刻加热(WC-h)等特定模式达到了100%的识别率。在温度估计任务中,视觉语言模型在15个案例中有13个正确推断出温度范围,对应86.7%的准确率。所述结果凸显了该系统在基于视觉和听觉输入动态合成逼真触觉反馈方面的潜力。
尽管如此,当前的研究存在一些局限性。触觉模式识别实验仅使用了五种显著的振动触觉模式,可能无法完全捕获现实场景中遇到的多样性。另外,参与者数量相对较少,限制了研究结果的普适性。在未来的工作中,团队计划通过纳入更多性质相似的触觉模式来扩展实验设计,以更好地理解用户感知和系统性能的细微差别。同时,它们打算增加参与者数量以获得更具统计稳健性的见解。进一步的研究将探索整合额外的感官模态(如力反馈),并通过高级模型训练及更大、更多样化的数据集来改进基于VLM的温度估计,从而增强触觉反馈系统在虚拟现实等应用中的真实感和适应性。
总体而言,HapticVLM代表了向智能、情境感知触觉交互迈出的重要一步,弥合了视觉感知与触觉感受之间的差距,并为未来更沉浸、更有效的多感官系统奠定了基础。