清华和中科大为智能眼镜面部捕捉提出低功耗解决方案AUGlasses
一副配备了三个低功耗惯性测量单元的智能眼镜,可用于精确的面部重建
(映维网Nweon 2024年11月11日)智能眼镜的尺寸和功率限制需要一个微型和低功耗的传感解决方案。针对这个问题,中国科学院大学和清华大学的研究人员提出了AUGlasses。它通过在面部颞区放置惯性测量单元(IMU)来捕获由面部肌肉运动引起的皮肤变形,从而实现不显眼的低功耗面部重建。
IMU信号以及面部动作单元(AUs)的历史数据由基于transformer的深度学习模型处理,以实时估计AU强度,然后用于面部重建。
结果表明,AUGlasses准确地预测了14个关键AU的强度(0-5级),跨用户平均绝对误差(MAE)为0.187(STD=0.025),并实现了跨用户MAE为1.93mm(STD=0.353)的面部重建。团队同时集成了各种预处理和训练技术,以确保连续传感的稳健性能。微观基准测试表明,系统始终如一地使用微调的跨用户模型进行精确的连续面部重建,并实现了0.35的AU MAE。
面部重建可以实现大量的应用,因为人脸包含有关情绪状态、健康状态、饮食活动,甚至疲劳水平的丰富信息。用户可以通过活动面部肌肉进行交互和主动反馈。它同时是逼真数字化身的关键。
研究人员使用各种类型的传感器来收集数据,以便在数字领域复制面部表情和肌肉运动。摄像头和毫米波雷达能够全面捕获面部特征。然而,智能眼镜的尺寸和功率限制需要一个微型和低功耗的传感解决方案。
在研究中,团队提出了AUGlasses。这是一副配备了三个低功耗惯性测量单元的智能眼镜,并可用于精确的面部重建。所述IMU具有高灵敏度,可以快速准确地捕获由面部肌肉运动引起的细微和短暂的皮肤变形。
研究人员进行了系统的分析,发现皮肤变形在颧弓上方的颞肌附近最为明显,而这一发现得到了面部解剖学的证实。为了利用这一点,他们在眼镜中加入了一个生物相容的弹性结构,将两个IMU放置在颞区,以监测皮肤运动和形状变化。
来自IMU的数据,结合面部动作单元(AU)强度的历史记录,将其输入一个深度学习模型以预测当前的AU强度。选择预测AU强度而不是面部特征点增强了系统的通用性,其结果是高频AU序列输出,以每秒30帧的速度运行,确保了下游应用的实时响应性和实用性。
团队同时提出了一种新的训练策略Prefix-conditioned Sequence Forecasting,促使模型学习跨多个高频帧表现出的远程依赖关系。然后将估计的AUs强度输入Unity进行实时面部重建。
系统的优势在于三个方面:
-
首先,低功耗传感方法确保了对智能眼镜续航的影响最小。IMU和蓝牙通信的功耗仅为49.95 mW (3.7 V时13.5 mA),低于目前的解决方案。如果传感器仅工作25%的时间,则平均功耗低至12.5 mW。它同时具有隐私保护、轻便和舒适的特点。IMU不会暴露敏感的个人数据,如图像或声音,这消除了用户对隐私的担忧。同时,支撑弹性凝胶结构和IMU的总重量仅为0.83克,为目前商用智能眼镜(即50g1)的1.66%。另外,尽管IMU与皮肤接触,但接触点实际上非常小。所以,传感器带来的额外重量和皮肤接触对用户来说几乎是不明显的。
-
其次,团队设计了一系列技术来保证长期连续面部重建的准确性。在预处理阶段,更新了移动伪影去除的映射参数,以确保其在用户移动时的有效性;在推理阶段,重新设置AUs作为模型输入的值,以避免长时间感知过程中预测误差的传播;在训练阶段,设计一种新颖的Prefix-conditioned Sequence Forecasting预测策略,以促使模型从固定的观测数据序列中学习,使其能够基于更广泛的背景而不仅仅是最近的过去来预测后续序列。这避免了曝光偏差,提高了连续面部重建的准确性和可靠性。
-
第三,系统仅通过预测14个AUs来重建整个面部。通过限制输出AUs,避免了直接预测面部特征点的二维坐标所带来的复杂性,同时获得了良好的面部重建性能。
团队首先进行了一系列优化传感器位置和支撑结构参数的实验,然后进行了坐姿和行走场景的用户研究,以评估14个AU强度的预测精度、面部重建和长时间连续预测。
用户研究结果表明,AUGlasses准确地预测了14个关键AUs的强度(0-5级),跨用户平均绝对误差(MAE)为0.187(STD=0.025),并实现了跨用户MAE为1.93mm(STD=0.353)的面部重建。团队同时集成了各种预处理和训练技术,以确保连续传感的稳健性能。微观基准测试表明,系统始终如一地使用微调的跨用户模型进行精确的连续面部重建,并实现了0.35的AU MAE。
相关论文:AUGlasses: Continuous Action Unit based Facial Reconstruction with Low-power IMUs on Smart Glasses
总的来说,AUGlasses是一款低功耗的智能眼镜,可以连续追踪14个面部动作单元,并实现准确的面部重建。团队设计了一种新的实时AUs估计架构,利用IMU数据和以前的AUs强度来估计当前帧的AUs强度。然后,基于14个AUs的预测强度在Unity中重建角色的面部,并通过提取51个面部landmark来将面部重建性能与ground truth进行比较。
重建的3D面部MAE仅为1.93 mm, NME为2.75%。主观结果显示,超过70%的参与者认为AUGlasses佩戴舒适,适合日常使用。后置分析表明,系统可以支持单个IMU,采样率为50Hz,这使得功耗进一步降低到40.96 mW。