告别昂贵设备与人工标注:Meta以数据驱动方式重塑VR面部追踪
基于红外摄像头的实时面部表情追踪系统
(映维网Nweon 2026年02月26日)Meta Reality Labs团队介绍了一种名为REFA的实时面部表情方案,它能够利用嵌入VR头显中的红外摄像头所捕获的第一人称视角图像,实时追踪面部表情,以便用户能够以非侵入式方式精准驱动虚拟化身的面部表情,且无需冗长的校准步骤。
作为数据集构建工作的一环,研究人员采用轻量化采集方案,仅需搭配定制摄像头的VR头显与智能手机,采集了涵盖1.8万名多样化受试者的面部数据。为处理数据,他们开发了鲁棒的可微分渲染管道,可自动提取面部表情标签。

传统的VR面部追踪面临三大挑战:头显遮挡面部导致难以捕获完整表情、额外增加摄像头带来的成本和复杂性、以及移动平台的计算限制。这使得虚拟化身常常呈现出僵硬的表情。
Meta的研究旨在解决这一难题。团队开发了一套基于红外摄像头的实时面部表情追踪系统,只需将5个摄像头嵌入VR头显,就能精确捕获用户的面部动作,并驱动虚拟化身做出相应的表情。
通常,在头显局促的空间里确定摄像头位置靠的是反复试验。但Meta团队先用800个面部扫描生成计算机模型,通过仿真计算“可见性”和“运动范围”两个量化指标,直接在虚拟世界中确定了5个红外摄像头的最佳位置:两个追踪眼部和眉毛,两个监控嘴部,一个负责眉间区域。这种方法将硬件设计从“经验驱动”变成了“数据驱动”。
更大的突破在于数据处理。要训练一个能读懂面部表情的机器学习模型,需要海量标注数据。传统方法依赖昂贵的人工标注,而团队设计了一套巧妙的解决方案:用带有深度传感器的iPhone配合改装版VR头显同时采集数据。iPhone提供高精度面部扫描,头显则记录用户日常佩戴时的视角。这比动用昂贵的大型相机阵列要高效得多。
有了数据,如何自动标注?团队开发了一个“可微渲染管道”,训练一个网络,让它预测的表情系数能渲染出一张图,并且这张图要和原始摄像头图像尽可能相似。这个自监督过程让系统可以自动为18000名受试者贡献的3万亿帧图像打上标签,摆脱了人工标注的瓶颈。
面对真实拍摄、合成生成和标注这三种差异巨大的数据源,团队设计了一套迭代蒸馏训练框架。合成数据虽然标签完美,但视觉上与真实图像存在差异,他们引入了域自适应技术,让模型忽略视觉差异,只关注面部运动本身。真实数据标签含有噪点,所以他们通过多轮迭代,用含噪数据训练多个模型,让模型去重新预测并投票产生更纯净的标签,再用新标签训练下一代模型。经过五六轮迭代,模型的表情逐渐变得生动准确。
最终,这套系统实现了优异的效果。在定量评估中,语义准确性从0.4提升到0.7(满分1.0),特别是在眼部闭合、嘴部闭合等关键指标上表现出色。更重要的是,它输出的是业界通用的融合变形系数,这意味着第三方开发者可以直接用它来驱动自己设计的各种风格虚拟角色。
相关论文:REFA: Real-time Egocentric Facial Animations for Virtual Reality
未来,研究团队计划加入音频和时间信息,进一步提升在极端遮挡情况下的表现。

