苹果visionOS 26大幅提升Persona虚拟化身视觉保真度

查看引用/信息源请点击:roadtovr

如何在小型化设备实现

Vision Pro QQ群交流653565822

映维网Nweon 2025年06月19日苹果visionOS 26的Persona实现了巨大的视觉进步。在亲眼目睹了新系统之后,你很难不会留下深刻的印象。但一个主要的问题依然存在:如何将这种保真度带到小型化设备。

就如同全身动捕一样,头显设备的摄像头位置(视场覆盖)带来了物理方面的限制,而且随着形状参数的不断小型化,问题将变得越发困难。

visionOS 26中的Persona大大提高了标准

visionOS 2现有的Persona系统已经是市场最逼真的实时虚拟化身系统。但苹果依然在不断提高标准。事实上,团队对visionOS 26的结果非常满意,并将删除“测试版”标签。

如上面的视频所示,Persona的视觉保真度已经有了长足的提升,在亲眼目睹了新系统之后,你很难不会留下深刻的印象。

注意,对于嘴巴模糊的情况,这是因为在演示测试时把手放在嘴巴前面,遮挡了头显朝下摄像头的视场。另外,如果你看到视频的动作“不自然”,这并不是故障,而是故意通过奇怪的姿势来测试系统。

与之前的版本相比,尽管使用了相同的程序,相同的摄像头,并且依然是在设备端处理所有内容,但结果明显有所改善。皮肤和毛发看起来更加细致,而尤其令人印象深刻的是,它可以捕获到胡茬。

但或许更为重要的是,苹果的Persona系统以令人印象深刻的细节捕获了面部的细微变化。你可以看到视频以不寻常和不对称的方式活动脸颊,但结果看起来依然是细致入微。目前尚不清楚新版本的Personas是否升级了动作映射,或者只是因为底层扫描现在更详细,所以看起来更逼真。

苹果同时证实,相关改进将同时应用到Eyesight显示器。不过,由于前置显示器的亮度和分辨率在很大程度上是限制因素,但届时的Persona应该看起来更详细、更逼真。

总的来说,“幽灵”的感觉大大降低。然而,手的效果看起来依然幽灵感十足(或许比原来更可怕,因为现在手的模糊和脸的坚实之间形成了更大的对比)。

如何在到更小的头显中实现?

Personas的视觉质量实现了明显的飞跃,但一个关键的问题是:随着未来设备的小型化,苹果又将如何保持这种质量标准?

这不仅仅是因为一个更紧凑的头显需要更节能,以便在更小的封装中完成同样数量的计算。更小的头显同时意味着更少的摄像头空间。

首先,令Personas成为可能的关键是,头显摄像头可以对准用户的嘴、脸和眼。这是为了准确将面部运动映射到虚拟化身的重要原始“ground truth”视图。

如果你有一张正面的完整照片,这并不难。但随着视角变得越来越极端,这个任务将变得越来越具有挑战性。这就是为什么早期的面部追踪技术通常会在用户面前放置一个摄像头(这样就可以获得清晰、不失真的视图)。

早期的Oculus面部追踪原型机,大约在2015年

即便是现代的面部追踪头戴设备,为了更清晰地观察人脸,它们都需要把摄像头挂在离脸部相当远的位置。

VIVE XR Elite

如果你要实现一个更小的头显,摄像头最终会移动到更靠近脸部的地方。这意味着来自摄像头的“ground truth”数据是来自一个相当极端的角度。角度越极端,就越难映射运动。

当然,厂商正在活用各种手段。对于像Quest Pro和Vision Pro这样的头显,解决这个角度问题的一个选择是训练算法,同时提供用户面部的清晰视图和面部的极端角度视图。这将允许算法更好地预测清晰视图如何映射到极端角度视图。

Meta Reality Labs的研究为例,团队设置有额外的摄像头来捕获面部的多个视图。通过角度相对照的训练,系统甚至可以从极端角度准确预测面部的运动。

这种方法适用于像Quest Pro和Vision Pro这样的头显,因为它们依然足够突出,允许朝下摄像头可以获得足够的视图,并通过额外的训练以完成这项工作。

但头显的未来发展方向是护目镜大小,甚至是眼镜大小。我们已经可以在PC VR头显(如Bigscreen Beyond)中看到这一趋势。

很明显,即便在头显的最远边缘安装一个摄像头,你都无法为嘴巴提供特别清晰的视场。当设备变得更小的时候,视场就会完全遮挡。

尽管眼动追踪摄像头几乎总是有一个足够好的角度来检测用户的眼球运动,但人们最终会希望在XR中使用逼真的化身进行远程交流。要做到这一点,你就需要全面的面部追踪,而不仅仅是眼动追踪。

一个潜在的解决方案

克服这一挑战的其中一个潜在选择可能不是“看”,而是“感知”用户的人脸。

例如,有一家名为MindMaze的面部追踪厂商提供了一种无摄像头的解决方案,只是在贴脸面板安装一组电极来测量面部肌肉活动。

早期的原型使用了8个电极,所以产生了8个数据流,与面部的运动相对应。即便没有个人校准,系统都能准确匹配一系列面部动作。

尽管它的精度不如Apple Vision Pro,但结合过去八年机器学习的进步,以及潜在地使用更多电极和个人校准,这个解决方案未来有望成为一种可行的方法,可以在没有摄像头直接视线的情况下进行面部追踪。

当然,即便有了基于电极的先进系统,要实现真实的口腔运动依然是一个挑战。对于这方面,基于音频输入(并使用个人校准)的对口型预测可以进一步提高准确性。

当然,这种方法只适用于“护目镜”时代,而随着我们接近全功能的“眼镜”时,我们将需要另一种精确的面部追踪解决方案。

本文链接https://news.nweon.com/130431
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯