韩科院推出EgoX模型,用第三人称视频生成第一视角

PICO 4 Ultra

查看引用/信息源请点击:miragenews

在增强现实和虚拟现实领域,它可以通过将标准视频转换为让用户仿佛亲临其境的沉浸式内容,从而最大化用户体验

映维网Nweon 2026年02月24日)在看《黑暗骑士》时,如果你不只是看着屏幕里的小丑,而是真正通过他的眼睛来感受哥谭市,会怎样?这种令你不再是旁观者,而是通过角色视角体验世界的技术正在成为现实。韩国科学技术院的研究人员开发出了一种全新的人工智能模型,可以将普通视频素材生成为第一人称视角视频。

韩科院推出EgoX模型,用第三人称视频生成第一视角

随着增强现实和虚拟现实等技术的快速发展,能够捕获人们直接所见场景的“第一人称视频”的重要性日益增长。但将现有的标准视频自然地转换为第一人称视角存在重大的技术限制。

这项技术的一个关键特点是,它不仅仅是简单地旋转屏幕,而是通过全面理解人物的位置、姿态以及周围空间的三维结构来重建第一人称视角。

现有技术通常只能转换静态图像,或者需要来自四个或更多摄像头的视频素材。另外,在光线复杂或快速移动的视频中,它们常常会出现不自然的视觉伪影。

相比之下,EgoX是一种利用旁观者视角视频,精确生成视频中人物实际所见场景的AI模型。它仅需单个第三人称视频源就能生成高质量的第一人称视频。具体来说,研究团队通过精确模拟头部运动与实际视野之间的相关性,成功实现了当人物转头时视觉的自然变化。

EgoX通过轻量级的LoRA适配,利用大规模视频扩散模型中预训练的时空知识,并引入了一种统一的条件策略,通过宽度维和通道维的拼接来结合旁观者视角和第一人称视角的先验信息。另外,一种几何引导的自注意力机制能够选择性地关注空间相关区域,确保几何一致性和高视觉保真度。所述方法实现了连贯且逼真的第一人称视角视频生成,同时对未见过的和自然环境下的视频展现出强大的可扩展性和鲁棒性。

韩科院推出EgoX模型,用第三人称视频生成第一视角

这项技术在包括烹饪、锻炼和工作在内的各种日常场景中都表现出稳定的性能,不受特定环境的限制。EgoX预计将在各个行业产生重大影响。在增强现实和虚拟现实领域,它可以通过将标准视频转换为让用户仿佛亲临其境的沉浸式内容,从而最大化用户体验。

研究人员表示:“这项研究的意义在于,AI已经超越了简单的视频转换,进入到学习和重建人类’视觉’和’空间理解’的阶段。我们预计,一个仅使用以往录制的视频,任何人都能创建和体验沉浸式内容的环境将会到来。”

相关论文EgoX: Egocentric Video Generation from a Single Exocentric Video

这份研究已经引起了英伟达Meta等巨头及学术界的广泛关注,并计划于2026年6月3日在美国科罗拉多州举行的IEEE/CVF计算机视觉与模式识别会议国际学术会议正式宣讲。

本文链接https://news.nweon.com/138315
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR Research Wechat Group/微信群

您可能还喜欢...

资讯