Roblox发布Roblox Reality架构,为元宇宙带来写实级多人体验
为元宇宙带来写实级多人体验
(映维网Nweon 2026年05月06日)传统元宇宙世界往往画风简单,难以兼顾高真实感与海量用户实时交互。所以,Roblox日前分享了名为Roblox Reality的混合架构项目。它结合了分布式游戏引擎的结构化模拟与基于边缘的视频世界模型超采样技术,目标是将超大规模多人游戏与写实视觉效果相结合,从而改变多人沉浸式世界的创作与体验方式。
Roblox Reality将于今年晚些时候或明年初推出早期版本,而这个架构将赋能所有规模的创作者,无需增加开发成本,即可在传统持久性和结构化框架之上,创作并维护兼具前所未有视觉保真度和动态效果的交互式世界。

视频世界模型:优势与局限
视频世界模型擅长生成合理的高维行为,而无需显式模拟每一个单独的交互。
在视频隐空间中对视频世界模型进行操作面临特定的技术限制:过程目前成本高昂,实现高保真、实时性能依然是开发挑战。关键问题在于,当世界状态在视频空间中表示时,模型目前尚不支持多人交互。另一个核心约束是模拟保真度与视觉合理性之间的权衡:仅仅在视频中看到500个人在移动,并不意味着他们是独立的智能体或“有大脑的化身”。
仅靠视频世界模型无法可靠地管理多个玩家在长达两小时的游戏会话中的交互。由于缺乏长期记忆和一致的逻辑,世界模型在处理严格规则执行和持久状态方面存在困难。视频世界模型缺乏用户输入控制数据,这是为什么直接“玩”一个视频世界模型并不有趣。因为视频世界模型难以处理持久状态、一致逻辑、用户输入控制以及真正的多人智能体模拟,当前的模型更像是一种“引导式的梦境”。
我们今天看到的交互式视频模型令人印象深刻,但本质上更像是生动的梦境:视觉效果惊艳,但转瞬即逝且极其孤独。它们缺乏交互性、挑战性、奖励和持久性,而这正是让游戏成为游戏的核心要素。
纯神经世界模型本身无法实现广阔、持久的多人游戏体验。尽管神经世界模型在诸多方面表现出色,但在多个关键领域依然存在不足,包括单次会话中的时间连贯性、跨会话的长期记忆、延迟、以及创作者的细粒度控制。当考虑到一致的多人模拟、严苛的竞技玩法、高度智能的NPC、测试和增量优化时,还会出现更多隐性的差距。
所以,我们不应该要求一个神经引擎去成为一个游戏引擎。
游戏引擎:优势与局限
Roblox云和游戏引擎与视频世界模型形成强烈互补。它们具有可重放的精确性、跨会话的一致状态以及跨时间的持久性。以创作者构建一个《F1 摩纳哥大奖赛》游戏为例:他们需要精确模拟计分和惩罚系统、道路、人群、自然环境,以及多个驾驶员之间的即时同步。然而,这种精确性是以实现和运行时成本为代价的。提高视觉保真度需要大量的资源、复杂的光照和模拟。
未来十年,高端游戏引擎的输出在真实感上将继续进步,但同时,对开发者专业水平和消费级硬件的要求会不断提高。
整个行业至今未能解决的挑战是:如何在实现大规模超写实效果的同时,让大大小小的开发者都能轻松使用,并能在广泛普及的消费级硬件上运行。
这是因为真实世界充满了精妙的细节。核心游戏之外,还有大量非脚本的、自然主义的元素:如微风中轻轻飘动的草叶、树叶和枝条,汽车后卷起并翻腾的尘土云团,火焰中飞溅的炽热余烬和火花,以及雨滴静静落入泛着虹彩的油渍水坑。这些内容极难创作和渲染。传统游戏引擎难以应对这种视觉复杂性,因为高分辨率纹理和几何体带来的内存开销会耗尽可用资源。再加上体积光照、双耳音频、物理模拟和角色模拟,模拟成本会急剧攀升至天文数字。
Roblox Reality
Roblox认为,创作者构建世界以及引擎渲染这种复杂性的最佳方式是利用一种混合架构:一个经过后期训练的视频世界模型,将在引擎底层提供的camera运动、几何体及上下文状态之上,生成纹理、光照和精细的动态细节。
简单来说,Roblox Reality架构的核心分工是:
Roblox游戏引擎负责世界状态、长期记忆、符号逻辑与公平模拟(如物理碰撞、计分规则),作为所有客户端一致性的“单一事实来源”。
Roblox视频世界模型(超级上采样器)运行在边缘 GPU(H200/B200 级)上,为引擎输出的几何与运动数据叠加纹理、光照、动态细节(如飘动的草叶、尘土、雨滴),生成 2K/60Hz 的写实视频流。
Roblox Reality的开发目标是创建一个能够以60Hz提供2K分辨率的Roblox视频模型。模型可以从Roblox游戏引擎中获取事实来源:包括渲染后的视频和3D空间数据。Roblox Reality将针对云端边缘GPU基础设施和视频流进行优化,并最终与Roblox客户端集成,以支持本地化身的控制和模拟。
团队表示,这将允许任何创作者利用Roblox游戏引擎和视频模型来构建写实级游戏,显著降低传统上高保真图形所需的开发时间、成本和计算资源。这将使创作者能够更快、更高效地创作写实级游戏。

