XR日报：苹果XR专利优化Avatar分层传输，PICO全面支持个人开发者

编辑：刘余欣 | 分类：日报 | 2025年4月22日

nxr-daily

◐ 苹果专利分享XR环境中基于对象自适应的Avatar分层传输技术

苹果公司提出了一项针对XR多人交互场景的专利技术，通过动态分层编码优化Avatar数据传输效率。该技术根据用户个体特征（如动作复杂度、纹理细节等），为每个Avatar自动生成多级质量层（高/中/低比特率），并允许接收设备基于带宽策略或资源情况选择性订阅不同质量层。例如，关键用户可采用高精度编码（低QP值），而次要用户则适应降级传输（高QP值）。专利通过量化参数调控、对象专属比特率计算及动态层分配机制，显著降低了多Avatar实时交互的计算负载，同时确保核心用户的沉浸体验。

◐ PICO生态开放升级：全面支持个人开发者，简化上架与分成流程

PICO宣布全面开放生态，支持个人开发者入驻，并优化全流程体验。新政策包括：线上自助上架（支持付费应用）、简化协议签署与结算（自动生成结算单、税务代缴）、开发到推广的全周期扶持（文档、流量、推荐位等）。此次升级旨在降低开发门槛，助力个人开发者快速实现创意商业化。

◐ 谷歌DeepMind正加速推进多模态AI代理Project Astra的开发

谷歌旗下DeepMind正加速推进多模态AI代理Project Astra的开发，旨在通过智能眼镜形态实现“能看会说”的实时交互助手。Astra结合了视觉理解（如识别场景并叠加历史影像）、动态内容生成（通过Veo 2模型生成逼真图像/视频）及环境交互（利用Genie 2将静态图转换为可探索虚拟空间）。目前原型设备已搭载Micro LED显示和定向音频技术，但距离理想形态仍有差距。谷歌认为，眼镜将成为AI落地的关键载体，与Meta、苹果等巨头共同推动“增强现实+AI”的下一代交互范式。

◐ 苹果推送visionOS 2.5 Beta 3更新

苹果发布了visionOS 2.5 Beta 3开发者预览版（版本号22O5459c），已注册开发者可通过Apple Vision Pro设备或Xcode模拟器进行测试。更新需在设置中手动开启开发者测试版选项，苹果建议安装前备份数据。该版本主要面向开发者优化系统稳定性及兼容性，为后续功能更新做准备。

◐ Vision Pro应用ReelRoom带你重返音像店黄金时代

ReelRoom是一款专为Apple Vision Pro设计的免费空间计算应用，通过visionOS的窗口管理功能，将用户的家虚拟还原为怀旧音像店。用户可自定义货架布局，展示电影/剧集海报，并直接跳转至流媒体平台观看内容（支持Trakt账号同步收藏）。应用结合了空间陈列与沉浸观影体验，提供2天全功能试用，后续需内购解锁高级功能。

◐ vivo宣布Vision MR头显2025年下半年发布，支持vivo X200 Ultra空间视频

vivo在春季新品发布会上宣布其首款MR头显设备vivo Vision将于2025年9-10月推出，具体细节暂未披露。该设备采用多摄像头设计和外接电池方案，并支持与新款vivo X200 Ultra手机联动实现空间视频拍摄与沉浸式播放。vivo高管表示，公司基于对用户需求的洞察提前布局MR领域，目标将其打造为下一代智能手机级产品。

◐ CART：基于分层自回归Transformer的可扩展图像生成方法

三星研究院提出了一种基于自回归建模的新型图像生成方法（CART），通过分层”下一细节预测”策略提升生成质量与可扩展性。该方法将图像分解为基础层和渐进细节层，利用矢量量化编码和Transformer解码器逐层预测细节，模拟人类绘画的迭代过程。实验表明，该方法在保持高分辨率生成质量的同时显著降低计算复杂度，为扩散模型等现有技术提供了高效替代方案，尤其适用于需要精细控制的图像合成任务。

◐ 4DGS-Wild：单目视频动态场景的不确定性感知高斯泼溅重建

韩国首尔大学团队提出了一种基于4D高斯泼溅（4DGS）的动态新视图合成方法，专注于单目视频中的动态场景重建。为解决过拟合问题，团队设计了不确定性感知正则化技术，通过扩散模型和深度平滑先验选择性约束不确定区域，平衡了训练重建质量与新视图合成性能。此外，针对快速运动区域初始化困难的问题，提出了动态区域致密化方法，利用深度图和场景流补充高斯原语。实验表明，该方法在动态场景重建和少样本静态场景任务中均优于基线，但单目视频的合成性能仍落后于多视图数据，未来可通过原语级正则化和时间一致性优化进一步改进。

◐ DiVR：基于多模态Transformer的VR场景人体轨迹预测模型

法国蔚蓝海岸大学和普瓦提埃大学团队利用CREATTIVE3D VR数据集，提出了一种名为DiVR的多模态Transformer模型，用于动态场景中的人类轨迹预测。该模型整合了静态环境、动态交互和用户注视数据，通过异构图卷积网络和跨模态注意力机制提升预测精度。实验表明，DiVR在复杂任务（如过马路、模拟视觉障碍）中显著优于现有方法，并展现了在元宇宙和智能交通中的潜在应用价值，但依赖高质量数据集仍是当前限制。