XR日报:苹果XR专利优化Avatar分层传输,PICO全面支持个人开发者
苹果公司提出了一项针对XR多人交互场景的专利技术,通过动态分层编码优化Avatar数据传输效率。该技术根据用户个体特征(如动作复杂度、纹理细节等),为每个Avatar自动生成多级质量层(高/中/低比特率),并允许接收设备基于带宽策略或资源情况选择性订阅不同质量层。例如,关键用户可采用高精度编码(低QP值),而次要用户则适应降级传输(高QP值)。专利通过量化参数调控、对象专属比特率计算及动态层分配机制,显著降低了多Avatar实时交互的计算负载,同时确保核心用户的沉浸体验。
PICO宣布全面开放生态,支持个人开发者入驻,并优化全流程体验。新政策包括:线上自助上架(支持付费应用)、简化协议签署与结算(自动生成结算单、税务代缴)、开发到推广的全周期扶持(文档、流量、推荐位等)。此次升级旨在降低开发门槛,助力个人开发者快速实现创意商业化。
谷歌旗下DeepMind正加速推进多模态AI代理Project Astra的开发,旨在通过智能眼镜形态实现“能看会说”的实时交互助手。Astra结合了视觉理解(如识别场景并叠加历史影像)、动态内容生成(通过Veo 2模型生成逼真图像/视频)及环境交互(利用Genie 2将静态图转换为可探索虚拟空间)。目前原型设备已搭载Micro LED显示和定向音频技术,但距离理想形态仍有差距。谷歌认为,眼镜将成为AI落地的关键载体,与Meta、苹果等巨头共同推动“增强现实+AI”的下一代交互范式。
苹果发布了visionOS 2.5 Beta 3开发者预览版(版本号22O5459c),已注册开发者可通过Apple Vision Pro设备或Xcode模拟器进行测试。更新需在设置中手动开启开发者测试版选项,苹果建议安装前备份数据。该版本主要面向开发者优化系统稳定性及兼容性,为后续功能更新做准备。
ReelRoom是一款专为Apple Vision Pro设计的免费空间计算应用,通过visionOS的窗口管理功能,将用户的家虚拟还原为怀旧音像店。用户可自定义货架布局,展示电影/剧集海报,并直接跳转至流媒体平台观看内容(支持Trakt账号同步收藏)。应用结合了空间陈列与沉浸观影体验,提供2天全功能试用,后续需内购解锁高级功能。
vivo在春季新品发布会上宣布其首款MR头显设备vivo Vision将于2025年9-10月推出,具体细节暂未披露。该设备采用多摄像头设计和外接电池方案,并支持与新款vivo X200 Ultra手机联动实现空间视频拍摄与沉浸式播放。vivo高管表示,公司基于对用户需求的洞察提前布局MR领域,目标将其打造为下一代智能手机级产品。
三星研究院提出了一种基于自回归建模的新型图像生成方法(CART),通过分层”下一细节预测”策略提升生成质量与可扩展性。该方法将图像分解为基础层和渐进细节层,利用矢量量化编码和Transformer解码器逐层预测细节,模拟人类绘画的迭代过程。实验表明,该方法在保持高分辨率生成质量的同时显著降低计算复杂度,为扩散模型等现有技术提供了高效替代方案,尤其适用于需要精细控制的图像合成任务。
韩国首尔大学团队提出了一种基于4D高斯泼溅(4DGS)的动态新视图合成方法,专注于单目视频中的动态场景重建。为解决过拟合问题,团队设计了不确定性感知正则化技术,通过扩散模型和深度平滑先验选择性约束不确定区域,平衡了训练重建质量与新视图合成性能。此外,针对快速运动区域初始化困难的问题,提出了动态区域致密化方法,利用深度图和场景流补充高斯原语。实验表明,该方法在动态场景重建和少样本静态场景任务中均优于基线,但单目视频的合成性能仍落后于多视图数据,未来可通过原语级正则化和时间一致性优化进一步改进。
法国蔚蓝海岸大学和普瓦提埃大学团队利用CREATTIVE3D VR数据集,提出了一种名为DiVR的多模态Transformer模型,用于动态场景中的人类轨迹预测。该模型整合了静态环境、动态交互和用户注视数据,通过异构图卷积网络和跨模态注意力机制提升预测精度。实验表明,DiVR在复杂任务(如过马路、模拟视觉障碍)中显著优于现有方法,并展现了在元宇宙和智能交通中的潜在应用价值,但依赖高质量数据集仍是当前限制。
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群:苹果Vision | Meta Quest | 微软HoloLens | AR/VR开发者 | 映维粉丝读者

