加州大学洛杉矶分校研发光学生成式AI模型

PICO 4 Ultra

查看引用/信息源请点击:phys

支持实时移动生成式AI

映维网Nweon 2025年09月02日)生成式模型涵盖了各种应用领域,包括图像和视频合成。随着数字生成模型变得越来越大,以快速和节能的方式进行可扩展推理成为一项挑战。在一项研究中,美国加州大学洛杉矶分校的研究人员成功创建了一个光学生成式模型,它能够利用光的物理特性而非传统电子计算来生成新颖图像。

这种模型可嵌入智能眼镜和AR/VR头显等移动平台,并将支持实时移动生成式AI,通过可穿戴便携系统直接将高级内容创作带给用户。

加州大学洛杉矶分校研发光学生成式AI模型

生成式AI能生成逼真的图像、视频和类人文本,但其快速发展代价高昂:激增的电力需求、庞大的碳足迹以及日益复杂的硬件要求。

针对这一情况,加州大学洛杉矶分校团队开辟了一条新路径。他们的系统不依赖数字计算,而是通过光学方式执行生成过程——利用光固有的并行性和速度实现单次曝光成像。利用这种方式,团队解决了AI最大的瓶颈问题之一:平衡性能与效率。

模型将浅层数字编码器与自由空间衍射光学解码器集成,作为一个整体系统进行训练。随机噪点首先处理成”光学生成种子”,随后投射到空间光调制器并通过激光照射。当光线穿过静态的、预先优化好的衍射解码器时,会产生在统计学上遵循目标数据分布的图像。

与需要数百至数千次迭代步骤的数字扩散模型不同,这种过程可实现瞬时图像生成,除通过浅层数字网络的初始编码和光照外无需额外计算。

为验证方法,团队在不同数据集展示了数值模拟和实验结果。模型生成了手写数字、时尚单品、蝴蝶、人脸的新图像,甚至创作出受梵高启发的艺术作品。根据标准图像质量指标,光学生成输出在统计上与先进扩散模型的结果相当。它们同时能生成多色图像和高分辨率梵高风格艺术品,彰显了光学生成AI方法的创作潜力。

研究人员开发了两种框架:单次曝光光学生成模型(通过单次光学过程生成新图像)和迭代光学生成模型(模拟数字扩散通过多步骤优化输出)。这种灵活性使得同一光学硬件仅需更新编码种子和预训练衍射解码器即可执行多重任务。

除高效性和多功能性外,团队同时证明光学生成模型可提供内置隐私保护和安全性。由随机噪点生成的单个编码相位图案,可通过不同波长照射,每个通道仅能由唯一匹配的衍射表面解码。这种物理”密钥-锁”机制确保未经授权的用户无法重构传送给个体授权用户的波长复用生成内容,为安全通信和个性化内容交付提供新机遇。

研究人员特别指出光学生成模型在可穿戴设备中的集成潜力——这些领域对紧凑型低功耗设计至关重要。通过用纳米加工被动表面替代笨重的调制器,或使用集成光子学技术,模型可嵌入智能眼镜和AR/VR头显等移动平台。这类实现方案将支持实时移动生成式AI,通过可穿戴便携系统直接将高级内容创作带给用户。

这项突破的广泛意义重大:光学生成模型可降低大规模AI的能耗足迹,在实现超快推理速度的同时保证可持续部署。

相关论文Optical generative models

https://www.nature.com/articles/s41586-025-09446-5

团队指出:”我们的研究表明,光学技术可用于大规模执行生成式AI任务。通过消除推理过程中沉重的迭代数字计算需求,光学生成模型为瞬时节能AI系统打开大门,这可能彻底改变日常技术。”

展望未来,团队设想通过纳米加工和光子集成技术的进步,开发紧凑型低成本光学生成设备。

本文链接https://news.nweon.com/132160
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯