雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

Meta等联合开发H4H-NAS框架,提升AR/VR边缘AI能效​​

查看引用/信息源请点击:映维网Nweon

实现了显著(高达1.34%)的top-1精度提升

映维网Nweon 2025年04月08日)低延迟和低功耗边缘AI对于虚拟现实和增强现实应用至关重要。最近的进展表明,结合卷积层(CNN)和transformer(ViT)的混合模型通常在各种计算机视觉和机器学习任务中实现卓越的精度/性能权衡。然而,由于混合模型在数据流和内存访问模式中的多样性,它们可能会对延迟和能源效率构成系统挑战。

在一项研究中,卡内基梅隆大学、Meta、台积电和纽约大学团队利用了神经处理单元(NPU)和内存计算(CIM)的架构异质性,并通过不同的执行模式来有效地执行混合模型。

团队同时引入了神经架构搜索框架H4H-NAS,以用于为具有NPU和CIM的异构边缘系统设计高效的混合CNN/ViT模型。

所述解决方案在ImageNet数据集实现了显著(高达1.34%)的top-1精度提升。

虚拟现实和增强现实正在日益流行,而人工智能的最新进展推动了AR/VR的多种应用,彻底改变了人们之间的沟通方式,提高了人们的生产力以及人们与数字世界的交互方式。

相关应用通常涉及运行多个深度神经网络(DNN)推断不同的任务,如裸手追踪,眼动追踪和目标检测等。通常,为了满足AR/VR应用的低延迟要求并保护用户隐私,大多数DNN推断需要在AR/VR设备进行本地处理。

另外,考虑到有限的设备端计算、内存容量和功耗预算,需要实现具有超低延迟的机器学习任务。同时,相关应用程序的DNN模型变得越来越多样化。例如,在计算机视觉中,ResNet、MobileNet-v2和vision transformer具有完全不同的基本结构,需要不同的执行模式。

这给设计在所有不同模型都有效的通用加速器带来了困难:为一代模型大量优化的加速器在发明新模型时往往效率较低。神经处理单元NPU已经成为解决所述挑战并满足边缘人工智能严格的能量/延迟要求的一种手段,并且正在逐渐成熟,在商业产品中得到广泛采用。

大多数先进的NPU采用收缩阵列结构,在计算密集型工作负载下效率非常高。但随着NPU数量的增加,计算能力同样在不断增加,内存和处理器之间频繁的数据移动占据了能源和延迟成本的主导地位。

为了解决这个问题,内存计算(CIM)作为减少数据移动的有效架构重新出现。在CIM中,NMC甚至与IMC合并,从而提高延迟和能效。基于CIM的机器学习任务依赖于模型权重的密集片上存储,以避免与从外部存储器读取相关的能量成本。

例如,有针对MobileNetv2和transformer优化的高效CIM加速器,它们利用其高效的本地数据处理来处理内存有限的工作负载。密集存储同样使得基于非易失性存储器的CIM成为SRAM/DRAM CIM的有吸引力替代品。

在研究中,卡内基梅隆大学、Meta、台积电和纽约大学团队提出了一种结合NPU和CIM的通用设计,利用NPU和CIM的架构异质性来加速具有混合CNN/ViT模型产生的不同数据流的AI边缘系统。

团队同时引入了一个神经架构搜索(NAS)框架来共同设计混合CNN/ViT模型,以实现异构架构的最佳精度/性能权衡。

他们建立了一个工作流来共同设计算法/硬件,以便与具有NPU和CIM的异构边缘系统的混合CNN/ViT模型进行有效的推理。所述工作流针对AR/VR应用中的CV任务,并结合了智能摄像头等人工智能边缘系统的现实资源约束。

团队利用两阶段神经结构搜索(NAS)来自动化过程并有效地搜索优化的模型。他们的目标是通过分析发现的模型来回答两个基本问题:对机器学习研究人员来说:异构边缘设备更喜欢哪种模型架构?对于系统设计者:如何使用NPU和CIM有效地映射和处理混合模型?

在研究中,团队采用两阶段NAS作为算法-系统协同设计的核心策略,并专注于实现混合模型的灵活搜索空间和部署在由工业IPs构建的异构架构之上。

团队对由NPU和CIM宏组成的异构AI边缘设备进行建模。所提出的系统模型将模型推断分解为细粒度。对于卷积层,它将不同通道的执行划分到不同的设备。对于transformer层,可以对注意层中Q/K/V的产生和不同head的执行进行分区。

在H4H-NAS框架中,系统建模工具用于进化搜索,以分析子网的执行情况。系统建模结合了使用定制芯片的测量结果和来自工业CIM IP的仿真结果。所以,建模为H4H-NAS中生成的子网提供了准确的延迟和能量估计。

相关论文Neural Architecture Search of Hybrid Models for NPU-CIM Heterogeneous AR/VR Devices

总的来说,团队提出了H4H-NAS框架,以用于设计具有NPU和CIM的异构边缘系统的高效混合CNN/ViT模型。实验证明,框架提供了高达1.34%的top-1精度改进,高达56.08%的延迟和41.72%的能耗改进。关键技术包括高度灵活的混合模型搜索空间、针对异构系统的可靠性能分析器,以及通过增加CIM并行性来改进系统。

本文链接https://news.nweon.com/128988
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯