北京交通大学与帝国理工提出MLLM语义通信框架助力6G AR/VR沉浸式应用
任务导向、上下文感知的智能通信
(映维网Nweon 2025年11月28日)在6G网络即将到来的时代,增强现实、虚拟现实与全息通信等沉浸式应用对高维多模态数据的实时传输与智能处理提出了前所未有的挑战。所述应用需要实时处理高分辨率视频、密集点云、音频流和传感器信息等多模态数据,然而带宽受限的无线信道以及终端设备有限的计算能力和存储容量,使得高维数据传输和智能数据处理面临重大难题。
为应对这一挑战,北京交通大学与英国帝国理工学院的研究团队联合提出了一种名为”MLLM-SC”的新型语义通信框架,深度融合多模态大语言模型(MLLM)以实现任务导向、上下文感知的智能通信,为6G时代的沉浸式体验提供了创新解决方案。

所述框架采用创新的”设备-边缘”协同架构,在边缘服务器部署MLLM作为语义理解与推理引擎。MLLM综合分析来自用户的多模态输入(包括图像、语音、眼动信号)、任务请求(如视觉问答、驾驶意图)及无线信道状态信息(CSI),通过先进的提示工程、上下文学习和软提示技术,生成语义注意力热图或二进制掩码,精确标识出对任务关键的区域与内容。
例如在AR导航场景中,当用户询问”街对面的建筑是什么?”时,MLLM能够准确识别出用户关注的建筑物区域,并优先保障这些区域的传输质量。
系统集成了多种先进的MLLM模型,包括GPT-4V/GPT-4o用于强大的视觉理解,Qwen2.5-VL用于多语言视觉推理,BLIP-2通过Q-Former架构增强跨模态特征提取,同时使用CLIP和CLAP实现视觉-语言和音频-语言的语义对齐。
在编码端,系统设计了创新的双路径重要性感知语义编码器,其中编码器基于MLLM提供的语义引导实现差异化处理。编码器采用高保真和轻量级双网络架构,其中高保真网络处理被MLLM标识为语义重要的区域,使用更深层的网络结构以保持关键视觉细节;轻量级网络则处理次要场景区域,采用轻量架构和更激进的压缩策略以降低传输开销。
通过交叉注意力机制,编码器动态计算查询(Q)、键(K)和值(V)矩阵,生成反映不同语义区域相对重要性的注意力分数,驱动带宽分配过程。在资源分配方面,高重要性特征获得的传输资源显著多于优先级分数较低的次要特征,这种语义重要性感知的资源分配确保即使在信道条件恶化的情况下,最重要的内容仍能保持传输质量,而次要区域则牺牲保真度以保持整体系统性能。
在接收端,资源自适应语义解码器基于变分自编码器(VAE)和条件扩散模型,实现高质量内容重建与生成。解码器能够根据设备计算能力、可用带宽和当前信道条件,动态调整其重建和生成策略。扩散模型通过多步去噪过程,在设备端提示或上下文任务请求的引导下,即使在低带宽条件下也能合成高质量内容。

为了进一步降低传输带宽,模块采用VAE技术对接收到的信号中的压缩语义特征进行解码和重建,确保多模态内容中的语义一致性和结构完整性。系统同时引入了分布匹配策略,通过最小化VAE推导的后验分布与原始生成器分布之间的散度,使重建特征的分布与原始未压缩数据的分布对齐。
为验证框架有效性,研究团队开展了两个深入的典型案例研究。在AR/VR视觉问答场景中,系统以LLaVA作为多模态推理引擎,结合CLIP ViT-L视觉编码和Vicuna-v1.5 13B语言建模,实现复杂的问题-图像理解。CLIPSeg组件执行问题引导的区域分割,通过在CLIP嵌入空间中的语义匹配,生成识别与提出问题相关图像区域的二进制掩码。
实验使用VGPhraseCut数据集,包含77,262张图像中的345,486个短语-区域对,选择掩码占据总图像面积10-40%的样本,与实用VQA应用中典型的用户注意力分布保持一致。训练过程通过加权均方误差(MSE)损失明确区分掩码区域(语义关键区域)和非掩码区域。评估结果显示,在MLLM引导下,系统可将更多带宽分配给关键区域,在权重比为4:1时,传输IoU达到0.8060,IoU退化仅为0.0279,显著优于无引导的均匀分配策略。
在扩散驱动的图像生成任务中,系统将无线传输过程建模为扩散模型的前向过程,在接收端利用稳定扩散进行反向去噪与内容生成。为了缓解传输全分辨率潜在特征带来的带宽开销,系统引入了压缩机制,在保留基本语义的同时显著降低传输开销。
在接收端,VAE重建模块对压缩的语义特征进行上采样和重建,通过重新参数化确保恢复的特征符合扩散模型所需的高斯分布。
为了在不同信道条件下增强鲁棒性,VAE解码器进一步以信噪比为条件,允许自适应估计特征方差。在LSUN-Bedrooms数据集上的实验表明,在1.3%的极低压缩率下,系统在12 dB信噪比条件下实现20.76 dB的PSNR和0.74的CLIP分数,显著优于基准方法CDDM。视觉结果显示,在提示语”床上有一只可爱/大猫”的引导下,生成过程有效整合了文本指导,重建出语义对齐的图像,在床上成功生成猫的形象,展示了系统基于提示语自适应生成内容的能力。
相关论文:Multimodal LLM Integrated Semantic Communications for 6G Immersive Experiences
研究团队指出,MLLM-SC框架在智能城市沉浸式AR/VR/XR体验、全息沉浸式会议和车边协同自动驾驶等场景中具有广泛应用前景。未来工作将聚焦于强化学习驱动的反馈优化、MLLM实时推理加速、以及多智能体协同语义通信等方向,以进一步提升系统在动态信道与复杂任务环境中的适应性与鲁棒性。
研究成果标志着语义通信从”内容重建”向”语义理解与生成”迈进的关键一步,为6G时代实现高效、智能、沉浸式的通信体验奠定了坚实的技术基础。


