韩国研究团队提出无训练高帧率视频生成方法DiffuseSlide
它不仅计算高效,而且能适应多种视频生成任务,非常适用于虚拟现实等领域
(映维网Nweon 2025年09月22日)扩散模型的最新进展彻底改变了视频生成技术,能够创建高质量、时间一致性强的视频序列。然而,由于长序列中存在的闪烁和画质退化问题(尤其是在快速运动场景中),生成高帧率视频依然是一项重大挑战。现有方法常受限于计算效率低下以及在长序列中保持视频质量的局限性。
在一项研究中,韩国RECON Labs,延世大学和成均馆大学团队提出了一种基于预训练扩散模型的无训练高帧率视频生成方法DiffuseSlide。所提出方法通过创新性地利用低帧率视频中的关键帧,结合噪点重注入和滑动窗口潜在去噪技术,无需额外微调即可实现平滑连贯的视频输出。大量实验表明,所提出方法显著提升了视频质量,增强了时间连贯性与空间保真度。它不仅计算高效,而且能适应多种视频生成任务,非常适用于虚拟现实等领域。
近期技术进步显著提升了视频生成能力,通过大规模数据集、先进神经网络架构和复杂训练技术的结合,当前最先进的扩散视频模型能够生成兼具空间和时间保真度的逼真且内容丰富的视频序列。这一突破性进展使其成为沉浸式AR/VR环境等应用的重要工具。
尽管现有视频生成模型成果显著,但随着视频长度增加,画质退化问题逐渐凸显,视觉伪影和不一致性会随时间推移愈加明显。这一挑战在高速运动场景中尤为关键,因为此类场景需要无缝过渡和流畅的视觉体验以维持真实感和观众沉浸感。所以,当前亟需改进高帧率视频生成技术,特别是在快速运动场景中,低帧率会导致卡顿和视觉体验不佳。
生成高帧率视频的一种直观方法是关键帧插值。通过创建中间帧,这类方法能实现关键帧之间的平滑过渡。传统方法如光流法和基于核函数的方法通过估计帧间运动来合成中间帧。尽管光流法通过计算像素级运动矢量指导帧合成,但在处理复杂或大尺度运动模式时难以保持视觉质量。类似地,依赖局部卷积的核函数方法在面对显著空间位移时也存在局限。
近年来,许多研究探索使用生成模型进行帧插值,其中扩散模型表现出巨大潜力。例如LDMVFI和MCVD将帧插值视为条件生成任务,利用扩散过程在关键帧之间合成中间帧。这些模型在复杂运动场景中能提供更高的视觉保真度和时间一致性,在质量和鲁棒性上超越传统基于像素的方法。
尽管取得这些进展,但由于计算和内存限制,大多数现有视频生成和帧插值模型在扩展到高帧率时仍面临挑战。在一项研究中,韩国RECON Labs,延世大学和成均馆大学团队提出了一种无需额外训练或微调的预训练视频扩散模型高帧率生成方法。
他们引入了新型高帧率视频生成流程DiffuseSlide,其以低帧率关键帧为条件生成插值帧。受近期研究启发,流程融合了噪点去噪、噪点重注入和多图像条件控制的滑动窗口方法。首先使用预训练图像转视频扩散模型生成低帧率视频潜在表示,随后在潜空间进行线性插值生成初始高帧率潜在表示。为减少插值帧伪影,向初始潜在表示引入受控噪点,部分破坏其结构以实现精细化处理。最后采用带噪点重注入的反向扩散过程对帧进行去噪,最终生成具有增强时间一致性的平滑高质量视频。
另一种无训练方法将帧插值重新定义为视频修复任务,采用DDNM[的零空间投影方法使插值帧与关键帧空间对齐。虽然该方法具有潜力,但存在明显局限:若生成的关键帧质量较差,这些缺陷会直接传递至插值帧,影响整体质量。相比之下,所提出方法在去噪阶段同时优化插值帧和生成的关键帧,确保所有帧协同改进,最终产生更高质量且时间一致性更强的视频。
利用预训练去噪U-Net的优势在于无需额外训练即可生成高质量帧。但预训练去噪U-Net的有限容量会导致后续帧出现模糊和过饱和现象,尤其在处理大量插值帧时更为明显。针对长视频序列,先前研究建议重新调度整个去噪过程,并在扩散模型可管理的长度内连续应用注意力机制。
然而,这种方法仅以首关键帧为条件,导致后续帧条件不足。为解决这一局限,团队引入滑动窗口方法,将整个潜在序列划分为可管理的子序列,每个子序列以相应关键帧为条件并独立去噪。图1展示了方法的整体流程示意图。
研究人员在WebVid-10M数据集上评估了该方法。与其他基线方法相比,所提出方法在FVD、PSNR和SSIM等广泛使用的指标上均达到最先进(SOTA)性能。
定量结果显示在表1中。所提出提出的流程在所有关键指标(包括FVD、PSNR和SSIM)上均取得最佳性能,证明该方法能有效生成具有卓越时间和空间一致性的高帧率视频。较低的FVD分数凸显了我们方法在提升真实感和整体视频质量方面的优势,而较高的PSNR和SSIM值表明相比其他基线,流程能更好地保持与原始关键帧的保真度,保留细节和结构。这在保持关键帧完整性同时生成平滑过渡的高帧率视频生成中至关重要。
定量结果证实所提出方法不仅能以最小闪烁或伪影生成高帧率视频,还能确保准确参考关键帧。与存在重复运动伪影和闪烁问题的基线方法相比,我们的方法能持续输出更平滑、视觉一致性更强的视频。
团队通过消融研究验证了两个关键组件的有效性:噪点重注入(N.R.I)和滑动窗口去噪(S.W),两者对提升时间一致性和整体视频质量至关重要。研究结果汇总于表2。噪点重注入通过在每步去噪后迭代引入噪点,有效减少插值帧伪影。缺乏噪点重注入时模型难以达到平滑数据流形,导致质量下降(表2)。噪点重注入逐步将帧重新对齐至数据流形,显著改善时间一致性。
图6进一步展示了噪点重注入的视觉影响:没有N.R.I时插值帧会出现明显伪影和不一致(红框标注区域);通过每步重注入噪点,所提出方法有效优化帧间过渡,减少闪烁并保留细节,从而实现更平滑运动和更佳感知质量,证明了噪点重注入在高帧率视频生成中的必要性。
研究人员同时评估了滑动窗口去噪的必要性。缺乏该技术时,仅以初始帧为条件的视频潜在表示会随序列推进而质量下降,导致模糊和保真度损失(图5)。滑动窗口去噪通过将子序列独立条件化于对应关键帧来解决这一问题,保持帧间质量一致性。将两种技术(S.W和N.R.I)结合可获得最优结果,证实它们通过确保结构一致性和平滑时间过渡在高帧率视频生成中具有互补作用,同时有效减少伪影和闪烁。
他们将DiffuseSlide与基于训练的方法LDMVFI进行对比。表3展示了帧率扩展的定量结果。虽然LDMVFI在PSNR和SSIM分数上更高,但这些指标主要侧重于关键帧的精确重建而非整体感知视频质量。DiffuseSlide在弗雷谢视频距离指标上表现更优,凸显了更好的真实感和时间一致性。
尽管在2倍设置下推理成本较高,但DiffuseSlide在4倍设置下具有计算竞争力。另外,DiffuseSlide的无训练特性在实际应用中具有显著优势,因为大规模视频扩散模型的训练或微调往往不切实际。这使得所提出方法成为无需训练类方法计算开销的高帧率视频生成场景的理想选择。
当前开源图像转视频模型针对短序列优化。将其扩展到更长视频需采用连续注意力操作或多重推理技术,但扩散模型固有的慢推理速度会延长生成时间。扩散采样速度的提升或专为长序列训练的模型可进一步提高效率。
另外,由于DiffuseSlide是无训练方法,其性能本质上依赖于大规模预训练视频扩散模型的能力。当前开源视频扩散模型在处理极大运动或高度动态场景时仍存在局限,可能导致复杂场景中的轻微不一致。但随着视频扩散模型的持续改进,这些局限有望自然缓解,从而进一步提升所提出方法的有效性。
相关论文:DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion
总的来说,DiffuseSlide是一种基于预训练图像转视频扩散模型的无训练高帧率视频生成方法。所述方法通过利用低帧率视频作为关键帧,结合噪点重注入和滑动窗口潜在去噪进行插值,无需额外模型训练或微调即可生成平滑高质量视频。通过保持时间和空间一致性,DiffuseSlide有效缓解了线性插值中常见的闪烁和重影等问题。
大量实验证明了DiffuseSlide的有效性,在FVD、PSNR和SSIM等关键视频质量指标上均达到竞争优势。所提出方法在WebVid-10M数据集上设立了新基准,超越了现有基线,证明了其在VR/AR等资源受限环境下进行高帧率视频生成的适用性。
团队指出,DiffuseSlide为生成高质量高帧率视频提供了宝贵工具,为多种应用场景中更流畅的用户体验铺平道路。未来研究可聚焦于优化扩散模型以实现更快采样,或开发专为高帧率序列训练的模型,以进一步提升性能和效率。