南洋理工大学发布了一种用于视频分辨率升维的、文本引导的潜在扩散框架Upscale-A-Video。该框架通过两个关键机制确保时序一致性:在局部,它将时序层集成到U-Net和VAE-Decoder中,以保持短序列的一致性;在全局,无需训练,它引入了流引导的递归潜传播模块,通过在整个序列中传播和融合潜信息来增强视频的整体稳定性。