-
论文标题:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing -
项目主页:https://jianhongbai.github.io/UniEdit -
代码:https://github.com/JianhongBai/UniEdit -
论文:https://arxiv.org/abs/2402.13185
-
多功能:支持视频「动作」编辑以及多种视频「外观」编辑场景。 -
无需训练:UniEdit 直接利用与训练的文本到视频生成模型,无需额外训练或微调。 -
灵活性:可兼容不同文本到视频生成模型,可以使用更加强大的视频生成模型提升 UniEdit 编辑质量。
-
研究者发现,视频生成模型的时间自注意层编码了视频的「帧间依赖性」。基于这个洞察,研究者引入了一个辅助的动作参考分支,用于生成文本引导的动作特征,然后通过时间自注意层(SA-T)将这些特征注入到主编辑路径中,从而实现将文本引导的动作注入到源视频中。 -
受到图像编辑技术的启发,研究者发现视频生成模型的空间自注意层(SA-S)编码了视频帧内空间依赖性。因此,研究者引入了一个辅助视频重建分支,并将从视频重建分支的空间自我注意层获得的特征注入到主编辑路径中,以保留源视频的非编辑内容。 -
为了在编辑外观时保持空间结构,研究者将主编辑路径中的空间注意力图替换为视频重建分支中的空间注意力图。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
关注公众号,免费获取chatgpt账号
相关文章
暂无评论...