机器之能报道
编辑:SIA
最喜欢的视频里有前男友?现在,你可以轻松将他删除了。
事实再次证明,AI 生成视频技术的发展速度令人瞠目。
过去几个月,我们一直挣扎在 AI 生成的威尔·史密斯吃意大利面的尴尬场景里,以至于一段再正常不过的吃面场景被视为视频生成领域的“图灵测试”。今天,谷歌又研发出全新的时空扩散模型 Lumiere,将 AI 视频生成水准推向新高度。
法语里, Lumiere 意思是启蒙者。Lumiere 几乎集齐了常见视频生成和编辑功能,也是迄今为止我们所见过的最先进的视频生成器。
Lumiere 会根据用户自然语言提示,创造出非常逼真(高质量超现实主义)视频,时间长达五秒。
模型的图片到视频功能可以根据用户提示,让静止的图像动起来。
和当下火热的 Runaway 动态画笔功能非常相似, Lumiere 的动画功能还能让选定的图像部分运动起来,其他部分仍然保持静止。
根据指定图片风格,Lumiere 可以克隆出一系列类似风格主题的视频。比如,结合输入散发荧光的菌类照片和文本提示(比如奔跑的马),模型就能生成一系列带有荧光效果的动物视频。
在修补功能中,用户可根据需要框定视频中的任何部分、输入文本提示,模型就可以把该部分替换成你要的内容——无论是乐高积木、鲜花还是其他怪异的内容……. 自此,你可以简单地划掉不喜欢的图像内容(比如前男友),让模型为你填充指定内容,非常自然。
修补功能令人难以置信,剜掉一部分内容,系统会为你自动填充。
文本到视频生成器的关键挑战在于合成出真实、多样化且运动连贯的视频效果。为此,谷歌研究人员在 Lumiere 中引入了一种“时空 U-Net 架构”,一次构建了整个视频长度,而不是像以前的模型那样——先生成一个开始帧和一个结束帧,然后尝试猜测中间会发生了什么,这一传统方法的局限性在于很难实现全局的时间一致性。
时空 U-Net 架构
测试结果说明了一切,这是 AI 生成视频领域的新技术,坦率地说,效果惊人。模型可以轻松创建、编辑广泛的视频内容,包括图像到视频、视频风格生成等。
文本到视频的生成
图片到视频的生成
风格化的视频生成
修补功能,对于每个输入视频(每帧的左上角),可以根据提示自动修补遮罩区域
框定部分,系统即可让这部分动画起来,其他部分仍然保持静止。这个功能非常类似Runaway的动态画笔功能。
视频风格的一致化
目前,Lumiere 只是一个研究项目,还不是产品——这也让谷歌免于版权、错误信息、安全、仇恨言论、隐私和其他各种政策压力,保全系统的输出水准。这是一次巨大的技术飞跃,如果大家也能体验 Lumiere,看看它的效果到底有多好,将是一件很有趣的事情。
欣赏更多作品,请移步至:https://lumiere-video.github.io/