图像生成AI现在已经变得越来越强大,不过视频生成则不是那么容易。最近Google就发布了最新的一个视频生成模型,可以提供更畅顺的视频。
Google新公布的Lumiere视频生成模型采用了全新的Diffusion模型技术STUNet,可以让模型认知对象在时间和空间中的定位,从而一次过生成整个视频,使动作更加流畅自然。以前的技术虽然可以逐格生成视频,不过连贯性始终有一定缺陷,让人感到不自然。
Lumiere的视频生成最多可以制作80格,比Stable Video Diffusion模型的25格要多,而且可以支持文本指令、图片风格指令以及视频编辑指令等,用法相当多样化。不过目前Lumiere只是研究阶段,未来实际提供相关产品相信还有一段长时间,特别是在解决滥用风险之前应该不会对外公开。