目前Movie Gen还在开发中,在官方博客中,Meta称它是其AI媒体研究的重大突破,具备多模态能力,包括图片、影像和声音,让开发人员输入文本提示即可产生自制视频和音频、编辑现有视频,或是将图片转化为视频。Meta声称Movie Gen性能品质在许多任务上已超越业界类似模型,包括Open AI Sora。
Movie Gen为Meta最新一代AI视频生成工具。第一代是2022年公布能产制影音、图片和3D动画的Make-A-Scene,第二代是基于扩散模型的Llama Image基础模型,后者提供更高影音品质及图片编辑功能。Movie Gen属于第三代,融合所有模态,允许用户更大的视频控制能力。。
Movie Gen是以经授权或公开可用的数据集,所训练而成的300亿参数Transformer模型。它是一组具备引人入胜说故事能力的模型,具备4种模型版本,包括视频生成、个人化视频生成、精准视频编辑及声音生成版本。
Movie Gen基础模型具备物体动作、主题和对象交互、以及相机运动的理解能力,还能学习多种概念的动作,例如它能生成特写、广角、空照、低角度、第一人视角的视频,而且克服了生成视频常出现的对象扭曲/模糊、动作不自然、或罕见动作不完整(如猫熊弹钢琴)。在视频功能上,Movie Gen能产出16 fps的高清16秒视频。在基础版Movie Gen之外,Meta也提供允许以文本或视频控制、微调生成结果的版本。
此外并有可视频精准编辑版本,让用户以文本或视频提示精准控制想要的效果。这个版本让用户在生成的视频增加、移除或取代部份元素,或是变更背景及修改风格。Meta并强调,不同于别家工具,这项新工具不但具备更精准控制、不需要专业背景,它生成过程会保留原始内容,而只针对相关像素施以变更。
Movie Gen还有一个130亿参数的声音生成模型版本,可接收视频或文本提示,生成最长45秒和视频同步的音频,包括环境音、音效,或是乐器背景音乐。Meta还提供音频延长工具,可生成任意长度的视频所需的声音,并兼顾声音品质、影音同步、文本声音同步的效果需求。
Meta论文提供的A/B人为评估测试,比较Movie Gen和市面模型,包括Runway Gen3、OpenAI Sora、Kling 1.5、PikaLabs Sound的整体Net Win Rate,其中在视频生成效果方面,Meta的模型和Kling差不多,优于OpenAI Sora,并大胜Runway Gen 3,其他三项能力则大胜对手模型。
而和前代模型一样,Movie Gen也将成为Meta未来多项新服务的底层引擎。除了IG,Meta预告,新模型未来也会集成在其他平台产品中,包括提供以文本提示生成短视频Reels、或是生成祝福以WhatsApp发送等。