过去这一年应该有很多人看到AI可以取代部分插画家的工作,通过文本指令创作出完成度相当高的手绘图片,也有不少人应用大型语言模型产生出短篇小说,或甚至OpenAI还展示出SORA视频生成技术,现在Google也加入这个战局,提供用户AI工具来产生素材。
Google将推出Veo视频生成模型以及Imagen 3文生图模型,并展示了Music AI Sandbox协助创作者录音的过程。
Veo是Google最新的视频生成模型,可以产生出不同视觉风格的1080p分辨率视频,视频长度还可以超过一分钟,直接对标OpenAI推出的Sora视频模型。
根据Google表示,Veo可以理解自然语言,甚至还可以理解专业的拍摄术语,例如延时录像、空拍等等,创造出符合真实世界的物理原理视频,同时可提供连贯而且一致性高的形象。
Google也与了电影制作Donald Glover和其工作室尝试在某部电影里使用Veo创作:
Veo视频生成模型结合了Google多年来的视频技术包含生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere等,未来会将Veo部分功能开放给YouTube Shorts使用。
既然有AI视频模型,当然也有文本生图片模型,Google把它取名为Imaen 3,官方表示可以产生细节栩栩如生、逼真的照片,跟之前的图片模型相比,一些不合理的细节会少很多。
Google表示Imagen 3可以更准确地理解自然语言,甚至知道语言背后的意图,还会融合提示词中的细节,让创作出的照片可以更精确。
这四张图都是由Imagen 3生成。
有AI生成视频、AI生成图片后,Google也和音乐家、歌曲创作者、制作人合作,发展AI生成音乐,Google开发出名为Music AI Sandbox的音乐AI工具,让创作者可以应用AI改变声音、或是产生出新的乐器音乐等。
Google也提供了一段由AI辅助创作的音乐:
为了要帮助用户识别出哪些形象、照片、音乐是由AI创作,Google开发出SynthID,以数字浮水印的方式嵌入上述这些AI产生的内容。