Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

Google推出图片生成模型VideoPoet,五大功能产生直式短影音

Share

2024-01-01

近来一波波图片生成模型出现,无论是贴近提示要求或在图片处理细节上,许多情况下展现出令人惊艳的高品质。Google也不甘示弱,日前发布自主开发的大型语言模型VideoPoet。


近来一波波图片生成模型出现,无论是贴近提示要求或在图片处理细节上,许多情况下展现出令人惊艳的高品质。Google也不甘示弱,日前发布自主开发的大型语言模型VideoPoet。


为了探索语言模型在图片生成中的应用,Google引进全新大型语言模型VideoPoet,能够执行包括文本转成视频、图片转成视频、视频风格转换、视频修复、视频生成音频等五大功能,而且默认产生直式短影音。


比方说,文本提示输入“两只熊猫打扑克牌”,VideoPoet产生两只熊猫坐在桌边打扑克牌的短片。图片转成视频方面,像是上传一张油画图片,画中一艘驶向大海的船遭遇雷电交加、波涛汹涌,借由VideoPoet可以转变成动图形态。VideoPoet也能为视频产生音频,例如先以模型产生2秒短片,并尝试在没有任何文本提示下配上音频,于是从单一模型就能产生视频和音频。



VideoPoet五大功能概述


VideoPoet是训练一个自回归语言模型,通过使用多个标记器(用于视频和图片的MAGVIT V2,以及用于音频的SoundStream)学习视频、图片、音频、文本形式,像是通过文本和图片输入分解、标记,进而产生复杂的图片。


Google目标希望VideoPoet能够“any-to-any”,根据任何提示任意转换,同时也要扩展至文本转成音频、音频转成视频、产生视频字幕等功能。


VideoPoet将许多图片生成功能无缝集成至单一模型,而不是针对不同任务单独训练模型,特别在产生有趣视频和高品质动作上,展现出大型语言模型具高度竞争力的图片生成品质。


开发团队制作一部由VideoPoet产生不同短影音组合而成的介绍视频。


(图片来源:Google Research Blog)


Disclaimer:
Details
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu