登录

会员权益

获取需求

查看名片

专属客服

尊贵标识

VIP低至1.5U/天

你的 AI 網紅已上線?Google 新模型「VLOGGER」讓照片人物動起來

分享

2024-03-19

Google VLOGGER 的應用場景還包括可以用於報告、教育場域和旁白等,也可剪輯既有的影片,如果對影片中的表情不滿意就能加以調整。

Google 研究人員開發出新的圖像生影片 AI 系統「VLOGGER 」,只需輸入一張靜態照片和音檔,就能讓圖片中的人物動起來,做出對應到聲音的面部表情、頭部動作和手勢。

此連結可觀看示範影片

VLOGGER 是基於擴散模型和一個關鍵的數據資料庫「MENTOR 」,其中超過 80 萬名不同的人物分身和長達 2,200 小時的影片,這讓 VLOGGER 能生成多元種族、年齡,且穿著不同服裝、擺著各種姿勢的人物影片。

研究員強調 VLOGGER 的特點在於「AI 不需要先針對每個人物進行訓練,不依賴臉部偵測和裁剪,能產出完整的畫面(不是只有臉部或嘴唇),且可考慮到廣泛的場景(例如人物的身體或不同身份等)」。

Google 研究團隊在圖像品質、身份和時間一致性這三個基準上進行評比,發現 VLOGGER 超越了其他先進的影片生成方法,這樣的技術對於產出可以交流的 AI 人物很重要。

不過 VLOGGER 還是存有限制,像是生成影片長度較短,背景多為靜態的,人物並不會在 3D 環境中移動。

Google 將 VLOGGER 視為邁向「對話代理人」的一步,之後 AI 就可以透過語音、手勢和眼神交流以自然的方式與人類互動。VLOGGER 的應用場景還包括可以用於報告、教育場域和旁白等,也可剪輯既有的影片,如果對影片中的表情不滿意就能加以調整。

阿里巴巴先前也發布新論文介紹影片生成模型「EMO」,同樣是讓照片中的靜態人物張嘴說話及唱歌,特色是表情會跟著說話的內容有所變化,很接近人類表達情緒的方式。

:Chris

快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!

    免责声明:
    详情

    Please Play Responsibly:

    Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+