灰度_找资源，谈合作，上灰度

Google VLOGGER 的應用場景還包括可以用於報告、教育場域和旁白等，也可剪輯既有的影片，如果對影片中的表情不滿意就能加以調整。

Google 研究人員開發出新的圖像生影片 AI 系統「VLOGGER 」，只需輸入一張靜態照片和音檔，就能讓圖片中的人物動起來，做出對應到聲音的面部表情、頭部動作和手勢。

點此連結可觀看示範影片

VLOGGER 是基於擴散模型和一個關鍵的數據資料庫「MENTOR 」，其中超過 80 萬名不同的人物分身和長達 2,200 小時的影片，這讓 VLOGGER 能生成多元種族、年齡，且穿著不同服裝、擺著各種姿勢的人物影片。

研究員強調 VLOGGER 的特點在於「AI 不需要先針對每個人物進行訓練，不依賴臉部偵測和裁剪，能產出完整的畫面（不是只有臉部或嘴唇），且可考慮到廣泛的場景（例如人物的身體或不同身份等）」。

Google 研究團隊在圖像品質、身份和時間一致性這三個基準上進行評比，發現 VLOGGER 超越了其他先進的影片生成方法，這樣的技術對於產出可以交流的 AI 人物很重要。

不過 VLOGGER 還是存有限制，像是生成影片長度較短，背景多為靜態的，人物並不會在 3D 環境中移動。

Google 將 VLOGGER 視為邁向「對話代理人」的一步，之後 AI 就可以透過語音、手勢和眼神交流以自然的方式與人類互動。VLOGGER 的應用場景還包括可以用於報告、教育場域和旁白等，也可剪輯既有的影片，如果對影片中的表情不滿意就能加以調整。

阿里巴巴先前也發布新論文介紹影片生成模型「EMO」，同樣是讓照片中的靜態人物張嘴說話及唱歌，特色是表情會跟著說話的內容有所變化，很接近人類表達情緒的方式。

：Chris

快加入 INSIDE Google News 按下追蹤，給你最新、最 IN 的科技新聞！