HUIDU.io- Find Resources, Discuss Cooperation, Join HUIDU

Genie 是透過網路影片訓練出來的基礎世界模型，可以藉由文字、圖片、照片甚至是草稿，生成無數種可以遊玩、角色動作可控的虛擬世界！更重要的是， Genie 學習到的動作，未來有可能有助於實體機器人更好地理解並與身邊環境互動，並且完成從沒被訓練過的任務。

Google DeepMind 又向世界投下了震撼彈，近日該團隊發表 Genie，這是一種靠網路影片訓練出來的 AI 生成模型，可以單靠文字、圖片、影片甚至是手繪草圖，生成出真正可以遊玩、可以互動的虛擬遊戲世界。

Genie （Generative Interactive Environments 的縮寫，即生成式可互動環境）模型是透過公開的、長達 200,000 小時的線上網路影片進行訓練，目前僅是一個提供預覽的研究。由 Genie 生成的遊戲目前看來是 2D 平台遊戲為主。

I am really excited to reveal what @GoogleDeepMind's Open Endedness Team has been up to . We introduce Genie , a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc
— Tim Rocktäschel (@_rockt) February 26, 2024

雖然 Genie 目前還未向公眾開放，不過未來使用者有可能可以透過和手機中的 Android 助理要求：「我要玩一款閃躲吸血鬼的遊戲」，手機即能為使用者自動生成出來。

更為重要的是，Genie 是在無人監督的情況下，使用未進行動作標記的影片來進行訓練的，但它卻能學習網路影片中各種角色的運動、控制與動作，這代表 AI 可以對現實世界的物理有更深入的理解，也代表 Genie 學習到的動作，未來有可能有助於實體機器人更好地理解並與身邊環境互動。

Google DeepMind 開發者 Tim Rocktäschel 在 X 上表示，雖然 Genie 擅長從文字或圖片來創造一個虛擬 2D 世界，但它可以做到的不僅僅是打造遊戲而已，還有包括向其他 AI 模型或超級助理（agents）傳授有關 3D 世界知識潛力。

「我們在沒有動作資訊的機器人控制模型（RT-1）上訓練 Genie，並證明我們也可以在那裡學習並打造出一個可控制動作的模擬器。我們認為這是邁向 AGI 通用世界模型充滿希望的一大步」。言下之意，未來即使在數據缺乏明確動作指令的情況下，這些實體機器人也能在現實世界中完成從沒被訓練過的任務。

Google 不是第一次透過網路影片來訓練 AI，今年稍早，DeepMind Robotics 團隊就宣佈了名為 AutoRT，可結合大型基礎模型（例如大型語言模型，LLM）或視覺語言模型（VLM）與機器人控制模型（RT-1 或 RT-2）來達到不同的任務目的。

：Jocelyn

快加入 INSIDE Google News 按下追蹤，給你最新、最 IN 的科技新聞！

Google DeepMind 推新模型，用訓練 AI 的方式教機器人丟垃圾
Open X-Embodiment 機器人開源資料庫：賦予機器人真正智慧的百寶箱
機器人現在會自我學習了！DeepMind 是怎麼做到的？
OpenAI 遭爆：還有 2 種黑科技 AI 開發中！其一是「自動化」完全接管電腦