Google DeepMind 又向世界投下了震撼彈,近日該團隊發表 Genie,這是一種靠網路影片訓練出來的 AI 生成模型,可以單靠文字、圖片、影片甚至是手繪草圖,生成出真正可以遊玩、可以互動的虛擬遊戲世界。
Genie (Generative Interactive Environments 的縮寫,即生成式可互動環境)模型是透過公開的、長達 200,000 小時的線上網路影片進行訓練,目前僅是一個提供預覽的研究。由 Genie 生成的遊戲目前看來是 2D 平台遊戲為主。
I am really excited to reveal what @GoogleDeepMind's Open Endedness Team has been up to . We introduce Genie , a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc
— Tim Rocktäschel (@_rockt) February 26, 2024
雖然 Genie 目前還未向公眾開放,不過未來使用者有可能可以透過和手機中的 Android 助理要求:「我要玩一款閃躲吸血鬼的遊戲」,手機即能為使用者自動生成出來。
更為重要的是,Genie 是在無人監督的情況下,使用未進行動作標記的影片來進行訓練的,但它卻能學習網路影片中各種角色的運動、控制與動作,這代表 AI 可以對現實世界的物理有更深入的理解,也代表 Genie 學習到的動作,未來有可能有助於實體機器人更好地理解並與身邊環境互動。
Google DeepMind 開發者 Tim Rocktäschel 在 X 上表示,雖然 Genie 擅長從文字或圖片來創造一個虛擬 2D 世界,但它可以做到的不僅僅是打造遊戲而已,還有包括向其他 AI 模型或超級助理(agents)傳授有關 3D 世界知識潛力。
「我們在沒有動作資訊的機器人控制模型(RT-1)上訓練 Genie,並證明我們也可以在那裡學習並打造出一個可控制動作的模擬器。我們認為這是邁向 AGI 通用世界模型充滿希望的一大步」。言下之意,未來即使在數據缺乏明確動作指令的情況下,這些實體機器人也能在現實世界中完成從沒被訓練過的任務。
Google 不是第一次透過網路影片來訓練 AI,今年稍早,DeepMind Robotics 團隊就宣佈了名為 AutoRT,可結合大型基礎模型(例如大型語言模型,LLM)或視覺語言模型(VLM)與機器人控制模型(RT-1 或 RT-2)來達到不同的任務目的。
:Jocelyn
快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!
- Google DeepMind 推新模型,用訓練 AI 的方式教機器人丟垃圾
- Open X-Embodiment 機器人開源資料庫:賦予機器人真正智慧的百寶箱
- 機器人現在會自我學習了!DeepMind 是怎麼做到的?
- OpenAI 遭爆:還有 2 種黑科技 AI 開發中!其一是「自動化」完全接管電腦



2024-02-28
