Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

Meta公開新模型V-JEPA,透過預測影片缺失部分讓AI更理解真實世界

Share

2024-02-19

Meta釋出基於Yann LeCun JEPA架構的新模型V-JEPA,藉由預測影片中缺失部分,建立起人工智慧對真實世界的理解,可作為發展高階機器智慧的基礎

研究人員解釋,如果僅是隨機抽選遮蔽影片中的小區塊,則會讓任務過於簡單,使得模型無法真正學習到關於世界的複雜事物。因此Meta特別制定涵蓋空間與時間的遮蔽策略,迫使模型學習並且發展對場景的理解,進一步預測未來的事件或是動作,進而達到對世界更深層次的理解。

該方法的優勢讓模型能夠專注於影片的高層次概念,而不會鑽牛角尖於對下游任務不重要的細節,像是人類觀看在有樹木的影片,不會特別關心每片葉子的細微動作一樣,如此便能提高了學習效率和任務適應性。

V-JEPA還有一個重要的創新是凍結評估(Frozen Evaluations)的能力,模型在預訓練之後,核心的部分不會再改變,因此只需要在其上添加小型專門層即可適應新任務。該設計避免了傳統模型針對新任務需要全面微調的麻煩,減少學習新任務的資料和時間要求,並使得模型能夠在不同任務中重複使用,諸如動作分類、精細地物體互動辨識以及活動定位等。

Meta會繼續擴展V-JEPA模型,從只有處理影片的視覺內容,增加整合音訊實現多模態學習,研究團隊認為,透過更豐富的上下文資訊,將能夠加深模型對影片內容的理解。此外,他們也會繼續強化模型長期規畫和預測能力,使其能夠處理長時間跨度的任務,而這將是發展高階機器智慧的重要方向。Meta現在以創用CC BY-NC授權釋出V-JEPA模型,促進人工智慧領域發展。

Disclaimer:
Details

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+