Google 最近再度發表新的 AI 論文,號稱可以賦予大型語言模型(LLM)處理無限長度文本的能力!
這個技術叫 Infini-attention,直譯就是「無限注意力」,最白話來說是修改了 Transformer 的注意力層,讓 LLM 可以在保持記憶體和計算需求不變的情況下擴展模型的「Context Window」。
Context Window 是指模型可以處理的上下文 token 數量。例如你與 ChatGPT 的對話超出了 Context Window 最大量話,它的性能將會急劇下降,而且會忘記、捨棄、忽視對話一開始所輸入的資訊,所以 Context Window 最大量往往也是評斷一組 LLM 最重要的指標之一。
Google 研究團隊稱,使用 Infini-attention 的模型可以在超過一百萬個 token 的情況下還能保持輸出的品質,而且還無需額外的記憶體。理論上還可以處理更多 token。
技術上 Transformer 處理數據所需的記憶體量、時間會以指數方式增加。理論上沒有修改過的同一組模型如果要把輸入量從 1,000 個 token 擴展到 2,000 個 token 的話,處理輸入所需的記憶體和計算時間不僅僅會增加一倍,而是會增加四倍,這是因為 Transformer 的注意力機制會把每個 token 與其他所有 token 都進行比較運算。在過去幾年中,研究人員開發了不同的技術來降低擴展 LLM 上下文長度的成本。
Infini-attention 的原理是保留了 transformer 的注意力機制,但添加了「壓縮記憶體」模組來處理輸入資訊。一旦輸入超出 Context Window 上線 ,Infini-attention 就會將舊的注意力狀態儲存在壓縮記憶體模組中,該模組也會保持恆定數量的記憶體參數以提高計算效率。
該論文說明是在 10 億和 80 億個參數的 LLM 進行實驗,但 Google 沒有發布詳細用了哪個模型,或任何相對應的程式碼,因此其他研究人員目前還無法驗證結果(合理推測 Google 可能是用自家的 Gemini 測試的)。
快加入 INSIDE Google News 按下追蹤,給你最新、最 IN 的科技新聞!