登入

會員權益

獲取需求

查看名片

專屬客服

尊貴標識

VIP低至1.5U/天

Meta公開其GenAI基礎設施,兩個叢集分別具備2.4萬個GPU

分享

2024-03-14

Meta揭露該公司的生成式人工智慧基礎設施,包括兩個以不同網路架構打造的大型資料中心叢集,各自具備24,576個Nvidia H100 GPU

Meta

除了網路架構之外,它們皆採用Meta內部設計、並已貢獻給開放運算計畫的GPU硬體平臺Grand Teton,該平臺是以許多不同世代的AI系統為基礎,並在單一的機箱中整合了電源、控制、運算與架構介面,以達到更好的效能、訊號完整性及熱效能。

在儲存上則是採用基於Meta內部Tectonic分散式儲存解決方案的Linux Filesystem in Userspace(FUSE)API ,它滿足了AI叢集對資料與檢查點的需求,令數千個GPU得以同步保存及載入檢查點,同時提供資料載入時所需的彈性,以及EB儲存等級的吞吐量。

Meta亦與Hammerspace共同開發一個平行網路檔案系統(NFS)部署,以迎合開發者對AI叢集的體驗需求。Hammerspace的優點之一是允許工程師可利用數千個GPU的資源進行任務的互動除錯,因為當程式有所變更時,此一環境中的所有節點都可立即存取。

打造大規模AI叢集的挑戰之一為同時維持其高效能及易用性,於是Meta藉由比較小叢集與大叢集的效能來找出大叢集的瓶頸並將其優化。Meta坦承,在甫完成大叢集的部署之際,其最初效能很差且不一致,因而經由調整網路拓撲,並結合對Nvidia Collective Communications Library(NCCL)的變更來優化網路路由政策,以實現最佳的網路利用率,而讓大型叢集達到與小型叢集一樣出色的預期效能。

Meta仍計畫持續建置並擴張大型GenAI叢集,計畫今年底便會擴大其基礎設施至包含35萬個Nvidia H100 GPU,並將創造等同於60萬個H100 GPU運算能力。

免責聲明:
詳情
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu