
攝影_余至浩
生成式AI在今年掀起一股新的AI風潮,不少大型雲端業者、科技公司都在今年大規模部署GPU伺服器,用來訓練自己的LLM模型,然而,現今的晶片設計主要是針對雲端運算需求而非專門為LLM模型訓練而設計,這導致LLM模型的訓練成本非常龐大。以OpenAI的GPT-3模型為例,該模型擁有1,750億個參數,需要龐大算力,訓練成本高達165萬美元。使用GPT-3開發的ChatGPT在推論方面的成本更高,每月燒掉4千萬美元。這不僅大大增加了企業成本,對地球資源、環境永續性也可能產生影響。
在9月英特爾創新日會後一場記者會上,英特爾執行長Pat Gelsinger明白表示,未來伺服器晶片發展需要新變革,來因應生成式AI的應用需求,整合更多先進技術,包括先進電晶體技術、先進封裝技術、先進通訊及先進記憶體技術等。尤其,他特別點出,現今的晶片封裝技術是阻礙AI發展的一大瓶頸,得加以解決。
經過一段時間的研發,英特爾近日發表可用於下一代先進封裝的玻璃基板,與傳統的基板相比,這種新型基板可以大幅提升半導體封裝的電晶體數量,而且具備有省電和更好的散熱特性,可用於封裝生成式AI晶片。這項技術最快3年後開始量產。
又以先進記憶體技術為例,英特爾開始支援MCR DIMM規格的記憶體,如明年將推出的Granite Rapids處理器,就已導入這項技術,藉以增加伺服器平臺的記憶體頻寬,以滿足資料密集型的的工作負載,如LLM模型參數訓練所需的記憶體。在矽(silicon)架構上,英特爾引進3D矽堆疊設計,以提供更高的處理效能,來滿足LLM模型的運算需求。近年來,許多企業應用程式中都開始結合AI功能,這也使處理器中提供AI支援能力變得越來越重要,Pat Gelsinger表示,這是英特爾決定要建構AI產品線的原因,除了將AI技術帶進行動PC之外,英特爾還有兩大人工智慧產品,分別是Xeon可擴展處理器和AI訓練加速器Gaudi。
英特爾在第4代Xeon可擴展處理器中開始內建了AMX進階矩陣延伸功能,使得它能夠針對在CPU上執行的AI算法進行加速,尤其在處理大型語言模型等工作負載時,搭配Xeon Max系列可提供高達20倍的加速效能。英特爾明年還將有一款主打高效能的Granite Rapids伺服器處理器將推出,將進一步提升其AI處理效能。
針對AI模型訓練,英特爾則是推出了AI訓練加速器Gaudi,目前已發展到了第二代產品,搭載更多張量處理器核心與HBM。根據測試結果,在執行多模態的BridgeTower模型的性能表現上,Gaudi2效能表現優於去年發表的Nvidia H100 GPU,有高達1.4倍。此外,下一代Gaudi3很快將在明年推出,甚至還有一款支援雙精度浮點運算(FP64)的Falcon Shores GPU未來將問世。
相關報導