Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

Nvidia開源Nemotron-4 340B家族,以供開發者建置大型語言模型

Share

支付動態

2024-06-17

Nemotron-4 340B家族包含了基礎模型、指令模型及獎勵模型,其中指令模型可用來生成大型語言模型的訓練資料

Hugging Face

Nvidia上周開源了Nemotron-4 340B模型家族,它包含了基礎模型、指令模型及獎勵模型,可用來生成合成資料,藉以訓練大型語言模型(LLM),現已可自Hugging Face下載,之後也能透過Nvidia網站以API及NIM微服務來存取模型。

Nvidia表示,高品質的訓練資料對一個客製化LLM的性能及準確度都很重要,但強大的資料集既難存取又昂貴,現在開發者可藉由開放模型授權來免費存取Nemotron-4 340B,以生成合成資料,並建置強大的LLM。該模型家族支援醫療照護、金融、製造、零售與其它領域的商業應用。

其中,Nemotron-4 340B的基礎模型在9兆個Token上進行訓練,可利用NeMo框架進行客製化,以支援特定領域;而指令模型則是用來創建模仿真實世界資料特徵的各種合成資料,以提高不同領域的資料品質;再利用獎勵模型進行過濾,進而獲得更高品質的回應。總之,Nemotron-4 340B的3種模型建立了一個管道,以生成及優化用來訓練LLM的合成資料。

此外,上述模型已針對NeMo框架及TensorRT-LLM函式庫進行最佳化,前者可用來支援端對端的模型訓練,後者則是用來加速推論。

Disclaimer:
Details

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+