HUIDU.io- Find Resources, Discuss Cooperation, Join HUIDU

Hugging Face研究人員公布小語言模型家族SmolLM，強調是以謹慎策畫的高品質資料集訓練而成，同時釋出該資料集並說明其內容及規畫方法

其中在合成資料集中，團隊產生了3,900萬筆合成文件，包含280億token的大學與高中課本、故事、文章和程式碼，涵括主題超過3.4萬。FineWeb-Edu則是Hugging Face的大型英語網頁資料集FineWeb的一部分，是利用Llama3-70B-Instruct標註挑選出的1.3T token教育類網頁資訊，幾個月前已釋出。Stack-Edu-Python則是由The Stack資料集中，根據Llama 3標註挑選的50萬筆python範例。團隊指出，經過挑選的資料集，在訓練模型的速度都會更快，其中，以Python-Edu-Python資料集訓練的速度提升了3倍。

最終團隊以SmolLM-Corpus 6,000億token資料，分別訓練了1.35億及3.6億版本模型，並以1TB token資料訓練17億版本模型。

Hugging Face團隊將開發出的SmolLM模型和參數量相當的其他模型進行標竿測試。其中SmolLM-135M在多項測試中超越小於200M（2億）參數的其他模型，包括Meta才剛公布的小型LLM MobileLLM（以1TB資料集訓練）。SmolLM-360M測試成績優於所有500M參數以下的模型，不過某些項目遜於MobileLLM-350M。至於SmolLM-1.7B模型則超越所有參數量小於2B的模型，包括微軟Phi-1.5、MobileLLM-1.5B及Qwen2。此模型在Python程式撰寫效能尤其強大。

／Hugging Face