Sign in

Member Benefits

Get Demands

View Business Cards

Exclusive Service

Noble Identity

AS LOW AS 1.5U /DAY

Hugging Face公布可在手機上執行的語言模型SmolLM家族

Share

支付動態

2024-07-18

Hugging Face研究人員公布小語言模型家族SmolLM,強調是以謹慎策畫的高品質資料集訓練而成,同時釋出該資料集並說明其內容及規畫方法

其中在合成資料集中,團隊產生了3,900萬筆合成文件,包含280億token的大學與高中課本、故事、文章和程式碼,涵括主題超過3.4萬。FineWeb-Edu則是Hugging Face的大型英語網頁資料集FineWeb的一部分,是利用Llama3-70B-Instruct標註挑選出的1.3T token教育類網頁資訊,幾個月前已釋出。Stack-Edu-Python則是由The Stack資料集中,根據Llama 3標註挑選的50萬筆python範例。團隊指出,經過挑選的資料集,在訓練模型的速度都會更快,其中,以Python-Edu-Python資料集訓練的速度提升了3倍。

最終團隊以SmolLM-Corpus 6,000億token資料,分別訓練了1.35億及3.6億版本模型,並以1TB token資料訓練17億版本模型。

Hugging Face團隊將開發出的SmolLM模型和參數量相當的其他模型進行標竿測試。其中SmolLM-135M在多項測試中超越小於200M(2億)參數的其他模型,包括Meta才剛公布的小型LLM MobileLLM(以1TB資料集訓練)。SmolLM-360M測試成績優於所有500M參數以下的模型,不過某些項目遜於MobileLLM-350M。至於SmolLM-1.7B模型則超越所有參數量小於2B的模型,包括微軟Phi-1.5、MobileLLM-1.5B及Qwen2。此模型在Python程式撰寫效能尤其強大。

/Hugging Face

Disclaimer:
Details
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu