灰度_找资源，谈合作，上灰度

Hugging Face研究人员公布小语言模型家族SmolLM，强调是以谨慎策画的高品质数据集训练而成，同时发布该数据集并说明其内容及规画方法

其中在合成数据集中，团队产生了3,900万笔合成文档，包含280亿token的大学与高中课本、故事、文章和代码，涵括主题超过3.4万。FineWeb-Edu则是Hugging Face的大型英语网页数据集FineWeb的一部分，是利用Llama3-70B-Instruct标注挑选出的1.3T token教育类网页信息，几个月前已发布。Stack-Edu-Python则是由The Stack数据集中，根据Llama 3标注挑选的50万笔python范例。团队指出，经过挑选的数据集，在训练模型的速度都会更快，其中，以Python-Edu-Python数据集训练的速度提升了3倍。

最终团队以SmolLM-Corpus 6,000亿token数据，分别训练了1.35亿及3.6亿版本模型，并以1TB token数据训练17亿版本模型。

Hugging Face团队将开发出的SmolLM模型和参数量相当的其他模型进行标竿测试。其中SmolLM-135M在多项测试中超越小于200M（2亿）参数的其他模型，包括Meta才刚公布的小型LLM MobileLLM（以1TB数据集训练）。SmolLM-360M测试成绩优于所有500M参数以下的模型，不过某些项目逊于MobileLLM-350M。至于SmolLM-1.7B模型则超越所有参数量小于2B的模型，包括微软Phi-1.5、MobileLLM-1.5B及Qwen2。此模型在Python程序撰写性能尤其强大。

／Hugging Face