登录

会员权益

获取需求

查看名片

专属客服

尊贵标识

VIP低至1.5U/天

Meta开源5款小型语言模型MobileLLM

分享

支付動態

2024-11-05

Meta发布能在智能型手机上运行的语言模型MobileLLM,提供125M、350M、600M、1B参数规模版本

GitHub

在7月发表之后,Meta上周宣布正式开源能在智能型手机上运行的小语言模型MobileLLM系列。

Meta 4个月前发表这2个参数量小于10亿的语言模型MobileLLM 125M及MobileLLM 350M,现在Meta又开发出更大参数量的模型版本,包括MobileLLM-600M/1B/1.5B。

Meta指出,团队全面考虑了多项设计因素,并集成了SwiGLU激活函数(activation function)、「深而精简」(deep-and-thin)架构、内嵌共享(embedding sharing)、以及群组查找注意力(grouped-query attention)机制来开发出MobileLLM模型。

从成果来看,MobileLLM 125M/350M零样本常识理解任务的准确率,比Cerebras、OPT、BLOOM等State of the Art(SOTA)模型,分别高2.7%和4.3%。根据Meta提供的数据,添加的模型成员如MobileLLM-1.5B,更是打挂GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B与Pythia-2.8B等较大参数量的其他模型。

Meta也强调MobileLLM训练快速。在32颗Nvidia A100 80G GPU的服务器环境下,以1T字词(token)训练不同参数量的MobileLLM所需天数,1.5B版本只要18天,最小的125M更只需3天。

这些模型都已通过GitHub与Hugging Face开源。

随着智能型手机性能日渐强大,以及用户对高速回应、低延迟、安全性的需求,愈来愈多模型开发商提供小模型。Google有Gemma 2、微软有Phi 3、OpenAI则有GPT-4o mini,苹果有DCLM。Hugging Face上周也公布小语言模型SmolLM 2家族。

免责声明:
详情
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu