Hugging Face
微软本周借由Hugging Face发布了3款Phi-3.5模型,它们分别是Phi-3.5-mini 、Phi-3.5-MoE,以及Phi-3.5-vision,且当中的Phi-3.5-MoE在推论能力上超越了许多比它还大的模型,能力还逼近GPT-4o-mini。
Phi系列是微软所开发的小型语言模型(SLM),期望能够在最大化AI能力的状况下降低资源的使用,以于应用程序中实现具成本效益的生成式AI部署。最早的Phi-1主要用来撰写Python代码,Phi-1.5着重于推论及理解,Phi-2强调对语言的理解,Phi-3则支持语言理解、推论任务,且在撰写代码的基准测试上也有不错的表现。
在新的Phi-3.5家族中,Phi-3.5-mini拥有38亿个参数,以3.4兆个Token进行10天的训练,支持12.8万个Token的脉络长度。
Phi-3.5-MoE则是个基于混合专家(Mixture of Experts,MoE)架构的模型,内含16个专家及每个专家的38亿个参数,MoE的特性就是它并非每次都会激活所有专家,而Phi-3.5-MoE每次只会激活两个专家。它所支持的脉络长度亦为12.8万个Token,是以4.9兆个Token进行23天的训练。
上述两个模型都是输入文本提示,而Phi-3.5-vision则是个多模态模型,它拥有42亿个参数,内含图像编码器、连接器、投影机,以及Phi-3 mini语言模型,支持12.8万个Token的脉络,可同时输入文本及图像,是以5,000亿个Token的数据进行6天的训练而成。
有别于Phi-3.5-mini及Phi-3.5-MoE都支持包括中文与英文在内的十多种语言,目前Phi-3.5-vision仅支持英文。
在微软此次发布的Phi-3.5模型中,最受瞩目的是Phi-3.5-MoE,它在许多基准测试中击败了Llama 3.1 8B与Gemini 1.5 Flash。