Hugging Face
微軟本週藉由Hugging Face釋出了3款Phi-3.5模型,它們分別是Phi-3.5-mini 、Phi-3.5-MoE,以及Phi-3.5-vision,且當中的Phi-3.5-MoE在推論能力上超越了許多比它還大的模型,能力還逼近GPT-4o-mini。
Phi系列是微軟所開發的小型語言模型(SLM),期望能夠在最大化AI能力的狀況下降低資源的使用,以於應用程式中實現具成本效益的生成式AI部署。最早的Phi-1主要用來撰寫Python程式碼,Phi-1.5著重於推論及理解,Phi-2強調對語言的理解,Phi-3則支援語言理解、推論任務,且在撰寫程式碼的基準測試上也有不錯的表現。
在新的Phi-3.5家族中,Phi-3.5-mini擁有38億個參數,以3.4兆個Token進行10天的訓練,支援12.8萬個Token的脈絡長度。
Phi-3.5-MoE則是個基於混合專家(Mixture of Experts,MoE)架構的模型,內含16個專家及每個專家的38億個參數,MoE的特性就是它並非每次都會啟用所有專家,而Phi-3.5-MoE每次只會啟用兩個專家。它所支援的脈絡長度亦為12.8萬個Token,是以4.9兆個Token進行23天的訓練。
上述兩個模型都是輸入文字提示,而Phi-3.5-vision則是個多模態模型,它擁有42億個參數,內含圖像編碼器、連接器、投影機,以及Phi-3 mini語言模型,支援12.8萬個Token的脈絡,可同時輸入文字及圖像,是以5,000億個Token的資料進行6天的訓練而成。
有別於Phi-3.5-mini及Phi-3.5-MoE都支援包括中文與英文在內的十多種語言,目前Phi-3.5-vision僅支援英文。
在微軟此次釋出的Phi-3.5模型中,最受矚目的是Phi-3.5-MoE,它在許多基準測試中擊敗了Llama 3.1 8B與Gemini 1.5 Flash。