登入

會員權益

獲取需求

查看名片

專屬客服

尊貴標識

VIP低至1.5U/天

AI趨勢周報第257期: Mistral AI用Mamba架構打造程式碼生成模型

分享

支付動態

2024-07-26

Mistral AI用Mamba 2架構打造程式碼生成模型,表現比同規模的Transformer模型好;Hugging Face釋出小又強健的語言模型SmolLM;Meta開源Llama 3.1 405B;有效加速Transformer生成時間,蘋果推LazyLLM;Nvidia推出企業級模型客製化平臺AI Foundry

Hugging Face     SmolLM     小型語言模型  

Hugging Face釋出小又強健的語言模型SmolLM

最近Hugging Face發布一系列語言模型,名為SmolLM,共有3個版本,包括1.35億參數(135M)、2.6億參數(360M)和17億參數(1.7B)版本。為訓練這些模型,Hugging Face還建置了高品質的訓練語料庫SmolLM-Corpus,由3大類語料組成,分別是目前最大的合成教科書和故事資料集Cosmopedia v2,共有280億個字元(Tokens),以及程式碼教學範例資料集Python-Edu、篩除重複範例的網路範例資料集FineWeb-Edu。這個SmolLM-Corpus語料庫,也隨著模型一起開源。

就模型效能來說,SmolLM在各種常識推理和世界知識測試中表現優異,超越了同規模的MobileLLM、Phi-1.5和Qwen模型。這一系列小型模型,有助於AI在各種裝置上執行,提高應用性。(詳全文)

  Llama 3.1    Meta    開源  

Meta終於開源Llama 3.1 405B了

日前,Meta開源了Llama系列語言模型的最新款Llama 3.1 405B,具4,050億個參數,脈絡長度達12.8萬個字元(Token),支援8種語言,是Meta迄今開發的最大模型,號稱是全球第一個達頂尖水準的開源模型。Meta創辦人暨執行長祖克柏還特別強調開源AI的重要性,認為開源纔是AI的未來。

進一步來說,該模型有2個版本,包括Llama 3.1 405B和Llama 3.1 405B Instruct。Llama 3.1 405B是在近15兆個Token上進行訓練,經測試,Llama 3.1 405B在通用基準測試IFEval、數學測試GSM8K、推論測試ARC Challenge等測試中,都勝過GPT-4、GPT-4o和Claude 3.5 Sonnet。但在人類專家評估中,則與GPT-4-0125、Claude 3.5 Sonnet的表現不相上下,但明顯不及GPT-4o。(詳全文)

免責聲明:
詳情

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+