HUIDU.io- Find Resources, Discuss Cooperation, Join HUIDU

Hugging Face以MMLU-Pro等六大測試基準，評測市面上的開源LLM，結果顯示阿里雲的Qwen 2凌駕Meta Llama 3-70B拿下第一，另一方面Google Deepmind研究人員則強調新公布的Gemma 2是最好的開源模型

在完整的排行榜中可以看到每個開源模型的平均表現，以及於不同基準測試中的表現，其中，Qwen 2 -72B在各項基準的平均表現為43.02，明顯凌駕第二名Meta Llama 3-70B的36.67。

Hugging Face共同創辦人暨執行長Clement Delangue在結果出爐的當時表示，該平臺總計使用了300個H100 GPU來測試市場上的開源LLM，不僅是由源自中國阿里巴巴的Qwen 2 -72B勝出，中國在開源LLM市場上也占據主導地位，此外，對最近更新的模型來說，過去的基準變更太容易了，如同高中生在解決國中生的問題一樣。

Delangue還發現兩件有趣的事，一是打造模型的開發者愈來愈注重各種主要的測試基準，而忽略或犧牲了其它基準；其次則是越大的模型並不總是越聰明。

不過，就在Google上周釋出開源的Gemma 2之後，DeepMind的首席研究人員Armand Joulin便宣布，Gemma 2-27B已是市場上最好的開源模型。Gemma採用與Gemini同樣的研究及技術而打造，第二代提供了9B及27B兩種版本，Joulin宣稱就算Gemma 2-27B的模型規模比其它競爭對手小了2.5倍，卻已是最好的開源模型。

另一方面，Large Model Systems Organization（lmsys.org）也呼應了Joulin的說法，指出在Google釋出Gemma 2以來便開始蒐集開發者的測試意見，已有超過5,000名開發者認為Gemma 2-27B已勝過Meta Llama 3-70B，為市場上最好的開源模型，不過，lmsys.org的調查一來專注於聊天機器人領域，二來是由開發者進行比較與投票，與Hugging Face所採取的方式不同。