在完整的排行榜中可以看到每個開源模型的平均表現,以及於不同基準測試中的表現,其中,Qwen 2 -72B在各項基準的平均表現為43.02,明顯凌駕第二名Meta Llama 3-70B的36.67。
Hugging Face共同創辦人暨執行長Clement Delangue在結果出爐的當時表示,該平臺總計使用了300個H100 GPU來測試市場上的開源LLM,不僅是由源自中國阿里巴巴的Qwen 2 -72B勝出,中國在開源LLM市場上也占據主導地位,此外,對最近更新的模型來說,過去的基準變更太容易了,如同高中生在解決國中生的問題一樣。
Delangue還發現兩件有趣的事,一是打造模型的開發者愈來愈注重各種主要的測試基準,而忽略或犧牲了其它基準;其次則是越大的模型並不總是越聰明。
不過,就在Google上周釋出開源的Gemma 2之後,DeepMind的首席研究人員Armand Joulin便宣布,Gemma 2-27B已是市場上最好的開源模型。Gemma採用與Gemini同樣的研究及技術而打造,第二代提供了9B及27B兩種版本,Joulin宣稱就算Gemma 2-27B的模型規模比其它競爭對手小了2.5倍,卻已是最好的開源模型。
另一方面,Large Model Systems Organization(lmsys.org)也呼應了Joulin的說法,指出在Google釋出Gemma 2以來便開始蒐集開發者的測試意見,已有超過5,000名開發者認為Gemma 2-27B已勝過Meta Llama 3-70B,為市場上最好的開源模型,不過,lmsys.org的調查一來專注於聊天機器人領域,二來是由開發者進行比較與投票,與Hugging Face所採取的方式不同。



2024-07-01
