在完整的排行榜中可以看到每个开源模型的平均表现,以及于不同基准测试中的表现,其中,Qwen 2 -72B在各项基准的平均表现为43.02,明显凌驾第二名Meta Llama 3-70B的36.67。
Hugging Face共同创办人暨首席执行官Clement Delangue在结果出炉的当时表示,该平台总计使用了300个H100 GPU来测试市场上的开源LLM,不仅是由源自中国阿里巴巴的Qwen 2 -72B胜出,中国在开源LLM市场上也占据主导地位,此外,对最近更新的模型来说,过去的基准变更太容易了,如同高中生在解决国中生的问题一样。
Delangue还发现两件有趣的事,一是打造模型的开发者愈来愈注重各种主要的测试基准,而忽略或牺牲了其它基准;其次则是越大的模型并不总是越聪明。
不过,就在Google上周发布开源的Gemma 2之后,DeepMind的首席研究人员Armand Joulin便宣布,Gemma 2-27B已是市场上最好的开源模型。Gemma采用与Gemini同样的研究及技术而打造,第二代提供了9B及27B两种版本,Joulin宣称就算Gemma 2-27B的模型规模比其它竞争对手小了2.5倍,却已是最好的开源模型。
另一方面,Large Model Systems Organization(lmsys.org)也呼应了Joulin的说法,指出在Google发布Gemma 2以来便开始搜集开发者的测试意见,已有超过5,000名开发者认为Gemma 2-27B已胜过Meta Llama 3-70B,为市场上最好的开源模型,不过,lmsys.org的调查一来专注于聊天机器人领域,二来是由开发者进行比较与投票,与Hugging Face所采取的方式不同。



2024-07-01
