灰度_找资源，谈合作，上灰度

Hugging Face以MMLU-Pro等六大测试基准，评测市面上的开源LLM，结果显示阿里云的Qwen 2凌驾Meta Llama 3-70B拿下第一，另一方面Google Deepmind研究人员则强调新公布的Gemma 2是最好的开源模型

在完整的排行榜中可以看到每个开源模型的平均表现，以及于不同基准测试中的表现，其中，Qwen 2 -72B在各项基准的平均表现为43.02，明显凌驾第二名Meta Llama 3-70B的36.67。

Hugging Face共同创办人暨首席执行官Clement Delangue在结果出炉的当时表示，该平台总计使用了300个H100 GPU来测试市场上的开源LLM，不仅是由源自中国阿里巴巴的Qwen 2 -72B胜出，中国在开源LLM市场上也占据主导地位，此外，对最近更新的模型来说，过去的基准变更太容易了，如同高中生在解决国中生的问题一样。

Delangue还发现两件有趣的事，一是打造模型的开发者愈来愈注重各种主要的测试基准，而忽略或牺牲了其它基准；其次则是越大的模型并不总是越聪明。

不过，就在Google上周发布开源的Gemma 2之后，DeepMind的首席研究人员Armand Joulin便宣布，Gemma 2-27B已是市场上最好的开源模型。Gemma采用与Gemini同样的研究及技术而打造，第二代提供了9B及27B两种版本，Joulin宣称就算Gemma 2-27B的模型规模比其它竞争对手小了2.5倍，却已是最好的开源模型。

另一方面，Large Model Systems Organization（lmsys.org）也呼应了Joulin的说法，指出在Google发布Gemma 2以来便开始搜集开发者的测试意见，已有超过5,000名开发者认为Gemma 2-27B已胜过Meta Llama 3-70B，为市场上最好的开源模型，不过，lmsys.org的调查一来专注于聊天机器人领域，二来是由开发者进行比较与投票，与Hugging Face所采取的方式不同。