登录

会员权益

获取需求

查看名片

专属客服

尊贵标识

VIP低至1.5U/天

Hugging Face第二届LLM排行榜出炉,中国LLM表现出色

分享

支付動態

2024-07-01

Hugging Face以MMLU-Pro等六大测试基准,评测市面上的开源LLM,结果显示阿里云的Qwen 2凌驾Meta Llama 3-70B拿下第一,另一方面Google Deepmind研究人员则强调新公布的Gemma 2是最好的开源模型

在完整的排行榜中可以看到每个开源模型的平均表现,以及于不同基准测试中的表现,其中,Qwen 2 -72B在各项基准的平均表现为43.02,明显凌驾第二名Meta Llama 3-70B的36.67。

Hugging Face共同创办人暨首席执行官Clement Delangue在结果出炉的当时表示,该平台总计使用了300个H100 GPU来测试市场上的开源LLM,不仅是由源自中国阿里巴巴的Qwen 2 -72B胜出,中国在开源LLM市场上也占据主导地位,此外,对最近更新的模型来说,过去的基准变更太容易了,如同高中生在解决国中生的问题一样。

Delangue还发现两件有趣的事,一是打造模型的开发者愈来愈注重各种主要的测试基准,而忽略或牺牲了其它基准;其次则是越大的模型并不总是越聪明。

不过,就在Google上周发布开源的Gemma 2之后,DeepMind的首席研究人员Armand Joulin便宣布,Gemma 2-27B已是市场上最好的开源模型。Gemma采用与Gemini同样的研究及技术而打造,第二代提供了9B及27B两种版本,Joulin宣称就算Gemma 2-27B的模型规模比其它竞争对手小了2.5倍,却已是最好的开源模型。

另一方面,Large Model Systems Organization(lmsys.org)也呼应了Joulin的说法,指出在Google发布Gemma 2以来便开始搜集开发者的测试意见,已有超过5,000名开发者认为Gemma 2-27B已胜过Meta Llama 3-70B,为市场上最好的开源模型,不过,lmsys.org的调查一来专注于聊天机器人领域,二来是由开发者进行比较与投票,与Hugging Face所采取的方式不同。

免责声明:
详情
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu