全球著名開源平台Hugging Face聯合創辦人Clem透露,阿里巴巴最新開源的Qwen2-72B指令微調版本,在開源模型排行榜上榮登榜首。
綜合陸媒27日報導,Clem表示,為打造一個公正且準確的開源大模型排名,他與團隊利用300塊輝達H100高性能硬體,對全球100多個主流開源大模型,包括Qwen2、Llama-3、Mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA等嚴格的基準測試集上進行了全面深入的評估。
對於重新評估的原因,Clem表示,許多開發者過於追求排行榜的名次,導致在模型訓練過程中過度依賴評估集數據,過去的評估標準對於模型而言也顯得過於簡單。因此,本次評估提高難度標準,以檢驗這些模型在更難挑戰下的真實表現。
評估結果,阿里巴巴開源的Qwen2-72B模型脫穎而出,成新行業領軍者。排行榜顯示,Meta開源的Llama-3-70B指令微調版本排名第二,阿里巴巴的Qwen2-72B基礎版本排名第三,Mistralai的Mixtral-8x22B指令微調版本排名第四,微軟最新開源的小參數模型Phi-3-Medium-4K 14B排名第五。
零一萬物最新開源的Yi-1.5-34B-Chat版本則排在第六。此外,大模型平台Cohere開源帶RAG功能的Command R+ 104B排名第七,曾經排名第一的輝達開源的Smaug-72B-v0.1,在新的排行榜中位列第八名。第九名和第十名,則是阿里巴巴之前開源的Qwen1.5基礎和Chat版本。