_arXiv:2310.20689 [cs.CL]
研究人員以2種問題資料集(GSM8K及MATH)實驗LeMa方法對5個開源LLM的效果,並比較只以CoT資料集來微調LLM的效果。結果顯示,以LLaMA-2-70B為例,它在兩種方法下,在GSM8K的準確率分別為83.5%及81.4%,在MATH則分別為25.0%及23.6%。此外,他們也實驗了WizardMath及MetaMath二種專門領域LLM的準確率,在GSM8K資料集測試中,獲致84.2%及85.4% pass@1 準確率,而MATH資料集則達27.1%及26.9%,這個成績超越非執行(non-execution)開源模型在同樣任務中的表現。
此外,他們發現,在同樣資料量的訓練集下,LeMA方法也比純CoT微調來得好。此外,整合CoT資料及修正資料,微調效果更優於單一的微調結果。
研究人員已將LeMA的程式碼、模型、資料公開在GitHub上。



2023-11-06
