这是因为Meta认为,尽管大型语言模型(LLM)在各种软件工程及代码任务中展现卓越的能力,但它们在代码及编译器优化领域上的应用,却未得到充分的探索,训练LLM是个资源密集,需要大量GPU时间与大量数据收集、可能令人望之却步的任务,而LLM Compiler即是个专为优化代码任务所设计的预训练模型,并可供公开使用。
LLM Compiler已于5,460亿个LLVM-IR与组合代码的Token上进行训练,指令亦已经过微调以更好地编译器的行为,开发者可通过客制化的商业授权以进行广泛的运用,现有具备70亿参数及130亿参数的两种模型可供选择。
Meta还展示了经过微调的模型版本,这些版本在优化代码大小,以及将x86_64和ARM汇编语言反组译回LLVM-IR的能力方面取得了显著的进展。具体来说,这些模型可达到77%的代码优化潜力,以及45%的反组译回路,当中的14%是精确匹配的能力。



2024-06-28
