Meta本周发表了Llama 3.2,包括视觉语言模型Llama 3.2 11B及Llama 3.2 90B,以及锁定边缘及行动设备、轻量且只有文本的Llama 3.2 1B及Llama 3.2 3B,已开放用户自Llama官网及Hugging Face上下载。
其中,Llama 3.2 11B与Llama 3.2 90B主要支持图像推论使用案例,可理解包含图表、图形及图说在内的文档,或者是通过自然语言描述,于图像中精确定位对象位置等视觉定位任务。例如用户可询问企业在去年哪个月的业绩最好,Llama即可根据图表回答;或者是基于地图来回答路径及距离等问题。
至于轻量的Llama 3.2 1B及Llama 3.2 3B,则具备强大的文本生成及工具调用功能,允许开发人员建置个人化的设备端代理应用程序,以让数据保存于设备上而不外流。
Meta表示,于设备端运行上述模型有两大好处,一是提示与回应感觉像是即时的,二是不会将个人数据发送到云端,让相关程序更具隐私,或者是控制将哪些查找保留于设备上,哪些则需送至云上的大模型处理。
此外,基准测试显示,Llama 3.2的视觉模型在图像辨识及许多视觉理解任务上,足以与Claude 3 Haiku和GPT4o-mini 竞争,Llama 3.2 3B在遵循指令、摘录、重写提示及工具使用等任务上的表现,超越了Gemma 2 2.6B与Phi 3.5-mini模型,至于Llama 3.2 1B某些部分的表现亦不输Gemma与Phi。



2024-09-28
