当前位置：首页 > 资讯 > 科技 > Meta发布Llama 3.2 1B/3B量化模型：降低功耗，适配更多轻量级移动设备

Meta发布Llama 3.2 1B/3B量化模型：降低功耗，适配更多轻量级移动设备

Meta 2024-10-28 10:02:25 爱吃爆米花

近日消息，在今年9月开源了Llama 3.2的1B和3B模型之后，Meta在10月24日推出了这两个模型的量化版本。通过量化处理，新版本的模型大小平均减少了56%，RAM占用量平均下降了41%。此外，模型运行速度提升了2到4倍，功耗也有所降低，这使得这些模型能够更广泛地应用于各类移动设备中。

注：模型量化（Model Quantization）就是通过各种训练方式将浮点模型转为定点模型，可以压缩模型参数，降低模型的复杂性，以便于在更轻量的平台运行。

Meta 表示，他们采用了量化感知训练（Quantization-Aware Training，QAT）和后训练量化（SpinQuant）两种方法对模型进行量化，其中“量化感知训练”更重视模型的准确性，而“后训练量化”更强调模型的可移植性。

据介绍，研究人员一共为 Llama 3.2 的 1B 和 3B 模型各推出了两款量化版本，分别为 Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA 和 Llama 3.2 3B SpinQuant。

Meta 声称，这些量化模型比非量化的 Llama BF16 模型速度更快，占用更少的 RAM，并且功耗更低，同时保持与 Llama BF16 版本几乎相同的精度。

尽管量化后的 Llama 3.2 1B 和 3B 模型仅支持 8000 个 Token 的上下文（原版模型支持 12.8 万个 Token），但 Meta 的测试发现，无论是 Llama QLoRA 还是 Llama SpinQuant 等量化版本的基准测试结果实际上与原来的 Llama BF16 版本相差不远。

目前，Meta 已在一加 12、三星 S24+/S22 及苹果 iOS 设备（未公布具体型号）等移动平台测试这些经过量化后模型，测试“运行结果良好”，研究人员未来还计划通过神经处理单元（NPU）提升这些量化模型的性能。

扩展阅读