新鲜出炉,Meta全新Llama 3.2 1B/3B发布!

Meta刚刚发布了全新轻量级量化版模型Llama 3.2 1B和3B,它们保持了原始1B/3B模型相同的质量和安全要求,性能: 

  • 2-4 倍的加速,与原始 BF16 格式相比
  • 模型大小平均减少56% 
  • 内存占用平均减少41% 
  • 8K上下文
新鲜出炉,Meta全新Llama 3.2 1B/3B发布!
使用了两种技术来量化 Llama 3.2 1B 和 3B 模型:带有 LoRA 适配器的量化感知训练(优先考虑准确性)和 SpinQuant(一种优先考虑可移植性的最先进的训练后量化方法)。

新鲜出炉,Meta全新Llama 3.2 1B/3B发布!

新鲜出炉,Meta全新Llama 3.2 1B/3B发布!

将不同量化方法(SpinQuant 和 QAT + LoRA)的性能指标与 BF16 基线进行了比较。评估使用ExecuTorch框架作为推理引擎,以 ARM CPU 作为后端。量化模型主要通过利用 Kleidi AI 库针对 Arm CPU 架构进行了优化。新鲜出炉,Meta全新Llama 3.2 1B/3B发布!
https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/https://huggingface.co/meta-llama

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注