Meta刚刚发布了全新轻量级量化版模型Llama 3.2 1B和3B,它们保持了原始1B/3B模型相同的质量和安全要求,性能:
-
2-4 倍的加速,与原始 BF16 格式相比 -
模型大小平均减少56% -
内存占用平均减少41% -
8K上下文


https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/
https://huggingface.co/meta-llama
Meta刚刚发布了全新轻量级量化版模型Llama 3.2 1B和3B,它们保持了原始1B/3B模型相同的质量和安全要求,性能:
https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/
https://huggingface.co/meta-llama