Garden of KnowledgeApplied Sciences › Computer Science › Software › Data Science › Machine Learning › LLM
February 12, 2026

Quantization (Quantification)

La quantification consiste à réduire la précision numérique des poids et activations d’un modèle (passer de 32-bit ou 16-bit à 8-bit, 4-bit, voire moins). L’objectif est de rendre les modèles plus légers et plus rapides sans trop perdre en performance.

Pourquoi quantifier ?§

Les grands modèles de langage (LLM) sont énormes :

ModèleParamètresTaille FP32Taille FP16Taille INT8Taille INT4
LLaMA 7B7 milliards~28 Go~14 Go~7 Go~3.5 Go
LLaMA 13B13 milliards~52 Go~26 Go~13 Go~6.5 Go
LLaMA 70B70 milliards~280 Go~140 Go~70 Go~35 Go

La quantification rend possible l’exécution de ces modèles sur du matériel grand public (GPU gaming, CPU, appareils mobiles).

graph LR
    subgraph "Sans quantification"
        A1["Modèle 70B<br/>FP16 : 140 Go"] --> B1["4x GPU A100 80Go<br/>$$$$"]
    end

    subgraph "Avec quantification"
        A2["Modèle 70B<br/>INT4 : 35 Go"] --> B2["1x GPU RTX 4090 24Go<br/>+ RAM système"]
    end

    style A1 fill:#F44336,color:#fff
    style A2 fill:#4CAF50,color:#fff

Les formats de précision§

Représentation des nombres§

FormatBitsPlage de valeursUtilisation
FP32 (float32)32$\pm 3.4 \times 10^{38}$Entraînement classique
FP16 (float16)16$\pm 6.5 \times 10^{4}$Entraînement mixte, inférence
BF16 (bfloat16)16$\pm 3.4 \times 10^{38}$Entraînement (même plage que FP32)
INT88-128 à 127Inférence quantifiée
INT44-8 à 7Inférence très compressée
NF4 (NormalFloat4)4Optimisé pour distributions normalesQLoRA
graph TB
    subgraph "Précision décroissante, efficacité croissante"
        direction LR
        FP32["FP32<br/>32 bits<br/>Haute précision"] --> FP16["FP16 / BF16<br/>16 bits<br/>Bon compromis"]
        FP16 --> INT8["INT8<br/>8 bits<br/>Rapide"]
        INT8 --> INT4["INT4 / NF4<br/>4 bits<br/>Ultra compact"]
    end

    style FP32 fill:#2196F3,color:#fff
    style FP16 fill:#4CAF50,color:#fff
    style INT8 fill:#FF9800,color:#fff
    style INT4 fill:#F44336,color:#fff

Types de quantification§

1. Post-Training Quantization (PTQ)§

Quantification après l’entraînement, sans ré-entraîner le modèle.

Avantages : rapide, ne nécessite pas de données d’entraînement Inconvénients : perte de qualité plus importante, surtout en dessous de 8 bits

Quantification symétrique§

Le zéro correspond exactement au zéro quantifié : $$x_q = \text{round}\left(\frac{x}{s}\right), \quad s = \frac{\max(|x|)}{2^{b-1} - 1}$$

Quantification asymétrique§

Utilise un offset (zero-point) pour mieux couvrir la plage de valeurs : $$x_q = \text{round}\left(\frac{x - z}{s}\right), \quad s = \frac{\max(x) - \min(x)}{2^b - 1}$$

2. Quantization-Aware Training (QAT)§

Simule la quantification pendant l’entraînement pour que le modèle s’adapte.

Avantages : meilleure qualité, le modèle apprend à compenser la perte de précision Inconvénients : nécessite un ré-entraînement (coûteux pour les LLM)

graph LR
    subgraph "PTQ (Post-Training)"
        direction LR
        T1["Modèle entraîné<br/>(FP32)"] --> Q1["Quantification"] --> M1["Modèle quantifié<br/>(INT8/INT4)"]
    end

    subgraph "QAT (Aware Training)"
        direction LR
        T2["Entraînement avec<br/>simulation de quantification"] --> M2["Modèle déjà adapté<br/>à la quantification"]
    end

    style Q1 fill:#FF9800,color:#fff
    style T2 fill:#4CAF50,color:#fff

Méthodes populaires§

GPTQ (GPT Quantization)§

GGML / GGUF§

AWQ (Activation-aware Weight Quantization)§

bitsandbytes (Hugging Face)§

Comparaison des méthodes§

MéthodeBitsCibleVitesse d’inférenceQualitéFacilité
GPTQ4-8GPUTrès rapideBonneMoyenne
GGUF2-8CPUBonneVariable selon bitsFacile
AWQ4GPUTrès rapideTrès bonneMoyenne
bitsandbytes4-8GPURapideBonneTrès facile

Impact sur la qualité§

La quantification entraîne une perte de qualité, mais elle est souvent acceptable :

QuantificationPerte de qualitéRecommandation
FP16NégligeableStandard pour l’inférence
INT8Très faible (~0.1-0.5% sur les benchmarks)Excellent compromis
INT4Faible à modérée (~1-3%)Bon pour les modèles > 7B
INT3/INT2SignificativeUniquement si ressources très limitées

Règle générale : plus un modèle est grand, mieux il tolère la quantification. Un modèle 70B en 4-bit sera souvent meilleur qu’un modèle 7B en 16-bit.

Ressources§

—The Gardener