Garden of KnowledgeApplied Sciences › Computer Science › Software › Data Science › Machine Learning › LLM
March 20, 2026

LLM — Architectures et Fonctionnement

Les Large Language Models (LLM) sont des modèles de deep learning entraînés sur d’immenses corpus de texte pour prédire le prochain token. GPT, Claude, Gemini, LLaMA en sont des exemples.

Vue d’Ensemble§

flowchart LR
    TEXT["Texte brut\nCorpus massif\n(Internet, livres, code)"]
    TOK["Tokenisation\nBPE / WordPiece\nvocabulaire ~32k-128k"]
    EMB["Embeddings\nVecteurs denses\n(dim 512-16384)"]
    TRANS["Transformer\nN couches\n(attention + FFN)"]
    PRED["Prédiction\nProchain token\n(softmax sur vocabulaire)"]

    TEXT --> TOK --> EMB --> TRANS --> PRED

L’entraînement = prédire le prochain token sur des milliards d’exemples. La compréhension du langage émerge de cette tâche simple à grande échelle.

Tokenisation§

Avant d’entrer dans le modèle, le texte est découpé en tokens — sous-mots, pas forcément des mots entiers.

"Bonjour, monde!" → ["Bon", "jour", ",", " monde", "!"]
"unforgettable"  → ["un", "forget", "table"]

BPE (Byte Pair Encoding) : algorithme standard (GPT, LLaMA)

Impact pratique :

Architecture Transformer§

Introduite en 2017 (Vaswani et al., “Attention is All You Need”). Tous les LLM modernes en dérivent.

Composants principaux d’un bloc Transformer :

graph TD
    IN["Input\n(embeddings + positional encoding)"]
    ATTN["Multi-Head Self-Attention\n(relations entre tous les tokens)"]
    NORM1["Layer Norm + Residual"]
    FFN["Feed-Forward Network\n(MLP : 2 couches denses)"]
    NORM2["Layer Norm + Residual"]
    OUT["Output\n(vers couche suivante)"]

    IN --> ATTN --> NORM1 --> FFN --> NORM2 --> OUT

Self-Attention : le mécanisme clé

Positional Encoding :

Entraînement§

Pré-entraînement (Pre-training)

Fine-tuning supervisé (SFT)

RLHF (Reinforcement Learning from Human Feedback)

  1. Générer plusieurs réponses à une même question
  2. Des humains les classent (quelle réponse est meilleure ?)
  3. Entraîner un reward model à prédire ces préférences
  4. Optimiser le LLM avec PPO (Proximal Policy Optimization) pour maximiser le reward

RLAIF (RL from AI Feedback) : remplacer les humains par un autre LLM pour scalabilité.

Paramètres et Échelles§

ModèleParamètresContexteAnnée
GPT-21,5 B1 024 tokens2019
GPT-3175 B4 096 tokens2020
LLaMA 27B à 70B4 096 tokens2023
GPT-4 (estimé)~1 000 B128 000 tokens2023
LLaMA 38B à 405B128 000 tokens2024
Claude 3.5Inconnu200 000 tokens2024

Lois d’échelle (Scaling Laws — Kaplan 2020, Chinchilla 2022) :

Limites des LLM§

Hallucinations : génèrent des informations fausses avec confiance

Fenêtre de contexte : mémoire limitée à la fenêtre courante

Biais : reproduisent et amplifient les biais du corpus d’entraînement

Raisonnement symbolique : difficultés en arithmétique, logique formelle, planification complexe (amélioration avec chain-of-thought, outils)

Coût d’inférence : générer un token = passer par toutes les couches = coûteux à grande échelle

Techniques d’Inférence Efficace§

—The Gardener