Garden of KnowledgeApplied Sciences › Computer Science › Software › Data Science › Machine Learning › DeepLearning
February 22, 2026

Pyramid Attention Module (PAM)

Le Pyramid Attention Network (PAN) est une architecture de réseau de neurones conçue pour la segmentation sémantique. Son composant clé, le Pyramid Attention Module, combine des informations à différentes échelles grâce à des mécanismes d’attention, permettant de capturer à la fois les détails fins et le contexte global.

Le problème : capturer le contexte multi-échelle§

En segmentation sémantique, il faut comprendre une image à plusieurs niveaux :

Les CNN classiques perdent progressivement les détails fins en empilant les couches. Le PAM résout ce problème.

graph TB
    subgraph "Le défi de la segmentation sémantique"
        IMG["Image d'entrée"] --> LOCAL["Détails locaux<br/>(contours, textures)"]
        IMG --> GLOBAL["Contexte global<br/>(structure de la scène)"]
        LOCAL --> COMBINE["Comment combiner<br/>les deux ?"]
        GLOBAL --> COMBINE
        COMBINE --> SEG["Segmentation<br/>pixel par pixel"]
    end

    style IMG fill:#2196F3,color:#fff
    style COMBINE fill:#FF9800,color:#fff
    style SEG fill:#4CAF50,color:#fff

Qu’est-ce que l’attention ?§

Le mécanisme d’attention permet au réseau de se concentrer sur les parties les plus pertinentes de l’entrée, plutôt que de traiter toutes les informations de manière égale.

Analogie : quand vous lisez une phrase, votre regard se concentre sur certains mots clés plutôt que de traiter chaque mot uniformément. L’attention fait la même chose dans un réseau de neurones.

Types d’attention§

TypeDescriptionOù elle opère
Attention spatialeQuelles régions de l’image sont importantes ?Sur les positions (H x W)
Attention par canalQuelles feature maps sont importantes ?Sur les canaux (C)
Self-attentionQuelles parties de l’entrée sont liées entre elles ?Relations globales

Architecture du Pyramid Attention Network§

Architecture du Pyramid Attention Network

Le PAN combine deux modules principaux :

graph TB
    INPUT["Image d'entrée"] --> ENCODER["Encodeur<br/>(Feature Pyramid)"]

    ENCODER --> F1["Features haute résolution<br/>(détails fins)"]
    ENCODER --> F2["Features moyenne résolution"]
    ENCODER --> F3["Features basse résolution<br/>(contexte global)"]

    F1 --> FPA["Feature Pyramid<br/>Attention Module"]
    F2 --> FPA
    F3 --> FPA

    F1 --> GAU["Global Attention<br/>Upsample Module"]
    F2 --> GAU
    F3 --> GAU

    FPA --> MERGE["Fusion"]
    GAU --> MERGE
    MERGE --> OUTPUT["Segmentation"]

    style INPUT fill:#2196F3,color:#fff
    style FPA fill:#FF9800,color:#fff
    style GAU fill:#E91E63,color:#fff
    style OUTPUT fill:#4CAF50,color:#fff

Feature Pyramid Attention (FPA)§

Le module FPA extrait des informations contextuelles à plusieurs échelles en utilisant une structure pyramidale :

  1. L’image passe par des branches à différentes résolutions (comme une pyramide)
  2. Chaque branche capture un niveau de contexte différent
  3. Un mécanisme d’attention pondère l’importance de chaque échelle
  4. Les résultats sont fusionnés pour produire une représentation riche

Global Attention Upsample (GAU)§

Le module GAU utilise l’attention globale pour guider le sur-échantillonnage (upsampling) :

  1. Les features de haut niveau (basse résolution, riche en sémantique) sont utilisées pour générer des poids d’attention
  2. Ces poids guident le sur-échantillonnage des features de bas niveau
  3. Cela permet de récupérer les détails spatiaux tout en conservant la compréhension sémantique

Comparaison avec d’autres approches§

ArchitectureApproche multi-échellePoints fortsPoints faibles
FCNPas de multi-échelleSimplePerd les détails fins
U-NetSkip connectionsBon pour les détailsPas d’attention
PSPNetPyramid PoolingBon contexte globalAttention limitée
DeepLabAtrous convolutionsFlexibleCoûteux en calcul
PANPyramid AttentionContexte + détails + attentionPlus complexe

Segmentation sémantique : rappel§

La segmentation sémantique consiste à attribuer une classe à chaque pixel d’une image :

TâcheEntréeSortie
ClassificationImage entière1 étiquette (“chat”)
Détection d’objetsImage entièreBoîtes englobantes + étiquettes
Segmentation sémantiqueImage entière1 étiquette par pixel
Segmentation d’instancesImage entière1 étiquette par pixel + distinction entre instances

Ressources§

—The Gardener