Garden of KnowledgeApplied Sciences › Mathematics › Approfondissements
May 20, 2026

Statistiques Inférentielles

Les statistiques descriptives résument des données qu’on a sous les yeux. Les statistiques inférentielles font un saut beaucoup plus audacieux : à partir d’un échantillon (quelques centaines de personnes), elles tirent des conclusions sur une population entière (plusieurs millions). C’est cet outil qui permet aux sondages, aux essais cliniques et aux études scientifiques d’exister.

[!abstract] Question centrale Si je mesure quelque chose sur un échantillon, que puis-je dire de la population entière — et avec quelle marge d’erreur ?

Vue d’ensemble§

flowchart TB
    Pop["POPULATION<br/>paramètre vrai θ (inconnu)"]
    Pop -->|échantillonnage<br/>aléatoire| Ech["ÉCHANTILLON<br/>n observations"]
    Ech -->|estimation| Theta["estimateur θ̂"]
    Ech -->|intervalle| IC["IC à 95 %<br/>[a, b]"]
    Ech -->|test| Test["p-value<br/>rejet/non rejet H₀"]
    Theta -.->|tend vers| Pop
    IC -.->|contient θ avec proba 0,95| Pop

1. Estimation ponctuelle§

1.1 Estimateur — définition§

[!abstract] Estimateur Un estimateur $\hat{\theta}$ d’un paramètre $\theta$ est une variable aléatoire calculée à partir d’un échantillon $(X_1, \dots, X_n)$. Elle prend une valeur particulière (estimation) une fois l’échantillon réalisé.

Exemples classiques :

1.2 Qualités d’un estimateur§

QualitéDéfinitionImportance
Sans biais$\mathbb{E}[\hat{\theta}] = \theta$En moyenne, on tape juste
Convergent$\hat{\theta}_n \to \theta$ en probabilitéPlus on a de données, plus on est précis
EfficaceVariance minimale parmi les sans biaisPrécision optimale pour un $n$ donné

[!warning] Pourquoi diviser par $n-1$ pour la variance ? La variance empirique $\frac{1}{n}\sum(X_i - \bar{X})^2$ est biaisée : elle sous-estime $\sigma^2$ car on utilise $\bar{X}$ au lieu de $\mu$. Diviser par $n-1$ corrige ce biais (correction de Bessel).

2. Théorèmes limites — pourquoi ça marche§

2.1 Loi des grands nombres§

[!important] LGN (forme faible) Si $X_1, \dots, X_n$ sont i.i.d. d’espérance $\mu$, alors : $$\bar{X}_n = \frac{X_1 + \cdots + X_n}{n} \xrightarrow{\text{prob.}} \mu \quad \text{quand } n \to \infty$$

Conséquence pratique : sur un grand échantillon, la moyenne empirique est très proche de la moyenne théorique. C’est pourquoi un sondage de 1 000 personnes peut estimer un score national avec ~3 points d’incertitude.

2.2 Théorème central limite (TCL) — le théorème-clé§

[!important] Théorème Central Limite Pour $X_1, \dots, X_n$ i.i.d. d’espérance $\mu$ et de variance $\sigma^2 < +\infty$ : $$\sqrt{n} \cdot \frac{\bar{X}_n - \mu}{\sigma} \xrightarrow{\mathcal{L}} \mathcal{N}(0, 1)$$

Autrement dit, la moyenne empirique, quelle que soit la loi des $X_i$, suit approximativement une loi normale dès que $n$ est assez grand.

C’est ce miracle qui fait fonctionner toute l’inférence : on n’a pas besoin de connaître la loi exacte des données, la moyenne devient gaussienne par magie. En pratique, $n \geq 30$ suffit pour la plupart des distributions.

3. Intervalles de confiance (IC)§

3.1 Idée§

Au lieu de donner un nombre comme estimation, on donne une fourchette assortie d’un niveau de confiance.

[!abstract] Définition Un intervalle de confiance $[A_n, B_n]$ pour $\theta$ au niveau $1 - \alpha$ est un intervalle aléatoire tel que : $$\mathbb{P}(A_n \leq \theta \leq B_n) = 1 - \alpha$$

Niveaux usuels : $\alpha = 5%$ (IC à 95 %), $\alpha = 1%$ (IC à 99 %).

3.2 IC pour une moyenne (variance connue)§

Si $X_i \sim \mathcal{N}(\mu, \sigma^2)$ ou par TCL pour $n$ grand : $$\text{IC}_{1-\alpha}(\mu) = \left[\bar{X}n - z{1-\alpha/2} \cdot \frac{\sigma}{\sqrt{n}},; \bar{X}n + z{1-\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\right]$$

avec $z_{0{,}975} \approx 1{,}96$ pour un IC à 95 %.

3.3 IC pour une proportion§

Si $\hat{p} = k/n$ estime une proportion : $$\text{IC}_{95%}(p) \approx \left[\hat{p} - 1{,}96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}},; \hat{p} + 1{,}96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right]$$

[!example] Sondage politique Sur $n = 1,000$ personnes, $k = 540$ disent voter pour le candidat A. Donc $\hat{p} = 0{,}54$.

Marge d’erreur : $1{,}96 \times \sqrt{0{,}54 \cdot 0{,}46 / 1000} \approx 0{,}031$.

IC à 95 % : $[0{,}509,; 0{,}571]$ — on est raisonnablement sûr que le score réel est entre 50,9 % et 57,1 %. C’est ce qu’on appelle la « marge d’erreur de ±3 % » dans la presse.

[!warning] Interprétation correcte d’un IC Un IC à 95 % ne signifie pas « il y a 95 % de chances que θ soit dans l’intervalle » (θ est fixe, pas aléatoire). Il signifie : « si on répétait l’expérience 100 fois, environ 95 des intervalles construits contiendraient θ ».

4. Tests d’hypothèses§

4.1 Cadre général§

On formule deux hypothèses contradictoires :

On calcule une statistique de test à partir des données, et on décide de rejeter ou non $H_0$.

flowchart LR
    Donnees[Données] --> Stat[Statistique<br/>de test]
    Stat --> Cmp{Compare à<br/>valeur critique}
    Cmp -->|"|T| grand"| Rejet[Rejet H₀<br/>« effet significatif »]
    Cmp -->|"|T| petit"| NonRejet[Non rejet H₀<br/>« pas de preuve »]

4.2 Types d’erreur§

Réalité \ DécisionNe pas rejeter $H_0$Rejeter $H_0$
$H_0$ vraieBonne décisionErreur de type I ($\alpha$) — faux positif
$H_1$ vraieErreur de type II ($\beta$) — faux négatifBonne décision

Trade-off : baisser $\alpha$ augmente $\beta$. La seule façon de réduire les deux est d’augmenter $n$.

4.3 p-value§

[!important] p-value La p-value est la probabilité, sous l’hypothèse $H_0$ vraie, d’obtenir une statistique aussi extrême (ou plus) que celle observée.

Règle de décision : si $p < \alpha$, on rejette $H_0$.

[!warning] Ce que la p-value n’est PAS

La crise de réplicabilité scientifique (psychologie, médecine) tient en partie à des abus de p-value — sélection des résultats significatifs (« p-hacking »), seuil arbitraire de 5 %.

4.4 Tests classiques§

TestQuand l’utiliserStatistique
Test de Student (t-test)Comparer une moyenne à une valeur, ou deux moyennes$T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}$ suit loi de Student $t_{n-1}$
Test du χ² d’ajustementUne distribution observée colle-t-elle à une distribution théorique ?$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$
Test du χ² d’indépendanceDeux variables qualitatives sont-elles indépendantes ?Idem sur tableau de contingence
Test de Fisher (F-test)Comparer deux variances$F = S_1^2 / S_2^2$
Test de Kolmogorov-SmirnovComparer une distribution à une distribution théorique (non paramétrique)Sup de l’écart entre fonctions de répartition
ANOVAComparer plusieurs moyennes simultanémentDécomposition de la variance

[!example] Essai clinique — un médicament marche-t-il ? Deux groupes (placebo vs médicament), 100 patients chacun, on mesure une amélioration. On veut tester :

Le t-test donne $p = 0{,}003$. Comme $p < 0{,}05$, on rejette $H_0$ : l’effet observé est trop improbable sous l’hypothèse de « pas de différence ». Le médicament a un effet (au niveau de 5 %).

5. Régression linéaire§

Modèle le plus utilisé en sciences appliquées : on cherche à expliquer une variable $Y$ par une variable $X$.

5.1 Modèle§

$$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad \varepsilon_i \sim \mathcal{N}(0, \sigma^2)$$

5.2 Estimation — moindres carrés§

On minimise la somme des carrés des résidus : $$\hat{\beta}_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}, \qquad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}$$

5.3 Coefficient de détermination $R^2$§

$$R^2 = 1 - \frac{\text{SCR}}{\text{SCT}}$$

avec SCR = somme des carrés des résidus, SCT = somme totale. $R^2 \in [0, 1]$ : proche de 1 = modèle bien ajusté.

[!warning] Corrélation n’est pas causalité Une forte corrélation $X \leftrightarrow Y$ peut venir de :

Exemple célèbre : consommation de chocolat par habitant et nombre de prix Nobel par pays sont fortement corrélés. Mais c’est probablement le PIB qui cause les deux.

5.4 Régression multiple, logistique, non linéaire§

Extensions naturelles : plusieurs variables explicatives, variable $Y$ binaire (régression logistique), formes non linéaires (polynomiale, exponentielle). Base de la statistique appliquée moderne et de l’apprentissage supervisé.

6. Approche bayésienne — alternative§

Là où le frequentisme considère $\theta$ comme fixe et inconnu, le bayésien considère $\theta$ comme une variable aléatoire avec une distribution.

[!important] Théorème de Bayes (en inférence) $$\underbrace{p(\theta \mid \text{données})}{\text{posterior}} \propto \underbrace{p(\text{données} \mid \theta)}{\text{vraisemblance}} \cdot \underbrace{p(\theta)}_{\text{prior}}$$

Avantages :

Inconvénient : le choix du prior est subjectif et peut influencer les conclusions, surtout sur petits échantillons.

L’IA moderne (modèles génératifs, réseaux bayésiens) repose largement sur cette approche.

7. Pièges à connaître§

PiègeDescription
p-hackingMultiplier les tests jusqu’à en trouver un significatif par hasard
HARKingHypothesising After Results are Known — inventer l’hypothèse a posteriori
Survivor biasÉchantillon non aléatoire (on n’étudie que les survivants/disponibles)
Simpson’s paradoxUne tendance dans des sous-groupes s’inverse en agrégeant
Régression vers la moyenneLes extrêmes tendent à se rapprocher de la moyenne au mesurage suivant
Multiple testingTester 100 hypothèses au niveau 5 %, c’est en trouver ~5 fausses-positives en moyenne — d’où corrections (Bonferroni, FDR)
—The Gardener