Les bases de la Data Science

La Data Science combine statistiques, informatique et expertise métier pour extraire des connaissances à partir de données.

graph TB
    DS["Data Science"]
    DS --> STAT["Statistiques<br/>& Mathématiques"]
    DS --> CS["Informatique<br/>& Programmation"]
    DS --> DOMAIN["Expertise<br/>Métier"]

    style DS fill:#673AB7,color:#fff
    style STAT fill:#2196F3,color:#fff
    style CS fill:#4CAF50,color:#fff
    style DOMAIN fill:#FF9800,color:#fff

Types d’apprentissage§

graph TB
    ML["Machine Learning"] --> SUP["Supervisé<br/>On connaît la réponse"]
    ML --> NSUP["Non Supervisé<br/>On ne connaît pas la réponse"]
    ML --> RL["Renforcement<br/>Apprentissage par essai/erreur"]

    SUP --> CLASS["Classification"]
    SUP --> REG["Régression"]
    NSUP --> CLUST["Clustering"]
    NSUP --> DIM["Réduction de dimension"]

    style ML fill:#673AB7,color:#fff
    style SUP fill:#2196F3,color:#fff
    style NSUP fill:#4CAF50,color:#fff
    style RL fill:#FF9800,color:#fff

Supervisé	Non-Supervisé
Données étiquetées (on connaît y)	Données non étiquetées (pas de y)
Apprend à prédire	Apprend à structurer
K-NN, SVM, CART, Random Forest, Régression Linéaire, LDA, Naive Bayes	K-means, CAH, DBSCAN, PCA

Statistiques vs Data Mining§

Statistiques	Data Mining
Peu de données	Millions de données
Quelques paramètres	Beaucoup de paramètres
Modèles interprétables	Modèles prédictifs (boîte noire possible)
Hypothèses sur les données	Laisse les données “parler”

Normalisation§

But : éviter que des variables avec des plages très différentes dominent le modèle.

Min-Max Scaling (ramène les valeurs entre 0 et 1) :

x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}}

Standardisation (moyenne 0, écart-type 1) :

x_{std} = \frac{x - \mu}{\sigma}

Méthode	Quand l’utiliser
Min-Max	Quand on veut une plage fixe [0, 1], pas d’outliers
Standardisation	Quand les données suivent une distribution normale, ou avec des outliers

Évaluation§

Accuracy (Taux de précision)§

\text{Accuracy} = \frac{\text{Prédictions correctes}}{\text{Total des prédictions}}

Matrice de confusion (classification binaire)§

	Prédit Positif	Prédit Négatif
Réel Positif	Vrai Positif (VP)	Faux Négatif (FN)
Réel Négatif	Faux Positif (FP)	Vrai Négatif (VN)

Precision = $\frac{VP}{VP + FP}$ — Parmi les prédits positifs, combien le sont vraiment ?
Recall = $\frac{VP}{VP + FN}$ — Parmi les réels positifs, combien a-t-on trouvés ?
F1-Score = $2 \times \frac{Precision \times Recall}{Precision + Recall}$ — Moyenne harmonique

Réflexions sur l’IA§

Comment utiliser l’IA§

Les devoirs, la capacité de rédaction servent à nous rendre plus intelligents. Déléguer ce travail à une IA ne sert à rien. Il faut utiliser l’IA comme un outil pour avoir accès à l’information de manière plus pertinente.

C’est le chemin qui compte, pas la fin. Cela va servir à développer son esprit critique, organiser sa pensée et ses capacités personnelles.

Le “Descaling” en IA§

La capacité à perdre des compétences de raisonnement et d’esprit critique du fait de l’IA. Nous nous simplifions tellement la vie et demandons tout le temps de l’aide à l’IA que l’on perd cette capacité de raisonnement.

Idées de projets§

Visualiser l’histoire et les déplacements de troupes pendant les guerres napoléoniennes : se déplacer dans l’espace et comparer l’histoire avec l’état physique actuel du lieu