Glossaire IA : 105 définitions Machine Learning en français

NLP & Traitement du langage

NLP

Natural Language Processing — branche de l'IA permettant aux machines de comprendre, interpréter et générer du langage humain.

Tokenisation

Découpage d'un texte en unités (tokens) — mots, sous-mots ou caractères — première étape de tout pipeline NLP.

Stopwords

Mots très fréquents et peu informatifs (le, et, de, un...) — souvent supprimés en prétraitement pour améliorer le signal utile.

Lemmatisation

Réduction d'un mot à sa forme canonique (marchait → marcher) — plus précis que le stemming, préserve le sens grammatical.

TF-IDF

Term Frequency–Inverse Document Frequency — pondère l'importance d'un mot par sa rareté dans le corpus, standard en classification de texte.

Bag-of-Words

Représentation d'un texte par la fréquence de ses mots sans tenir compte de l'ordre — simple mais perd le contexte sémantique.

Embedding

Vecteur numérique dense représentant le sens d'un mot ou d'une phrase — mots proches sémantiquement ont des vecteurs proches.

Transformer

Architecture neuronale basée sur l'attention (2017) — fondation de tous les LLMs modernes (BERT, GPT, Claude, Llama).

BERT

Modèle pré-entraîné de Google lisant le texte dans les deux sens — base de nombreuses tâches NLP supervisées (classification, NER).

Fine-tuning

Adaptation d'un modèle pré-entraîné à une tâche spécifique en continuant l'entraînement sur un petit dataset annoté.

NER

Named Entity Recognition — identification automatique d'entités nommées dans un texte (personnes, lieux, organisations, dates).

Sentiment analysis

Classification automatique de la polarité d'un texte (positif / négatif / neutre) — très utilisée en analyse de feedback client.

Summarization

Génération automatique d'un résumé condensé d'un texte — extractive (sélectionne des phrases) ou abstractive (reformule).

Hugging Face

Plateforme open-source hébergeant des milliers de modèles NLP pré-entraînés et datasets — référence de l'écosystème IA.

Pipeline NLP

Chaîne de traitements (nettoyage → tokenisation → vectorisation → modèle) transformant du texte brut en prédiction exploitable.

Data Visualisation

Voir la formation →

EDA

Exploratory Data Analysis — analyse exploratoire des données pour en comprendre la structure, identifier les motifs et détecter les anomalies avant toute modélisation.

Matplotlib

Bibliothèque Python de référence pour la visualisation statique, basée sur une architecture objet (Figure/Axes) permettant un contrôle total du rendu.

Seaborn

Bibliothèque construite sur Matplotlib pour créer des visualisations statistiques élégantes avec moins de code, idéale pour l'exploration de données.

Plotly

Bibliothèque Python/JavaScript pour graphiques interactifs (zoom, survol, export) sans serveur web — les graphiques s'animent dans le navigateur.

Dash

Framework Python (de Plotly) pour construire des dashboards web réactifs avec des composants qui se mettent à jour automatiquement via des callbacks.

KDE

Kernel Density Estimation — lissage de l'histogramme pour obtenir une courbe de densité continue, plus lisible qu'un histogramme à bins fixes.

Boxplot

Graphique montrant la distribution d'une variable via quartiles (Q1, médiane, Q3), valeurs min/max et les points aberrants (outliers).

Heatmap

Représentation en dégradé de couleur d'une matrice (corrélations, fréquences) — permet de détecter des patterns en un coup d'œil.

GridSpec

Outil Matplotlib pour créer des mises en page complexes de sous-graphiques avec des tailles et positions variables.

Twin axes

Deux axes Y différents sur le même graphique — permet de comparer deux variables n'ayant pas la même échelle.

Data Storytelling

Art de structurer un récit visuel (Situation → Complication → Résolution) pour communiquer des insights aux décideurs de façon convaincante.

Chartjunk

Tout élément visuel qui n'encode aucune information utile : grilles denses, effets 3D, bordures inutiles — nuit à la lisibilité.

Préattentif

Attribut visuel traité par le cerveau avant toute attention consciente (couleur, taille, orientation) — à exploiter pour guider l'œil du lecteur.

FacetGrid

Grille de sous-graphiques Seaborn, un par combinaison de variables catégorielles, automatisant la comparaison entre groupes.

Pairplot

Matrice de nuages de points montrant toutes les relations bivariées et les distributions d'un jeu de données en un seul graphique.

Machine Learning

Voir la formation →

Machine Learning

Apprentissage automatique — branche de l'IA où les algorithmes apprennent des patterns à partir de données sans être explicitement programmés.

Régression

Prédiction d'une valeur numérique continue (ex : prix d'un bien) à partir de variables d'entrée — modèle supervisé.

Ridge / Lasso

Régressions régularisées qui pénalisent la complexité du modèle pour éviter le surapprentissage — Ridge (L2) réduit les coefficients, Lasso (L1) en annule certains.

Clustering

Regroupement non supervisé d'observations similaires sans labels connus — K-Means, DBSCAN, Gaussian Mixture Models.

K-Means

Algorithme de clustering qui partitionne les données en k groupes en minimisant la distance intra-cluster — initialisation K-Means++ améliore la stabilité.

DBSCAN

Algorithme de clustering basé sur la densité — détecte des formes arbitraires et identifie les outliers (label -1), sans fixer k à l'avance.

PCA

Principal Component Analysis — réduction de dimension en projetant sur les axes de variance maximale, pour visualiser ou compresser des données multi-dimensionnelles.

t-SNE / UMAP

Algorithmes de réduction 2D pour visualiser des données haute dimension. t-SNE est lent et stochastique, UMAP est plus rapide et conserve mieux la structure globale.

Overfitting

Surapprentissage — le modèle mémorise le bruit du jeu d'entraînement et généralise mal sur de nouvelles données.

Cross-validation

Technique d'évaluation découpant les données en k parties pour mesurer la généralisation d'un modèle sans biaiser les résultats.

Data leakage

Fuite d'information — quand des données du test se retrouvent (involontairement) dans l'entraînement, gonflant artificiellement les scores.

Pipeline

Chaîne d'étapes Scikit-learn (normalisation → encodage → modèle) garantissant l'absence de data leakage lors de la validation croisée.

Optuna

Bibliothèque d'optimisation bayésienne des hyperparamètres — plus efficace qu'une recherche exhaustive, s'adapte intelligemment.

Feature engineering

Création ou transformation de variables d'entrée pour améliorer les performances du modèle — ex : encoder une date en jour/semaine/mois.

Hyperparamètre

Paramètre du modèle défini avant l'entraînement (ex : learning_rate, max_depth) à optimiser par recherche sur grille ou méthode bayésienne.

Classification supervisée

Voir la formation →

Classification

Tâche d'apprentissage supervisé prédisant une catégorie (label) pour chaque observation — ex : spam/non-spam, diagnostic médical.

Modèle supervisé

Algorithme entraîné sur des données labellisées (exemples + réponses connues) pour apprendre à prédire sur de nouvelles données.

SVM

Support Vector Machine — algorithme trouvant l'hyperplan qui maximise la marge entre les classes, robuste en haute dimension.

Random Forest

Ensemble d'arbres de décision entraînés sur des sous-échantillons aléatoires — robuste, peu sensible aux outliers, pas de normalisation requise.

XGBoost

Gradient Boosting optimisé — entraîne des arbres séquentiels en corrigeant les erreurs du précédent, très performant sur données tabulaires.

Precision

Proportion de vraies prédictions positives parmi toutes les prédictions positives — à maximiser quand les faux positifs sont coûteux.

Recall

Proportion de vrais positifs détectés parmi tous les positifs réels — à maximiser quand les faux négatifs sont coûteux (ex : détection cancer).

F1-Score

Moyenne harmonique de la Precision et du Recall — métrique équilibrée utile quand les classes sont déséquilibrées.

AUC-ROC

Area Under the Curve ROC — mesure la capacité discriminante d'un modèle indépendamment du seuil choisi (0.5 = aléatoire, 1.0 = parfait).

Matrice de confusion

Tableau visualisant les vrais/faux positifs et négatifs — base de calcul de toutes les métriques de classification.

Overfitting

Surapprentissage — modèle trop complexe qui mémorise le bruit des données d'entraînement et échoue sur de nouvelles données.

SMOTE

Synthetic Minority Over-sampling Technique — génère des exemples synthétiques de la classe minoritaire pour rééquilibrer un dataset déséquilibré.

SHAP

SHapley Additive exPlanations — explique la contribution de chaque variable à une prédiction individuelle, basé sur la théorie des jeux.

Hyperparamètre

Paramètre du modèle défini avant l'entraînement (ex : profondeur d'arbre, taux d'apprentissage) — optimisé via GridSearch ou Optuna.

Stratified K-Fold

Validation croisée conservant la proportion de chaque classe dans chaque pli — indispensable sur datasets déséquilibrés.

IA Générative & LLMs

Voir la formation →

LLM

Large Language Model — modèle de transformer entraîné sur des milliards de textes (GPT-4, Claude, Llama). Il prédit le token suivant et génère du texte cohérent.

Token

Unité de traitement d'un LLM — sous-mot, mot ou ponctuation. « bonjour » = 1 token, « anticonstitutionnellement » = plusieurs tokens.

Tokenisation

Découpage du texte en tokens avant traitement par le LLM — chaque modèle a son propre vocabulaire, ce qui impacte le coût API.

Context window

Nombre maximum de tokens (entrée + sortie) qu'un LLM peut traiter simultanément — GPT-4 : 128k, Claude 3.5 : 200k tokens.

Temperature

Paramètre (0–2) contrôlant la « créativité » du LLM — 0 = déterministe et factuel, valeurs élevées = plus créatif et imprévisible.

Prompt engineering

Art de formuler des instructions précises pour guider un LLM — few-shot, chain-of-thought, structured output.

Few-shot

Technique consistant à donner des exemples dans le prompt pour calibrer le format ou le style de réponse, sans réentraînement.

Chain-of-Thought

Technique demandant au LLM de raisonner étape par étape avant de répondre — améliore significativement les tâches logiques et mathématiques.

RAG

Retrieval-Augmented Generation — enrichit le LLM avec des documents pertinents retrouvés par recherche vectorielle pour réduire les hallucinations.

Embedding

Vecteur numérique dense représentant la sémantique d'un texte — permet de mesurer la similarité entre documents pour le RAG.

Hallucination

Génération d'informations fausses présentées avec confiance par un LLM — contre-mesure principale : RAG et température basse.

Fine-tuning

Entraînement supplémentaire d'un LLM sur des données spécifiques pour l'adapter à un domaine ou un style particulier.

LoRA / QLoRA

Techniques de fine-tuning efficaces ajoutant de petites matrices adaptatives — permettent d'entraîner de grands modèles avec peu de mémoire GPU.

Agent IA

LLM capable d'appeler des outils externes (API, calcul, recherche web) et d'itérer en boucle pour accomplir des tâches complexes.

Tool use

Capacité d'un LLM à appeler des fonctions définies par le développeur — base des agents IA (ReAct, LangChain).

Développement API IA

Voir la formation →

API

Application Programming Interface — interface permettant à deux programmes de communiquer via des requêtes HTTP structurées (REST).

FastAPI

Framework Python moderne pour créer des APIs REST avec validation automatique, documentation Swagger auto-générée et support async natif.

REST

Style d'architecture API utilisant les méthodes HTTP (GET, POST, PUT, DELETE) et des URLs claires pour manipuler des ressources.

Endpoint

URL d'une API exposant une fonctionnalité — ex : POST /analyze accepte un texte et retourne une analyse NLP.

Pydantic

Bibliothèque Python de validation stricte des données — vérifie types, formats et contraintes avant exécution du code.

OAuth2

Standard d'autorisation permettant de déléguer des droits d'accès sans transmettre de mot de passe — utilisé par Google, GitHub, etc.

JWT

JSON Web Token — jeton d'authentification sans état (header.payload.signature) permettant de vérifier l'identité sans session côté serveur.

Async / Await

Programmation asynchrone Python — permet de traiter plusieurs requêtes en parallèle sans bloquer le serveur, idéal pour les APIs IA.

WebSocket

Protocole de connexion bidirectionnelle persistante — permet d'envoyer des tokens de LLM un par un en temps réel vers le client.

Middleware

Couche logicielle interceptant toutes les requêtes et réponses HTTP — ex : CORS, compression GZip, logging, mesure de latence.

Docker

Outil de containerisation empaquetant une application et toutes ses dépendances dans une image reproductible sur n'importe quel serveur.

CI/CD

Continuous Integration / Deployment — automatisation des tests, build et déploiement à chaque modification du code (GitHub Actions).

Rate limiting

Limitation du nombre de requêtes par IP ou utilisateur (ex : 100 req/min) pour protéger l'API contre les abus.

Prometheus

Système de monitoring collectant des métriques temps-réel (latence, erreurs, usage mémoire) — visualisé avec Grafana.

CORS

Cross-Origin Resource Sharing — mécanisme HTTP contrôlant quels domaines peuvent appeler l'API depuis un navigateur.

RGPD & AI Act

Voir la formation →

RGPD

Règlement Général sur la Protection des Données — loi européenne encadrant la collecte et le traitement des données personnelles, amendes jusqu'à 4 % du CA mondial.

Donnée personnelle

Toute information permettant d'identifier directement ou indirectement une personne — email, adresse IP, localisation, photo, etc.

Donnée sensible

Catégorie spéciale (Art. 9) nécessitant une protection renforcée : origines ethniques, opinions politiques, données de santé, données biométriques.

Consentement

Base légale 6.1.a — accord libre, éclairé, spécifique et révocable donné par la personne pour le traitement de ses données.

Base légale

Justification juridique obligatoire pour tout traitement — 6 bases possibles : consentement, contrat, obligation légale, intérêt légitime, etc.

DPO

Data Protection Officer — responsable de la conformité RGPD dans une organisation, interlocuteur de la CNIL, indépendant hiérarchiquement.

CNIL

Commission Nationale de l'Informatique et des Libertés — autorité française de contrôle RGPD, reçoit les plaintes et inflige les amendes.

DPIA

Data Protection Impact Assessment — analyse d'impact obligatoire pour les traitements à risque élevé (profilage, IA décisionnelle, données sensibles).

Privacy by Design

Principe RGPD intégrant la protection des données dès la conception d'un système — pas en correction après coup.

Pseudonymisation

Transformation réversible (hashage avec clé secrète) rendant les données non directement identifiantes — reste soumis au RGPD.

Anonymisation

Transformation irréversible rendant toute réidentification impossible (k-anonymat, bruit différentiel) — sort du champ d'application du RGPD.

Registre des traitements

Document obligatoire listant tous les traitements de données (finalité, durée de conservation, destinataires, mesures de sécurité).

Droit à l'effacement

Droit (Art. 17) de demander la suppression de ses données personnelles — exceptions pour obligations légales et intérêt public.

AI Act

Règlement européen encadrant l'IA par niveaux de risque (minimal, limité, haut, interdit) — obligations d'audit et de transparence pour systèmes à risque élevé.

Biais algorithmique

Discrimination systématique produite par un modèle ML contre un groupe protégé — détectable via des outils comme Fairlearn.

Glossaire IA & Machine Learning

NLP & Traitement du langage

Data Visualisation

Machine Learning

Classification supervisée

IA Générative & LLMs

Développement API IA

RGPD & AI Act

Ces termes vous semblent complexes ?