NLP & Traitement du langage
Voir la formation →Natural Language Processing — branche de l'IA permettant aux machines de comprendre, interpréter et générer du langage humain.
Découpage d'un texte en unités (tokens) — mots, sous-mots ou caractères — première étape de tout pipeline NLP.
Mots très fréquents et peu informatifs (le, et, de, un...) — souvent supprimés en prétraitement pour améliorer le signal utile.
Réduction d'un mot à sa forme canonique (marchait → marcher) — plus précis que le stemming, préserve le sens grammatical.
Term Frequency–Inverse Document Frequency — pondère l'importance d'un mot par sa rareté dans le corpus, standard en classification de texte.
Représentation d'un texte par la fréquence de ses mots sans tenir compte de l'ordre — simple mais perd le contexte sémantique.
Vecteur numérique dense représentant le sens d'un mot ou d'une phrase — mots proches sémantiquement ont des vecteurs proches.
Architecture neuronale basée sur l'attention (2017) — fondation de tous les LLMs modernes (BERT, GPT, Claude, Llama).
Modèle pré-entraîné de Google lisant le texte dans les deux sens — base de nombreuses tâches NLP supervisées (classification, NER).
Adaptation d'un modèle pré-entraîné à une tâche spécifique en continuant l'entraînement sur un petit dataset annoté.
Named Entity Recognition — identification automatique d'entités nommées dans un texte (personnes, lieux, organisations, dates).
Classification automatique de la polarité d'un texte (positif / négatif / neutre) — très utilisée en analyse de feedback client.
Génération automatique d'un résumé condensé d'un texte — extractive (sélectionne des phrases) ou abstractive (reformule).
Plateforme open-source hébergeant des milliers de modèles NLP pré-entraînés et datasets — référence de l'écosystème IA.
Chaîne de traitements (nettoyage → tokenisation → vectorisation → modèle) transformant du texte brut en prédiction exploitable.
Data Visualisation
Voir la formation →Exploratory Data Analysis — analyse exploratoire des données pour en comprendre la structure, identifier les motifs et détecter les anomalies avant toute modélisation.
Bibliothèque Python de référence pour la visualisation statique, basée sur une architecture objet (Figure/Axes) permettant un contrôle total du rendu.
Bibliothèque construite sur Matplotlib pour créer des visualisations statistiques élégantes avec moins de code, idéale pour l'exploration de données.
Bibliothèque Python/JavaScript pour graphiques interactifs (zoom, survol, export) sans serveur web — les graphiques s'animent dans le navigateur.
Framework Python (de Plotly) pour construire des dashboards web réactifs avec des composants qui se mettent à jour automatiquement via des callbacks.
Kernel Density Estimation — lissage de l'histogramme pour obtenir une courbe de densité continue, plus lisible qu'un histogramme à bins fixes.
Graphique montrant la distribution d'une variable via quartiles (Q1, médiane, Q3), valeurs min/max et les points aberrants (outliers).
Représentation en dégradé de couleur d'une matrice (corrélations, fréquences) — permet de détecter des patterns en un coup d'œil.
Outil Matplotlib pour créer des mises en page complexes de sous-graphiques avec des tailles et positions variables.
Deux axes Y différents sur le même graphique — permet de comparer deux variables n'ayant pas la même échelle.
Art de structurer un récit visuel (Situation → Complication → Résolution) pour communiquer des insights aux décideurs de façon convaincante.
Tout élément visuel qui n'encode aucune information utile : grilles denses, effets 3D, bordures inutiles — nuit à la lisibilité.
Attribut visuel traité par le cerveau avant toute attention consciente (couleur, taille, orientation) — à exploiter pour guider l'œil du lecteur.
Grille de sous-graphiques Seaborn, un par combinaison de variables catégorielles, automatisant la comparaison entre groupes.
Matrice de nuages de points montrant toutes les relations bivariées et les distributions d'un jeu de données en un seul graphique.
Machine Learning
Voir la formation →Apprentissage automatique — branche de l'IA où les algorithmes apprennent des patterns à partir de données sans être explicitement programmés.
Prédiction d'une valeur numérique continue (ex : prix d'un bien) à partir de variables d'entrée — modèle supervisé.
Régressions régularisées qui pénalisent la complexité du modèle pour éviter le surapprentissage — Ridge (L2) réduit les coefficients, Lasso (L1) en annule certains.
Regroupement non supervisé d'observations similaires sans labels connus — K-Means, DBSCAN, Gaussian Mixture Models.
Algorithme de clustering qui partitionne les données en k groupes en minimisant la distance intra-cluster — initialisation K-Means++ améliore la stabilité.
Algorithme de clustering basé sur la densité — détecte des formes arbitraires et identifie les outliers (label -1), sans fixer k à l'avance.
Principal Component Analysis — réduction de dimension en projetant sur les axes de variance maximale, pour visualiser ou compresser des données multi-dimensionnelles.
Algorithmes de réduction 2D pour visualiser des données haute dimension. t-SNE est lent et stochastique, UMAP est plus rapide et conserve mieux la structure globale.
Surapprentissage — le modèle mémorise le bruit du jeu d'entraînement et généralise mal sur de nouvelles données.
Technique d'évaluation découpant les données en k parties pour mesurer la généralisation d'un modèle sans biaiser les résultats.
Fuite d'information — quand des données du test se retrouvent (involontairement) dans l'entraînement, gonflant artificiellement les scores.
Chaîne d'étapes Scikit-learn (normalisation → encodage → modèle) garantissant l'absence de data leakage lors de la validation croisée.
Bibliothèque d'optimisation bayésienne des hyperparamètres — plus efficace qu'une recherche exhaustive, s'adapte intelligemment.
Création ou transformation de variables d'entrée pour améliorer les performances du modèle — ex : encoder une date en jour/semaine/mois.
Paramètre du modèle défini avant l'entraînement (ex : learning_rate, max_depth) à optimiser par recherche sur grille ou méthode bayésienne.
Classification supervisée
Voir la formation →Tâche d'apprentissage supervisé prédisant une catégorie (label) pour chaque observation — ex : spam/non-spam, diagnostic médical.
Algorithme entraîné sur des données labellisées (exemples + réponses connues) pour apprendre à prédire sur de nouvelles données.
Support Vector Machine — algorithme trouvant l'hyperplan qui maximise la marge entre les classes, robuste en haute dimension.
Ensemble d'arbres de décision entraînés sur des sous-échantillons aléatoires — robuste, peu sensible aux outliers, pas de normalisation requise.
Gradient Boosting optimisé — entraîne des arbres séquentiels en corrigeant les erreurs du précédent, très performant sur données tabulaires.
Proportion de vraies prédictions positives parmi toutes les prédictions positives — à maximiser quand les faux positifs sont coûteux.
Proportion de vrais positifs détectés parmi tous les positifs réels — à maximiser quand les faux négatifs sont coûteux (ex : détection cancer).
Moyenne harmonique de la Precision et du Recall — métrique équilibrée utile quand les classes sont déséquilibrées.
Area Under the Curve ROC — mesure la capacité discriminante d'un modèle indépendamment du seuil choisi (0.5 = aléatoire, 1.0 = parfait).
Tableau visualisant les vrais/faux positifs et négatifs — base de calcul de toutes les métriques de classification.
Surapprentissage — modèle trop complexe qui mémorise le bruit des données d'entraînement et échoue sur de nouvelles données.
Synthetic Minority Over-sampling Technique — génère des exemples synthétiques de la classe minoritaire pour rééquilibrer un dataset déséquilibré.
SHapley Additive exPlanations — explique la contribution de chaque variable à une prédiction individuelle, basé sur la théorie des jeux.
Paramètre du modèle défini avant l'entraînement (ex : profondeur d'arbre, taux d'apprentissage) — optimisé via GridSearch ou Optuna.
Validation croisée conservant la proportion de chaque classe dans chaque pli — indispensable sur datasets déséquilibrés.
IA Générative & LLMs
Voir la formation →Large Language Model — modèle de transformer entraîné sur des milliards de textes (GPT-4, Claude, Llama). Il prédit le token suivant et génère du texte cohérent.
Unité de traitement d'un LLM — sous-mot, mot ou ponctuation. « bonjour » = 1 token, « anticonstitutionnellement » = plusieurs tokens.
Découpage du texte en tokens avant traitement par le LLM — chaque modèle a son propre vocabulaire, ce qui impacte le coût API.
Nombre maximum de tokens (entrée + sortie) qu'un LLM peut traiter simultanément — GPT-4 : 128k, Claude 3.5 : 200k tokens.
Paramètre (0–2) contrôlant la « créativité » du LLM — 0 = déterministe et factuel, valeurs élevées = plus créatif et imprévisible.
Art de formuler des instructions précises pour guider un LLM — few-shot, chain-of-thought, structured output.
Technique consistant à donner des exemples dans le prompt pour calibrer le format ou le style de réponse, sans réentraînement.
Technique demandant au LLM de raisonner étape par étape avant de répondre — améliore significativement les tâches logiques et mathématiques.
Retrieval-Augmented Generation — enrichit le LLM avec des documents pertinents retrouvés par recherche vectorielle pour réduire les hallucinations.
Vecteur numérique dense représentant la sémantique d'un texte — permet de mesurer la similarité entre documents pour le RAG.
Génération d'informations fausses présentées avec confiance par un LLM — contre-mesure principale : RAG et température basse.
Entraînement supplémentaire d'un LLM sur des données spécifiques pour l'adapter à un domaine ou un style particulier.
Techniques de fine-tuning efficaces ajoutant de petites matrices adaptatives — permettent d'entraîner de grands modèles avec peu de mémoire GPU.
LLM capable d'appeler des outils externes (API, calcul, recherche web) et d'itérer en boucle pour accomplir des tâches complexes.
Capacité d'un LLM à appeler des fonctions définies par le développeur — base des agents IA (ReAct, LangChain).
Développement API IA
Voir la formation →Application Programming Interface — interface permettant à deux programmes de communiquer via des requêtes HTTP structurées (REST).
Framework Python moderne pour créer des APIs REST avec validation automatique, documentation Swagger auto-générée et support async natif.
Style d'architecture API utilisant les méthodes HTTP (GET, POST, PUT, DELETE) et des URLs claires pour manipuler des ressources.
URL d'une API exposant une fonctionnalité — ex : POST /analyze accepte un texte et retourne une analyse NLP.
Bibliothèque Python de validation stricte des données — vérifie types, formats et contraintes avant exécution du code.
Standard d'autorisation permettant de déléguer des droits d'accès sans transmettre de mot de passe — utilisé par Google, GitHub, etc.
JSON Web Token — jeton d'authentification sans état (header.payload.signature) permettant de vérifier l'identité sans session côté serveur.
Programmation asynchrone Python — permet de traiter plusieurs requêtes en parallèle sans bloquer le serveur, idéal pour les APIs IA.
Protocole de connexion bidirectionnelle persistante — permet d'envoyer des tokens de LLM un par un en temps réel vers le client.
Couche logicielle interceptant toutes les requêtes et réponses HTTP — ex : CORS, compression GZip, logging, mesure de latence.
Outil de containerisation empaquetant une application et toutes ses dépendances dans une image reproductible sur n'importe quel serveur.
Continuous Integration / Deployment — automatisation des tests, build et déploiement à chaque modification du code (GitHub Actions).
Limitation du nombre de requêtes par IP ou utilisateur (ex : 100 req/min) pour protéger l'API contre les abus.
Système de monitoring collectant des métriques temps-réel (latence, erreurs, usage mémoire) — visualisé avec Grafana.
Cross-Origin Resource Sharing — mécanisme HTTP contrôlant quels domaines peuvent appeler l'API depuis un navigateur.
RGPD & AI Act
Voir la formation →Règlement Général sur la Protection des Données — loi européenne encadrant la collecte et le traitement des données personnelles, amendes jusqu'à 4 % du CA mondial.
Toute information permettant d'identifier directement ou indirectement une personne — email, adresse IP, localisation, photo, etc.
Catégorie spéciale (Art. 9) nécessitant une protection renforcée : origines ethniques, opinions politiques, données de santé, données biométriques.
Base légale 6.1.a — accord libre, éclairé, spécifique et révocable donné par la personne pour le traitement de ses données.
Justification juridique obligatoire pour tout traitement — 6 bases possibles : consentement, contrat, obligation légale, intérêt légitime, etc.
Data Protection Officer — responsable de la conformité RGPD dans une organisation, interlocuteur de la CNIL, indépendant hiérarchiquement.
Commission Nationale de l'Informatique et des Libertés — autorité française de contrôle RGPD, reçoit les plaintes et inflige les amendes.
Data Protection Impact Assessment — analyse d'impact obligatoire pour les traitements à risque élevé (profilage, IA décisionnelle, données sensibles).
Principe RGPD intégrant la protection des données dès la conception d'un système — pas en correction après coup.
Transformation réversible (hashage avec clé secrète) rendant les données non directement identifiantes — reste soumis au RGPD.
Transformation irréversible rendant toute réidentification impossible (k-anonymat, bruit différentiel) — sort du champ d'application du RGPD.
Document obligatoire listant tous les traitements de données (finalité, durée de conservation, destinataires, mesures de sécurité).
Droit (Art. 17) de demander la suppression de ses données personnelles — exceptions pour obligations légales et intérêt public.
Règlement européen encadrant l'IA par niveaux de risque (minimal, limité, haut, interdit) — obligations d'audit et de transparence pour systèmes à risque élevé.
Discrimination systématique produite par un modèle ML contre un groupe protégé — détectable via des outils comme Fairlearn.
Aller plus loin
Ces termes vous semblent complexes ?
Nos formations pratiques en français couvrent chaque domaine avec du code Python commenté et des cas métier concrets.
Explorer les formations →