Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Comprendre les fonctions de perte en apprentissage automatique
Les fonctions de perte jouent un rôle fondamental dans l'apprentissage automatique, servant de guide pour les modèles en formation. Elles convertissent les prédictions en signaux d'erreur, permettant ainsi aux modèles de s'améliorer. Cependant, toutes les fonctions de perte ne réagissent pas de la même manière : certaines accentuent les grandes erreurs, tandis que d'autres restent stables dans des environnements bruyants. Le choix de la fonction de perte influence donc subtilement le processus d'apprentissage.
Les bibliothèques modernes ajoutent une complexité supplémentaire avec des modes de réduction et des effets d'échelle qui impactent l'optimisation. Cet article explore les principales familles de fonctions de perte et comment sélectionner la plus adaptée à votre tâche.
Fondements mathématiques des fonctions de perte
Dans l'apprentissage supervisé, l'objectif est souvent de minimiser le risque empirique, en intégrant parfois des poids d'échantillon et une régularisation. La fonction de perte, notée ℓ, est appliquée à la prédiction du modèle fθ(xi) et à la cible réelle yi. Les frameworks d'apprentissage calculent généralement les pertes par exemple, puis appliquent une réduction comme la moyenne ou la somme.
Les propriétés mathématiques des fonctions de perte incluent la convexité, la différentiabilité, la robustesse aux valeurs aberrantes et la sensibilité à l'échelle. Il est crucial de noter que l'objectif d'entraînement global est généralement non convexe par rapport aux paramètres du réseau de neurones. Des erreurs courantes surviennent lorsqu'on confond logits et probabilités ou qu'on utilise une réduction inappropriée.
Pertes de régression
- Erreur Quadratique Moyenne (MSE) : Cette fonction de perte, très utilisée, calcule la moyenne des carrés des différences entre les valeurs prédites et les cibles réelles. Elle pénalise fortement les grandes erreurs, ce qui est utile pour éviter les prédictions erronées majeures.
-
Erreur Absolue Moyenne (MAE) : Elle mesure la différence absolue moyenne entre les prédictions et les cibles, pénalisant les erreurs de manière linéaire. Cela la rend plus robuste aux valeurs aberrantes.
-
Perte de Huber : Elle combine les avantages du MSE et du MAE, se comportant de manière quadratique pour les petites erreurs et linéaire pour les grandes. Elle est idéale pour les données principalement bien comportées avec des valeurs aberrantes occasionnelles.
-
Perte L1 Lisse : Utilisée dans l'apprentissage profond, elle passe d'une pénalité au carré près de zéro à une pénalité absolue au-delà d'un seuil, étant moins sensible aux valeurs aberrantes que le MSE.
-
Perte Log-Cosh : Alternative lisse à la MAE, elle se comporte comme une perte au carré pour les résidus proches de zéro, tout en croissant presque linéairement pour les grands résidus.
-
Perte Quantile : Elle est utilisée pour estimer un quantile conditionnel, pénalisant l'overestimation et l'underestimation de manière asymétrique.
-
Erreur Absolue Moyenne en Pourcentage (MAPE) : Mesure l'erreur relative, utile lorsque l'erreur relative est plus significative que l'erreur absolue.
-
Erreur Logarithmique Quadratique Moyenne (MSLE) : Utile lorsque les différences relatives comptent et que les cibles sont non négatives.
-
Vraisemblance Négative de Poisson : Utilisée pour les données de comptage, adaptée lorsque les cibles représentent des comptages générés par un processus de Poisson.
-
Vraisemblance Négative Gaussienne : Permet au modèle de prédire à la fois la moyenne et la variance de la distribution cible, utile pour la régression hétéroscédastique.
Pertes de classification et probabilistes
-
Entropie Croisée Binaire (BCE) : Utilisée pour la classification binaire, elle compare une étiquette de Bernoulli avec une probabilité prédite. Elle est largement employée pour la classification binaire et multi-étiquettes.
-
Entropie Croisée Softmax pour la Classification Multiclass : Standard pour la classification multiclass, elle combine la transformation softmax avec la perte d'entropie croisée. Elle peut lourdement pénaliser les prédictions erronées confiantes et n'est pas intrinsèquement robuste au bruit des étiquettes.
Conclusion
Le choix de la fonction de perte est déterminant pour le succès d'un modèle d'apprentissage automatique. Chaque type de perte possède des caractéristiques propres et convient à des types de données et objectifs spécifiques.

