5 Types de Fonctions de Perte en Apprentissage Automatique
🔬 Recherche

5 Types de Fonctions de Perte en Apprentissage Automatique

Analytics Vidhya
Janvi Kumari·4 min·0 vues
En bref
1Une fonction de perte guide un modèle durant l'entraînement, transformant les prédictions en signaux d'amélioration.
2Les choix de fonctions de perte influencent la manière dont l'apprentissage se déroule.
3Les bibliothèques modernes introduisent des modes de réduction et des effets de mise à l'échelle.
💡Pourquoi c'est importantLe choix de la fonction de perte peut significativement affecter la performance et la robustesse des modèles d'IA.
📄
Article traduit en français

5 Types de Fonctions de Perte en Apprentissage Automatique

Une fonction de perte guide un modèle pendant l'entraînement, traduisant les prédictions en un signal sur lequel il peut s'améliorer. Cependant, toutes les pertes ne se comportent pas de la même manière : certaines amplifient les grandes erreurs, d'autres restent stables dans des environnements bruyants, et chaque choix façonne subtilement la manière dont l'apprentissage se déroule.

Les bibliothèques modernes ajoutent une autre couche avec des modes de réduction et des effets d'échelle qui influencent l'optimisation. Dans cet article, nous décomposons les principales familles de pertes et comment choisir la bonne pour votre tâche.

Fondements Mathématiques des Fonctions de Perte

Dans l'apprentissage supervisé, l'objectif est généralement de minimiser le risque empirique, souvent avec des poids d'échantillon optionnels et une régularisation.

où ℓ est la fonction de perte, fθ(xi) est la prédiction du modèle, et yi est la véritable cible. En pratique, cet objectif peut également inclure des poids d'échantillon et des termes de régularisation. La plupart des frameworks d'apprentissage automatique suivent cette formulation en calculant des pertes par exemple, puis en appliquant une réduction telle que la moyenne, la somme, ou aucune.

Lorsqu'on discute des propriétés mathématiques, il est important de préciser la variable par rapport à laquelle la perte est analysée. De nombreuses fonctions de perte sont convexes par rapport à la prédiction ou au logit pour une étiquette fixe, bien que l'objectif d'entraînement global soit généralement non convexe par rapport aux paramètres du réseau de neurones. Les propriétés importantes incluent la convexité, la différentiabilité, la robustesse aux valeurs aberrantes et la sensibilité à l'échelle. Les pièges courants incluent la confusion entre les logits et les probabilités et l'utilisation d'une réduction qui ne correspond pas à la définition mathématique prévue.

Pertes de Régression

  • Erreur Quadratique Moyenne (MSE) : L'une des fonctions de perte les plus utilisées pour la régression, définie comme la moyenne des différences au carré entre les valeurs prédites et les cibles réelles. Elle pénalise les résidus importants plus sévèrement que les petits, ce qui la rend utile lorsque les grandes erreurs de prédiction doivent être fortement découragées.

  • Erreur Absolue Moyenne (MAE) : Mesure la différence absolue moyenne entre les prédictions et les cibles. Contrairement au MSE, elle pénalise les erreurs de manière linéaire, ce qui la rend plus robuste aux valeurs aberrantes.

  • Perte de Huber : Combine les forces du MSE et du MAE en se comportant de manière quadratique pour les petites erreurs et linéaire pour les grandes. Elle est un bon choix lorsque les données sont principalement bien comportées mais peuvent contenir des valeurs aberrantes occasionnelles.

  • Perte L1 Lisse : Connue pour être utilisée dans l'apprentissage profond, elle passe d'une pénalité au carré près de zéro à une pénalité absolue au-delà d'un seuil. Elle est moins sensible aux valeurs aberrantes que le MSE.

  • Perte Log-Cosh : Une alternative lisse à la MAE, qui se comporte comme une perte au carré pour les résidus proches de zéro, tout en croissant presque linéairement pour les grands résidus.

  • Perte Quantile : Utilisée pour estimer un quantile conditionnel plutôt qu'une moyenne conditionnelle, elle pénalise l'overestimation et l'underestimation de manière asymétrique.

  • Erreur Absolue Moyenne en Pourcentage (MAPE) : Mesure l'erreur relative et est utile lorsque l'erreur relative est plus importante que l'erreur absolue.

  • Erreur Logarithmique Quadratique Moyenne (MSLE) : Utile lorsque les différences relatives comptent et que les cibles sont non négatives.

  • Vraisemblance Négative de Poisson : Utilisée pour les données de comptage, appropriée lorsque les cibles représentent des comptages générés par un processus de Poisson.

  • Vraisemblance Négative Gaussienne : Permet au modèle de prédire à la fois la moyenne et la variance de la distribution cible, utile pour la régression hétéroscédastique.

Pertes de Classification et Probabilistes

  • Entropie Croisée Binaire (BCE) : Utilisée pour la classification binaire, elle compare une étiquette de Bernoulli avec une probabilité prédite. Elle est largement utilisée pour la classification binaire et dans la classification multi-étiquettes.

  • Entropie Croisée Softmax pour la Classification Multiclass : Standard pour la classification multiclass, elle combine la transformation softmax avec la perte d'entropie croisée. Elle peut lourdement pénaliser les prédictions erronées confiantes et n'est pas intrinsèquement robuste au bruit des étiquettes.

Conclusion

Le choix de la fonction de perte est crucial pour le succès d'un modèle d'apprentissage automatique. Chaque type de perte a ses propres caractéristiques et est adapté à des types de données et des objectifs d'apprentissage spécifiques.

Questions Fréquemment Posées

  • Quelle fonction de perte devrais-je utiliser pour mon problème ?

  • Comment les valeurs aberrantes affectent-elles les différentes fonctions de perte ?

  • Quelles sont les meilleures pratiques pour éviter les pièges courants lors de l'implémentation des fonctions de perte ?

Lire l'article original sur Analytics Vidhya

📧

Cet article vous a plu ?

Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.

Chaque soir à 19h

Gratuit · Pas de spam · Désabonnement en 1 clic

Commentaires