La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Leçon à 9 milliards de dollars
En novembre 2021, Zillow a admis lors d'une réunion que leur IA avait causé des pertes financières sur 7 000 maisons. Ils avaient développé un algorithme pour acheter et revendre des maisons, mais cet algorithme a passé deux ans à surpayer tout à Phoenix, Atlanta et dans une douzaine d'autres marchés. Lorsque l'entreprise a réalisé la situation, elle a dû enregistrer une perte de 304 millions de dollars, licencier un quart de son personnel et fermer complètement son activité d'iBuying. La capitalisation boursière a chuté d'environ 7,8 milliards de dollars en quelques jours.
Le PDG a blâmé l'imprévisibilité. Les data scientists ont reçu des critiques sur Twitter. Les analyses post-mortem ont toutes dit la même chose avec des mots différents. Le modèle de prévision fonctionnait bien jusqu'à ce que le monde change et que personne ne s'en aperçoive.
Vous faites déjà des prévisions
Prenez un moment. Regardez par la fenêtre et devinez s'il va pleuvoir dans deux heures. Vous avez une réponse, peut-être même un niveau de confiance. Félicitations, vous venez d'exécuter un modèle de prévision dans votre tête.
Votre téléphone le fait pour vous des centaines de fois par jour. Les cartes prédisent le trafic. Spotify prédit la prochaine piste. Votre application météo prédit le reste de la semaine. Même votre corps fait des prévisions. Il sait quand vous aurez faim à 19 heures parce que vous avez généralement faim à cette heure-là.
Le terme technique pour cela est prévision de séries temporelles, et les mathématiques sont plus anciennes que vos grands-parents. Le premier modèle sérieux date des années 1920 : les équations autorégressives de Yule. Nous avons affiné cela pendant un siècle. Nous ne travaillons pas exactement avec des outils nouveaux.
Les trois ingrédients de chaque série désordonnée
Pratiquement chaque série temporelle que vous rencontrerez est composée de trois éléments superposés. Une fois que vous pouvez nommer ces trois couches, vous avez déjà passé la première question d'entretien. Chaque série est une pile bruyante.
-
Tendance : La dérive lente. Les chiffres augmentent-ils généralement au fil des mois ? Diminuent-ils ? Sont-ils stables ? La tendance est l'histoire longue.
-
Saisonnalité : Le battement de cœur répétitif. Les ventes de pumpkin spice atteignent un pic chaque octobre. Les abonnements à la salle de sport atteignent leur maximum la première semaine de janvier et chutent d'ici le 15 février.
- Résidu : Le mouvement résiduel. Tout ce qui reste après avoir pris en compte la tendance et la saison. Une tempête surprise. Un tweet d'une célébrité. Un lundi férié tombé au mauvais moment.
Stationnarité : Le superpouvoir ennuyeux
Une série est stationnaire lorsque ses propriétés statistiques cessent de dériver au fil du temps. La moyenne reste stable. La variance ne gonfle pas. La façon dont aujourd'hui est corrélée avec hier ne change pas.
Pourquoi cela importe-t-il ? Parce que la plupart des modèles classiques, en particulier la famille ARIMA, supposent que vos données sont stationnaires avant de les traiter. Si vous leur fournissez une série errante, ils apprendront des choses sans sens. C'est à peu près ce qui est arrivé à Zillow. Leur modèle a été formé sur des marchés immobiliers fondamentalement non stationnaires et a continué à extrapoler une tendance à la hausse avec laquelle le monde a cessé d'être d'accord.
Différenciation : Le ruban adhésif qui fonctionne
Prenez la valeur d'aujourd'hui. Soustrayez la valeur d'hier. Vous venez de différencier une série. C'est tout. C'est la technique entière.
Parfois, un seul tour ne suffit pas. La série dérive encore, car le taux de changement lui-même augmente. Dans ce cas, vous devez différencier à nouveau. Deux fois. Nous appelons cela l'ordre d'intégration, et c'est le d dans ARIMA(p, d, q). La plupart des séries réelles nécessitent que d soit égal à 0, 1 ou 2.
Autocorrélation : Le fantôme d'hier hantant aujourd'hui
Une série temporelle n'est pas un ensemble d'échantillons indépendants. Aujourd'hui est hanté par hier. Parfois par la semaine dernière. L'autocorrélation est simplement un terme sophistiqué pour mesurer à quel point.
Deux outils que vous verrez partout : ACF et PACF. Ils se ressemblent, mais ne sont pas identiques.
-
ACF (fonction d'autocorrélation) : Pour chaque décalage k, à quel point aujourd'hui est-il corrélé avec la valeur d'il y a k étapes ?
-
PACF (fonction d'autocorrélation partielle) : Même idée, mais à chaque décalage k, elle élimine l'influence de tous les décalages entre aujourd'hui et k étapes en arrière.
Décomposition : Démonter le plat
Deux façons de décomposer une série. Le choix dépend d'une question unique : le swing saisonnier augmente-t-il à mesure que la tendance croît ?
-
Additif : ( y_t = \text{tendance} + \text{saison} + \text{résidu} ). Utilisez cela lorsque les variations saisonnières restent à peu près de la même taille, peu importe où en est la tendance.
-
Multiplicatif : ( y_t = \text{tendance} \times \text{saison} \times \text{résidu} ). Utilisez cela lorsque les variations saisonnières augmentent avec la tendance.

