Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Un marché lucratif pour les données des startups en faillite
Les startups en liquidation trouvent une nouvelle source de revenus en vendant leurs actifs numériques, tels que les archives de messages Slack, les tickets Jira et les emails. Ces données, qui peuvent rapporter jusqu'à 100 000 dollars, sont devenues une ressource précieuse pour les entreprises spécialisées dans la liquidation, qui les transforment en matière première pour les laboratoires d'intelligence artificielle.
SimpleClosure, une entreprise qui gère la dissolution de startups, a lancé en avril 2026 une plateforme appelée Asset Hub. Cette plateforme permet aux fondateurs de vendre sous licence leurs archives numériques, incluant le code source et les historiques de communication interne. Selon Dori Yona, PDG de SimpleClosure, cette activité représente une véritable "ruée vers l'or". En un an, l'entreprise a traité près de cent transactions, générant plus d'un million de dollars redistribués aux fondateurs.
Un concurrent de SimpleClosure, Sunset, opère également sur ce marché avec des tarifs similaires. Sunset valorise particulièrement les données sectorielles, notamment celles liées à la santé ou à la finance, ainsi que les historiques bien interconnectés entre différentes plateformes.
La demande croissante pour des données réelles
Depuis la fin de l'année 2024, la demande pour des données réelles a augmenté, notamment après que l'ancien directeur scientifique d'OpenAI, Ilya Sutskever, a souligné l'épuisement des données publiques disponibles sur Internet. Les agents d'IA nécessitent des exemples concrets de travail, avec ses imperfections et ses frictions, pour s'entraîner efficacement. Les données synthétiques, trop parfaites, ne permettent pas de calibrer correctement les modèles dans des environnements professionnels réels.
Cette situation a donné naissance à un secteur dédié aux "gymnases d'apprentissage par renforcement", où des environnements simulés sont créés à partir des archives d'entreprises réelles. Des startups comme AfterQuery vendent ces "mondes" clés en main aux laboratoires, avec des environnements comme Big Tech World ou Finance World. Anthropic, par exemple, envisageait d'investir jusqu'à un milliard de dollars dans ce domaine, selon Forbes. D'autres entreprises, telles que Scale AI, Surge et Mercor, s'engouffrent également dans ce marché prometteur.
Les enjeux juridiques et éthiques
Sur le plan juridique, les employés n'ont généralement pas de droits sur ces données. Selon les conditions d'utilisation de Slack, l'employeur, désigné comme "Client", détient toutes les données produites dans l'espace de travail. Cependant, Marc Rotenberg, fondateur du Center for AI and Digital Policy, estime que ces données sont personnelles et identifiables, et que la cession des droits de propriété intellectuelle ne résout pas la question de leur revente à des tiers.
L'organisation de Marc Rotenberg a adressé une lettre au Sénat américain pour demander à la FTC de renforcer sa surveillance de ces pratiques. Les entreprises qui achètent ces données affirment prendre l'anonymisation au sérieux, mais le processus reste techniquement complexe et imparfait. Une étude de 2020 par OpenAI et Google a montré que les grands modèles de langage peuvent mémoriser des séquences de données d'entraînement, pouvant être extraites par des prompts appropriés.
Certaines entreprises, comme cielo24, ont déjà vendu leurs archives, générant des centaines de milliers de dollars. Shanna Johnson, ex-PDG de cielo24, a déclaré avoir touché des centaines de milliers de dollars pour treize ans de données internes de son entreprise. Cependant, Bobby Samuels, de la société Protege, rappelle qu'il n'existe pas de solution technique pour supprimer instantanément l'empreinte personnelle d'une carrière entière dans un jeu de données.