Brief IA : Startups en faillite : l'or numérique des archives internes pour l'IA

Startups en faillite : l'or numérique des archives internes pour l'IA

Brief IA
Tom Levy·3 min·3 vues

Les startups en faillite vendent leurs actifs numériques, tels que les archives Slack et les emails, pour récupérer des fonds, pouvant rapporter jusqu'à 100 000 dollars. Des entreprises comme SimpleClosure, avec sa plateforme Asset Hub lancée en avril 2026, facilitent ces ventes, ayant déjà traité près de cent transactions pour plus d'un million de dollars redistribués aux fondateurs. Ce marché émergent souligne l'importance croissante des données dans le développement de l'IA.

En bref
1Des startups en liquidation vendent leurs archives numériques, incluant emails et messages Slack, pour jusqu'à 100 000 dollars.
2SimpleClosure et Sunset exploitent ce marché en transformant ces données en ressources pour les laboratoires d'IA.
3La pénurie de données publiques pousse les laboratoires à chercher des exemples réels de travail pour entraîner leurs IA.
💡Pourquoi c'est importantLa revente de données internes soulève des questions éthiques et juridiques sur la confidentialité et les droits des anciens employés.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Un marché lucratif pour les données des startups en faillite

Les startups en liquidation trouvent une nouvelle source de revenus en vendant leurs actifs numériques, tels que les archives de messages Slack, les tickets Jira et les emails. Ces données, qui peuvent rapporter jusqu'à 100 000 dollars, sont devenues une ressource précieuse pour les entreprises spécialisées dans la liquidation, qui les transforment en matière première pour les laboratoires d'intelligence artificielle.

SimpleClosure, une entreprise qui gère la dissolution de startups, a lancé en avril 2026 une plateforme appelée Asset Hub. Cette plateforme permet aux fondateurs de vendre sous licence leurs archives numériques, incluant le code source et les historiques de communication interne. Selon Dori Yona, PDG de SimpleClosure, cette activité représente une véritable "ruée vers l'or". En un an, l'entreprise a traité près de cent transactions, générant plus d'un million de dollars redistribués aux fondateurs.

Un concurrent de SimpleClosure, Sunset, opère également sur ce marché avec des tarifs similaires. Sunset valorise particulièrement les données sectorielles, notamment celles liées à la santé ou à la finance, ainsi que les historiques bien interconnectés entre différentes plateformes.

La demande croissante pour des données réelles

Depuis la fin de l'année 2024, la demande pour des données réelles a augmenté, notamment après que l'ancien directeur scientifique d'OpenAI, Ilya Sutskever, a souligné l'épuisement des données publiques disponibles sur Internet. Les agents d'IA nécessitent des exemples concrets de travail, avec ses imperfections et ses frictions, pour s'entraîner efficacement. Les données synthétiques, trop parfaites, ne permettent pas de calibrer correctement les modèles dans des environnements professionnels réels.

Cette situation a donné naissance à un secteur dédié aux "gymnases d'apprentissage par renforcement", où des environnements simulés sont créés à partir des archives d'entreprises réelles. Des startups comme AfterQuery vendent ces "mondes" clés en main aux laboratoires, avec des environnements comme Big Tech World ou Finance World. Anthropic, par exemple, envisageait d'investir jusqu'à un milliard de dollars dans ce domaine, selon Forbes. D'autres entreprises, telles que Scale AI, Surge et Mercor, s'engouffrent également dans ce marché prometteur.

Les enjeux juridiques et éthiques

Sur le plan juridique, les employés n'ont généralement pas de droits sur ces données. Selon les conditions d'utilisation de Slack, l'employeur, désigné comme "Client", détient toutes les données produites dans l'espace de travail. Cependant, Marc Rotenberg, fondateur du Center for AI and Digital Policy, estime que ces données sont personnelles et identifiables, et que la cession des droits de propriété intellectuelle ne résout pas la question de leur revente à des tiers.

L'organisation de Marc Rotenberg a adressé une lettre au Sénat américain pour demander à la FTC de renforcer sa surveillance de ces pratiques. Les entreprises qui achètent ces données affirment prendre l'anonymisation au sérieux, mais le processus reste techniquement complexe et imparfait. Une étude de 2020 par OpenAI et Google a montré que les grands modèles de langage peuvent mémoriser des séquences de données d'entraînement, pouvant être extraites par des prompts appropriés.

Certaines entreprises, comme cielo24, ont déjà vendu leurs archives, générant des centaines de milliers de dollars. Shanna Johnson, ex-PDG de cielo24, a déclaré avoir touché des centaines de milliers de dollars pour treize ans de données internes de son entreprise. Cependant, Bobby Samuels, de la société Protege, rappelle qu'il n'existe pas de solution technique pour supprimer instantanément l'empreinte personnelle d'une carrière entière dans un jeu de données.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires