Brief IA : Internet Archive menacé par l'IA et la pénurie de stockage

Internet Archive menacé par l'IA et la pénurie de stockage

Brief IA
Tom Levy·4 min·1 vues

L'Internet Archive, qui conserve 210 pétaoctets de données, fait face à des défis financiers en raison de l'augmentation des besoins en stockage pour l'IA, menaçant ainsi la quasi-totalité du web et les projets de préservation numérique. En conséquence, le nombre de pages de presse capturées a chuté de 87 % entre mai et octobre 2025, compromettant l'accès à la mémoire collective.

En bref
1Internet Archive, souvent comparé à la Bibliothèque d'Alexandrie, conserve 210 pétaoctets de données, mais l'IA met ce projet en péril.
2La demande en stockage pour l'IA a fait grimper les prix des disques durs, rendant difficile l'acquisition de nouveaux équipements pour Internet Archive.
3L'organisation, dépendante des dons, ne bénéficie d'aucun financement public, compliquant sa capacité à maintenir ses archives.
💡Pourquoi c'est importantLa préservation de la mémoire numérique mondiale est en jeu, affectant chercheurs et utilisateurs du monde entier.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Internet Archive : la mémoire numérique en danger

Internet Archive, souvent comparé à la mythique Bibliothèque d'Alexandrie dans sa version numérique, joue un rôle crucial dans la conservation de l'histoire du web. Avec ses 210 pétaoctets de données, l'organisation s'efforce de préserver presque tout le contenu en ligne, qu'il soit encore accessible ou non. Cependant, l'essor de l'intelligence artificielle (IA) menace aujourd'hui cette mission, un disque dur à la fois.

Depuis sa création en 1996, Internet Archive, l'entité derrière la célèbre Wayback Machine, a dû faire face à de nombreux défis. En octobre 2024, une cyberattaque a compromis les données de 31 millions de comptes, paralysant temporairement le service. Plus récemment, début 2026, des médias influents tels que The Guardian et le New York Times ont retiré leurs articles de la plateforme, craignant que leurs contenus ne soient utilisés pour entraîner des modèles d'IA. Cette décision a entraîné une baisse drastique de 87 % du nombre de pages de presse archivées entre mai et octobre 2025. Aujourd'hui, ce ne sont plus seulement les pirates informatiques ou les éditeurs qui posent problème, mais le coût prohibitif des disques durs.

La pénurie de stockage : un défi majeur

Brewster Kahle, le fondateur d'Internet Archive, a récemment confié à 404 Media que les disques durs de 28 à 30 téraoctets, essentiels pour gérer les 100 téraoctets de nouvelles données ajoutées chaque jour, sont devenus soit indisponibles, soit excessivement chers. Lors d'une conférence, le directeur de Western Digital a confirmé que l'entreprise est "pratiquement en rupture de stock pour l'année 2026".

La cause principale de cette pénurie est l'IA, qui a provoqué une explosion de la demande en stockage pour les centres de données nécessaires à l'entraînement et à l'exécution des modèles de langage. Chez Western Digital, le secteur des entreprises, incluant les datacenters, le cloud et l'IA, représente désormais environ 89 % du chiffre d'affaires, tandis que le marché grand public ne compte que pour 5 %. Cette situation a poussé les fabricants à réduire la production destinée au marché secondaire. Les prix de certains modèles ont doublé, voire triplé depuis septembre 2025. En France, par exemple, un SSD Samsung 990 EVO Plus de 2 To coûtait 150 euros en avril 2025, mais a atteint 360 euros en janvier 2026. De même, un WD Black SN850X de 2 To est passé de 130 euros à plus de 300 euros sur la même période. La Wikimedia Foundation, qui gère Wikipédia, ressent également cette pression, avec des "difficultés d'approvisionnement en mémoire et en disques durs, des délais allongés pour les livraisons de serveurs et une capacité réduite à passer de nouvelles commandes".

Un modèle économique sous pression

Depuis trois décennies, Internet Archive a accumulé 210 pétaoctets d'archives. Pour visualiser cette quantité, cela équivaut à environ 210 000 disques durs de 1 To empilés, formant une colonne de plus de 5 kilomètres de haut. L'organisation ajoute 100 To de données par jour et a franchi le cap du trillion de pages archivées en octobre 2025.

Le modèle économique d'Internet Archive repose entièrement sur les dons. Contrairement à la BnF, qui assure le dépôt légal du web français depuis 2006 grâce à des crédits du ministère de la Culture (environ 45 milliards de fichiers archivés), ou à l'INA, qui gère le dépôt légal du web médias avec environ 17,5 milliards d'URL, l'organisation américaine ne bénéficie d'aucun financement public. Lorsque le prix du stockage double, c'est son budget qui en souffre, sans filet de sécurité.

La double menace qui pèse sur Internet Archive est circulaire. L'IA aspire les contenus du web (ce qui a poussé les éditeurs à restreindre l'accès à leurs archives), tout en asséchant le marché des disques durs nécessaires à l'archivage de ce même web. L'industrie qui se nourrit de données complique la conservation de ces données pour tous.

L'impact sur les utilisateurs européens

Pour les utilisateurs européens, l'impact n'est pas théorique. La Wayback Machine est intégrée à Google Search et reste un outil quotidien pour les chercheurs, journalistes et développeurs. Si l'organisation ne parvient pas à étendre sa capacité de stockage, ce sont les pages archivées à partir de maintenant qui manqueront. La mémoire d'Internet ne disparaîtra pas d'un coup, mais cessera simplement de se former.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires