Comment NVIDIA construit des données ouvertes pour l'IA ?

NVIDIA développe des ensembles de données accessibles, ayant mis à disposition 1,5 million d'images pour la recherche en IA. Cette initiative vise à réduire les biais dans les modèles d'IA et à favoriser l'innovation collaborative, transformant ainsi le paysage de l'IA en rendant les technologies plus équitables et accessibles. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

NVIDIA propulse l'IA avec 2 pétaoctets de données ouvertes

⚡

En bref

1NVIDIA met à disposition plus de 2 pétaoctets de données d'entraînement IA, facilitant l'accès pour les développeurs.

2Des ensembles de données couvrant la robotique, la biologie et l'IA souveraine sont disponibles sur HuggingFace.

3La collection Nemotron Personas offre 40 millions de personas synthétiques pour divers pays, soutenant l'IA souveraine.

💡Pourquoi c'est important — L'initiative de NVIDIA réduit les obstacles au développement de l'IA, accélérant l'innovation et l'amélioration des modèles à travers divers secteurs.

Une approche collaborative pour l'échelle des systèmes et agents IA fiables

Les avancées en intelligence artificielle sont souvent mesurées par la capacité et l'efficacité des modèles, mais en réalité, chaque processus d'entraînement repose sur une base de données qui influence le comportement des modèles. À mesure que les systèmes autonomes gagnent en autonomie, les données d'entraînement deviennent cruciales pour déterminer ce qu'ils savent, comment ils raisonnent et ce qu'ils peuvent accomplir en toute sécurité. Cependant, une grande partie des données actuelles reste opaque, fragmentée ou confinée au sein d'équipes spécifiques.

L'accès à des données ouvertes change cette dynamique. Il offre aux développeurs un moyen plus rapide et économique de créer des modèles de haute qualité, tout en facilitant l'évaluation et l'amélioration à travers l'écosystème. C'est dans cette optique que NVIDIA publie des ensembles de données ouverts en parallèle de ses modèles, outils et techniques d'entraînement ouverts.

Goulots d'étranglement des données IA

La construction d'ensembles de données de haute qualité demeure l'un des principaux obstacles dans le développement de l'IA. Les organisations investissent souvent des millions de dollars et de nombreux mois, voire plus d'un an, pour collecter, annoter et valider des données avant même de commencer une session d'entraînement de modèle. Même après le déploiement des modèles, l'accès à l'expertise de domaine et aux cadres d'évaluation reste un défi constant.

NVIDIA cherche à réduire ces frictions en publiant des ensembles de données sous licence permissive sur HuggingFace, accompagnés de recettes d'entraînement et de cadres d'évaluation disponibles sur GitHub. À ce jour, NVIDIA a partagé plus de 2 pétaoctets de données d'entraînement prêtes pour l'IA, réparties sur plus de 180 ensembles de données et plus de 650 modèles ouverts. Et ce n'est que le début.

Ensembles de données ouvertes du monde réel

Les publications de données ouvertes de NVIDIA couvrent plusieurs domaines, allant des systèmes robotiques et autonomes à l'IA souveraine, en passant par la biologie et les benchmarks d'évaluation. Conçus par des équipes à travers NVIDIA, ces ensembles de données illustrent comment le partage de données peut accélérer le développement de l'IA dans le monde réel.

Collection AI Physique

Les systèmes robotiques nécessitent des données multimodales structurées. Cette collection comprend plus de 500 000 trajectoires robotiques, 57 millions de prises et 15 To de données multimodales, y compris des actifs utilisés pour développer le modèle de raisonnement vision-langage-action NVIDIA GR00T à travers plusieurs types de pinces et configurations de capteurs. L'ensemble de données a été téléchargé plus de 10 millions de fois, notamment par des entreprises comme Runway, qui a développé son modèle mondial GWM-Robotics en utilisant l'ensemble de données GR00T ouvert.

Collection Nemotron Personas

Les Nemotron Personas sont des ensembles de données de personas entièrement synthétiques ancrés dans des distributions démographiques réelles, produisant des individus culturellement authentiques et diversifiés à grande échelle. La collection prend en charge le développement de l'IA souveraine et comprend actuellement des ensembles de données à l'échelle de la population pour :

États-Unis – 6 millions de personas
Japon – 6 millions de personas
Inde – 21 millions de personas
Brésil – 6 millions de personas (développés avec WideLabs)
Singapour – 888 000 personas (développés avec AI Singapore)

La Proteina

Un ensemble de données de protéines entièrement synthétique et atomistique conçu pour les workflows de modélisation biologique et de découverte de médicaments. Avec 455 000 structures et un gain de diversité structurelle de 73% par rapport aux références précédentes, il fournit des représentations moléculaires prêtes à être conçues sans contraintes de PII ou de licence.

SPEED-Bench

Un benchmark standardisé pour évaluer les performances de décodage spéculatif. Il présente deux divisions : une division qualitative qui maximise la diversité sémantique à travers 11 catégories de texte, et une division de débit organisée en seaux de longueur de séquence d'entrée (1K–32K).

Retrieval-Synthetic-NVDocs-v1

Cet ensemble de données de récupération synthétique fournit 110 000 triplets de requêtes, passages et réponses générés à partir de 15 000 fichiers de documentation publique NVIDIA.

Ensembles de données d'entraînement Nemotron

Un élément majeur du travail de données ouvertes de NVIDIA est l'ensemble de données utilisé pour entraîner et aligner la famille de modèles Nemotron. Au cours de l'année écoulée, ces ensembles de données ont évolué pour mieux soutenir les capacités de raisonnement, de codage et multilingues dans les modèles de langue de pointe.

Évolution de l'entraînement préliminaire Nemotron

Les versions antérieures s'appuyaient fortement sur des corpus web généraux, tandis que les nouvelles versions mettent l'accent sur des domaines à signal plus élevé tels que les mathématiques, le code et les connaissances STEM.

Évolution de l'entraînement postérieur Nemotron

À mesure que les modèles deviennent plus capables, les données post-formation jouent un rôle de plus en plus important dans la formation du comportement des modèles. Les nouvelles versions mettent l'accent sur la diversité multilingue, la supervision du raisonnement structuré et les données d'interaction de style agent.

NVIDIA élargit également ce travail avec des ensembles de données de sécurité ouvertes et d'apprentissage par renforcement, y compris Nemotron-Agentic-Safety et Nemotron-RL, un corpus de 900 000 tâches couvrant les mathématiques, le codage, les outils, les énigmes et le raisonnement.

Co-conception extrême

Concevoir des ensembles de données de haute qualité à cette échelle est un travail d'équipe. Cela nécessite une collaboration étroite entre les stratèges de données, les chercheurs en IA, les ingénieurs en infrastructure et les experts en politique.

NVIDIA propulse l'IA avec 2 pétaoctets de données ouvertes

La recherche en IA te passionne ?

Une approche collaborative pour l'échelle des systèmes et agents IA fiables

Goulots d'étranglement des données IA

Ensembles de données ouvertes du monde réel

Collection AI Physique

Collection Nemotron Personas

La Proteina

SPEED-Bench

Retrieval-Synthetic-NVDocs-v1

Ensembles de données d'entraînement Nemotron

Évolution de l'entraînement préliminaire Nemotron

Évolution de l'entraînement postérieur Nemotron

Co-conception extrême

OpenAI et Nvidia : un centre de données géant en Ohio

Nvidia et Microsoft unissent leurs forces pour sécuriser l'IA

Nvidia domine l'IA open source : ambitions françaises et innovations

Vision par ordinateur : 15 ensembles de données clés 2026

NVIDIA et IREN : 5 GW pour révolutionner l'infrastructure IA mondiale

Hugging Face : les modèles ouverts redéfinissent l'avenir de l'IA