NVIDIA propulse l'IA avec 2 pétaoctets de données ouvertes

Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une approche collaborative pour l'échelle des systèmes et agents IA fiables
Les avancées en intelligence artificielle sont souvent mesurées par la capacité et l'efficacité des modèles, mais en réalité, chaque processus d'entraînement repose sur une base de données qui influence le comportement des modèles. À mesure que les systèmes autonomes gagnent en autonomie, les données d'entraînement deviennent cruciales pour déterminer ce qu'ils savent, comment ils raisonnent et ce qu'ils peuvent accomplir en toute sécurité. Cependant, une grande partie des données actuelles reste opaque, fragmentée ou confinée au sein d'équipes spécifiques.
L'accès à des données ouvertes change cette dynamique. Il offre aux développeurs un moyen plus rapide et économique de créer des modèles de haute qualité, tout en facilitant l'évaluation et l'amélioration à travers l'écosystème. C'est dans cette optique que NVIDIA publie des ensembles de données ouverts en parallèle de ses modèles, outils et techniques d'entraînement ouverts.
Goulots d'étranglement des données IA
La construction d'ensembles de données de haute qualité demeure l'un des principaux obstacles dans le développement de l'IA. Les organisations investissent souvent des millions de dollars et de nombreux mois, voire plus d'un an, pour collecter, annoter et valider des données avant même de commencer une session d'entraînement de modèle. Même après le déploiement des modèles, l'accès à l'expertise de domaine et aux cadres d'évaluation reste un défi constant.
NVIDIA cherche à réduire ces frictions en publiant des ensembles de données sous licence permissive sur HuggingFace, accompagnés de recettes d'entraînement et de cadres d'évaluation disponibles sur GitHub. À ce jour, NVIDIA a partagé plus de 2 pétaoctets de données d'entraînement prêtes pour l'IA, réparties sur plus de 180 ensembles de données et plus de 650 modèles ouverts. Et ce n'est que le début.
Ensembles de données ouvertes du monde réel
Les publications de données ouvertes de NVIDIA couvrent plusieurs domaines, allant des systèmes robotiques et autonomes à l'IA souveraine, en passant par la biologie et les benchmarks d'évaluation. Conçus par des équipes à travers NVIDIA, ces ensembles de données illustrent comment le partage de données peut accélérer le développement de l'IA dans le monde réel.
Collection AI Physique
Les systèmes robotiques nécessitent des données multimodales structurées. Cette collection comprend plus de 500 000 trajectoires robotiques, 57 millions de prises et 15 To de données multimodales, y compris des actifs utilisés pour développer le modèle de raisonnement vision-langage-action NVIDIA GR00T à travers plusieurs types de pinces et configurations de capteurs. L'ensemble de données a été téléchargé plus de 10 millions de fois, notamment par des entreprises comme Runway, qui a développé son modèle mondial GWM-Robotics en utilisant l'ensemble de données GR00T ouvert.
Collection Nemotron Personas
Les Nemotron Personas sont des ensembles de données de personas entièrement synthétiques ancrés dans des distributions démographiques réelles, produisant des individus culturellement authentiques et diversifiés à grande échelle. La collection prend en charge le développement de l'IA souveraine et comprend actuellement des ensembles de données à l'échelle de la population pour :
- États-Unis – 6 millions de personas
- Japon – 6 millions de personas
- Inde – 21 millions de personas
- Brésil – 6 millions de personas (développés avec WideLabs)
- Singapour – 888 000 personas (développés avec AI Singapore)
La Proteina
Un ensemble de données de protéines entièrement synthétique et atomistique conçu pour les workflows de modélisation biologique et de découverte de médicaments. Avec 455 000 structures et un gain de diversité structurelle de 73% par rapport aux références précédentes, il fournit des représentations moléculaires prêtes à être conçues sans contraintes de PII ou de licence.
SPEED-Bench
Un benchmark standardisé pour évaluer les performances de décodage spéculatif. Il présente deux divisions : une division qualitative qui maximise la diversité sémantique à travers 11 catégories de texte, et une division de débit organisée en seaux de longueur de séquence d'entrée (1K–32K).
Retrieval-Synthetic-NVDocs-v1
Cet ensemble de données de récupération synthétique fournit 110 000 triplets de requêtes, passages et réponses générés à partir de 15 000 fichiers de documentation publique NVIDIA.
Ensembles de données d'entraînement Nemotron
Un élément majeur du travail de données ouvertes de NVIDIA est l'ensemble de données utilisé pour entraîner et aligner la famille de modèles Nemotron. Au cours de l'année écoulée, ces ensembles de données ont évolué pour mieux soutenir les capacités de raisonnement, de codage et multilingues dans les modèles de langue de pointe.
Évolution de l'entraînement préliminaire Nemotron
Les versions antérieures s'appuyaient fortement sur des corpus web généraux, tandis que les nouvelles versions mettent l'accent sur des domaines à signal plus élevé tels que les mathématiques, le code et les connaissances STEM.
Évolution de l'entraînement postérieur Nemotron
À mesure que les modèles deviennent plus capables, les données post-formation jouent un rôle de plus en plus important dans la formation du comportement des modèles. Les nouvelles versions mettent l'accent sur la diversité multilingue, la supervision du raisonnement structuré et les données d'interaction de style agent.
NVIDIA élargit également ce travail avec des ensembles de données de sécurité ouvertes et d'apprentissage par renforcement, y compris Nemotron-Agentic-Safety et Nemotron-RL, un corpus de 900 000 tâches couvrant les mathématiques, le codage, les outils, les énigmes et le raisonnement.
Co-conception extrême
Concevoir des ensembles de données de haute qualité à cette échelle est un travail d'équipe. Cela nécessite une collaboration étroite entre les stratèges de données, les chercheurs en IA, les ingénieurs en infrastructure et les experts en politique.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.