Comment NVIDIA construit des données ouvertes pour l'IA
⚡ Résumé en français par Brief IA
• NVIDIA développe des ensembles de données accessibles pour améliorer l'apprentissage des modèles d'IA. • 1,5 million d'images ont été mises à disposition pour la recherche en IA. • Cette initiative vise à réduire les biais dans les modèles d'IA et à favoriser l'innovation collaborative. 💡 Pourquoi c'est important : L'accès à des données ouvertes peut transformer le paysage de l'IA en rendant les technologies plus équitables et accessibles.
📄 Article traduit en français
Comment NVIDIA construit des données ouvertes pour l'IA
Une approche collaborative pour l'échelle des systèmes et agents IA fiables
Les progrès de l'IA sont souvent présentés en termes de capacité et d'efficacité des modèles. En réalité, chaque pipeline d'entraînement repose finalement sur une couche de données qui détermine le comportement de ces modèles.
À mesure que les systèmes autonomes deviennent plus autonomes, les données sur lesquelles ils sont formés déterminent de plus en plus ce qu'ils savent, comment ils raisonnent et ce qu'ils peuvent faire en toute sécurité. Pourtant, une grande partie des données d'entraînement actuelles reste opaque, fragmentée ou cloisonnée au sein des équipes.
L'accès aux données ouvertes change cette équation. Cela offre aux développeurs un chemin plus rapide et plus économique pour construire des modèles de haute qualité, tout en facilitant l'évaluation et l'amélioration à travers l'écosystème. C'est pourquoi NVIDIA publie des ensembles de données ouverts aux côtés de ses modèles, outils et techniques d'entraînement ouverts.
Goulots d'étranglement des données IA
La construction d'ensembles de données de haute qualité reste l'un des plus grands goulots d'étranglement dans le développement de l'IA. Les organisations dépensent souvent des millions de dollars et des mois — voire plus d'un an — à collecter, annoter et valider des données avant qu'une seule session d'entraînement de modèle ne commence. Même lorsque les modèles sont déployés, l'accès à l'expertise de domaine et aux cadres d'évaluation reste un défi constant.
NVIDIA vise à réduire cette friction en publiant des ensembles de données sous licence permissive sur HuggingFace, avec des recettes d'entraînement et des cadres d'évaluation sur GitHub que les développeurs peuvent utiliser immédiatement. À ce jour, nous avons partagé plus de 2 pétaoctets de données d'entraînement prêtes pour l'IA à travers plus de 180 ensembles de données et 650+ modèles ouverts. Et nous ne faisons que commencer.
Ensembles de données ouvertes du monde réel
Les publications de données ouvertes de NVIDIA couvrent plusieurs domaines — des systèmes robotiques et autonomes à l'IA souveraine, la biologie et les benchmarks d'évaluation. Construites par des équipes à travers NVIDIA, ces ensembles de données démontrent comment les données partagées peuvent accélérer le développement de l'IA dans le monde réel.
Voici quelques exemples de notre écosystème :
-
Collection AI Physique
Les systèmes robotiques nécessitent des données multimodales structurées. Cette collection comprend plus de 500 000 trajectoires robotiques, 57 millions de prises et 15 To de données multimodales, y compris des actifs utilisés pour développer le modèle de raisonnement vision-langage-action NVIDIA GR00T à travers plusieurs types de pinces et configurations de capteurs. L'ensemble de données a été téléchargé plus de 10 millions de fois, y compris par des entreprises comme Runway, qui a développé son modèle mondial GWM-Robotics en utilisant l'ensemble de données GR00T ouvert. -
Collection Nemotron Personas
Les Nemotron Personas sont des ensembles de données de personas entièrement synthétiques ancrés dans des distributions démographiques réelles, produisant des individus culturellement authentiques et diversifiés à grande échelle. La collection prend en charge le développement de l'IA souveraine et comprend actuellement des ensembles de données à l'échelle de la population pour :- États-Unis – 6 millions de personas
- Japon – 6 millions de personas
- Inde – 21 millions de personas
- Brésil – 6 millions de personas (développés avec WideLabs)
- Singapour – 888 000 personas (développés avec AI Singapore)
-
La Proteina
Un ensemble de données de protéines entièrement synthétique et atomistique conçu pour les workflows de modélisation biologique et de découverte de médicaments. Avec 455 000 structures et un gain de diversité structurelle de 73% par rapport aux références précédentes, il fournit des représentations moléculaires prêtes à être conçues sans contraintes de PII ou de licence. -
SPEED-Bench
Un benchmark standardisé pour évaluer les performances de décodage spéculatif. Il présente deux divisions : une division qualitative qui maximise la diversité sémantique à travers 11 catégories de texte, et une division de débit organisée en seaux de longueur de séquence d'entrée (1K–32K). -
Retrieval-Synthetic-NVDocs-v1
Cet ensemble de données de récupération synthétique fournit 110 000 triplets de requêtes, passages et réponses générés à partir de 15 000 fichiers de documentation publique NVIDIA.
Ensembles de données d'entraînement Nemotron
Un élément majeur du travail de données ouvertes de NVIDIA est l'ensemble de données utilisé pour entraîner et aligner la famille de modèles Nemotron. Au cours de l'année écoulée, ces ensembles de données ont évolué pour mieux soutenir les capacités de raisonnement, de codage et multilingues dans les modèles de langue de pointe.
-
Évolution de l'entraînement préliminaire Nemotron
Les versions antérieures s'appuyaient fortement sur des corpus web généraux, tandis que les nouvelles versions mettent l'accent sur des domaines à signal plus élevé tels que les mathématiques, le code et les connaissances STEM. -
Évolution de l'entraînement postérieur Nemotron
À mesure que les modèles deviennent plus capables, les données post-formation jouent un rôle de plus en plus important dans la formation du comportement des modèles. Les nouvelles versions mettent l'accent sur la diversité multilingue, la supervision du raisonnement structuré et les données d'interaction de style agent.
NVIDIA élargit également ce travail avec des ensembles de données de sécurité ouvertes et d'apprentissage par renforcement, y compris Nemotron-Agentic-Safety et Nemotron-RL, un corpus de 900 000 tâches couvrant les mathématiques, le codage, les outils, les énigmes et le raisonnement.
Co-conception extrême
Concevoir des ensembles de données de haute qualité à cette échelle est un travail d'équipe. Cela nécessite une collaboration étroite entre les stratèges de données, les chercheurs en IA, les ingénieurs en infrastructure et les experts en politique.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.