OpenSeeker's open-source approach aims to break up the data monopoly for AI search agents

L'approche open-source d'OpenSeeker vise à briser le monopole des données pour les agents de recherche IA
OpenSeeker est un agent de recherche IA entièrement open-source qui effectue de manière autonome des recherches sur le web à plusieurs niveaux, avec toutes les données d'entraînement, le code et les poids du modèle disponibles publiquement. Son objectif est de rompre le monopole des données détenu par de grandes entreprises comme OpenAI ou Alibaba.
Le modèle est formé à partir de questions dérivées de la structure des liens du web, conçues intentionnellement pour que de simples recherches ne suffisent pas. Un processus enseignant-élève lui permet d'extraire des informations pertinentes à partir de données brutes bruyantes.
Malgré des ressources d'entraînement minimales, OpenSeeker performe au même niveau que des systèmes beaucoup plus gourmands en ressources provenant de grands fournisseurs, bien qu'il reste en deçà des modèles propriétaires les plus puissants.
Avec seulement 11 700 points de données d'entraînement et une seule session d'entraînement, l'agent de recherche IA OpenSeeker obtient des résultats qui rivalisent avec ceux d'Alibaba et d'autres. Les données, le code et le modèle sont tous accessibles librement.
Les agents de recherche IA puissants et le monopole des données
Les agents de recherche IA puissants — des systèmes qui recherchent de manière autonome des informations sur internet à travers plusieurs étapes — ont jusqu'à présent été le domaine des grandes entreprises technologiques. OpenAI, Google et Alibaba gardent leurs données d'entraînement sous clé. Même les projets qui publient leurs poids de modèle restent silencieux sur les données qui les sous-tendent.
Ce monopole des données a freiné la communauté de recherche ouverte pendant près d'un an, selon des chercheurs de l'Université Jiao Tong de Shanghai. Avec OpenSeeker, l'équipe académique vise à changer cela : toutes les données d'entraînement (licence MIT), le code et les poids du modèle sont disponibles publiquement.
Génération de données à partir de la structure des liens web
OpenSeeker repose sur deux idées fondamentales pour générer des données. Pour les paires question-réponse, l'équipe utilise la véritable structure de liens du web comme base, générant des questions à partir de celle-ci. En partant de pages de départ sélectionnées au hasard dans un corpus web (environ 68 Go de données en anglais et 9 Go de données en chinois), le système suit les hyperliens vers des pages connexes et extrait les informations les plus importantes.
Des noms et termes spécifiques sont ensuite remplacés par des descriptions vagues, de sorte qu'un agent de recherche ne puisse pas trouver la réponse par une simple recherche par mots-clés. Cela force une véritable recherche et un raisonnement multi-étapes.
Un filtre en deux étapes élimine les questions inutilisables : un modèle de base solide ne doit pas être capable de répondre sans outils, mais doit pouvoir les résoudre avec un contexte complet. Si l'une ou l'autre condition échoue, la question est rejetée.
La deuxième idée se concentre sur les chemins de recherche que le modèle apprend. Les pages web contiennent beaucoup de bruit qui dégrade la qualité des chemins de solution enregistrés. Lors de la génération de données, un modèle enseignant reçoit un résumé nettoyé des résultats de recherche précédents et prend de meilleures décisions sur cette base.
Pendant l'entraînement, le modèle étudiant voit ensuite les données brutes, non nettoyées, mais est toujours censé reproduire les décisions de haute qualité du professeur. Cela l'oblige à déterminer par lui-même comment séparer le signal du bruit.
Qualité des données contre quantité brute
OpenSeeker est basé sur Qwen3-30B-A3B et a été entraîné avec seulement 11 700 points de données lors d'une seule session en utilisant un ajustement supervisé, sans apprentissage par renforcement ni ajustements répétés.
Selon l'article, le modèle a atteint 48,4 % sur le benchmark BrowseComp-ZH en langue chinoise, surpassant le modèle Tongyi DeepResearch d'Alibaba à 46,7 %. Le modèle d'Alibaba a suivi un processus en trois étapes d'entraînement prolongé, d'ajustement supervisé et d'apprentissage par renforcement.
Sur le BrowseComp en langue anglaise d'OpenAI, OpenSeeker obtient 29,5 % - presque le double des 15,3 % de DeepDive, le précédent leader parmi les agents entièrement ouverts.
Une comparaison avec MiroThinker souligne l'importance de la qualité des données par rapport à la quantité brute : ce modèle a été alimenté avec 147 000 exemples d'entraînement mais n'atteint que 13,8 % sur BrowseComp-ZH. OpenSeeker atteint un score 3,5 fois supérieur avec moins d'un douzième des données.
Les données d'entraînement en chinois d'OpenSeeker nécessitent en moyenne 46 appels d'outils par tâche, contre seulement 27 pour BrowseComp-ZH.
Il existe encore un écart par rapport aux systèmes propriétaires les plus puissants. Le GPT-5-High d'OpenAI atteint 54,9 % sur BrowseComp, et DeepSeek-V3.2 avec 671 milliards de paramètres atteint 51,4 %. OpenSeeker fonctionne avec une fraction de la taille du modèle et de l'effort d'entraînement.
La question de l'accès aux données d'entraînement de haute qualité est un enjeu central dans l'industrie de l'IA depuis un certain temps. L'année dernière, une équipe de recherche a publié le Common Pile, un ensemble de données textuelles de 8 To construit à partir de sources sous licence ouverte. Jusqu'à présent, cela n'a pas beaucoup contribué à ébranler la domination des modèles commerciaux.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.