Brief IA : Bridgewater : un modèle IA open-source surpasse GPT et Claude

Bridgewater : un modèle IA open-source surpasse GPT et Claude

Brief IA
Tom Levy·4 min·6 vues

Le modèle Qwen3-235B, développé par Bridgewater et Thinking Machines Lab, a surpassé GPT et Claude avec une précision de près de 85 % tout en coûtant 14 fois moins cher à exploiter. Cette performance démontre que les solutions IA open-source peuvent rivaliser avec les modèles propriétaires dans des tâches spécialisées.

En bref
1Bridgewater et Thinking Machines Lab ont testé des IA sur l'analyse de documents financiers.
2Un modèle open-source finement ajusté a surpassé GPT et Claude à moindre coût.
3Les résultats montrent que les IA propriétaires ne dominent pas toujours les tâches spécialisées.
💡Pourquoi c'est importantCela pourrait influencer les choix technologiques des entreprises en quête de solutions IA rentables et efficaces.
Le brief IA que lisent les pros

Tu codes avec l’IA ?

Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Bridgewater : un modèle IA open-source surpasse GPT et Claude

Le modèle Qwen3-235B, développé par Bridgewater et Thinking Machines Lab, a été entraîné pour analyser des documents financiers et surpasse les modèles commerciaux leaders. Ce modèle, affiné grâce à des connaissances internes d'experts, atteint une précision de près de 85 % dans les tests et coûte 14 fois moins cher à exploiter.

Cela démontre que les entreprises peuvent développer des solutions IA puissantes en utilisant leurs propres données sans avoir à partager d'informations sensibles avec de grands fournisseurs.

Le fonds spéculatif Bridgewater et Thinking Machines Lab affirment qu'un modèle à poids ouvert affiné surpasse les modèles IA les plus performants dans l'évaluation des documents financiers, et ce, à une fraction du coût. Les chiffres proviennent de leur propre évaluation interne.

Les investisseurs sont submergés par des nouvelles, des analyses, des dépôts d'entreprise et des courriels chaque jour. Selon un rapport des AIA Labs de Bridgewater et de Thinking Machines Lab, la lecture n'est pas le véritable travail. Le véritable travail consiste en un flux constant de petites décisions répétées sur ce qui est réellement important. C'est cette tâche que les chercheurs souhaitaient automatiser.

Ils ont défini six tâches tirées de la routine quotidienne d'un investisseur. Un exemple : décider si un article financier est pertinent pour un dirigeant. Un autre : déterminer si un document de banque centrale signale la direction des futurs changements de taux. Pour les investisseurs, ces décisions sont triviales, mais ils peinent à formuler leur raisonnement. Le rapport donne un exemple révélateur : un titre sur la revendication de Trump concernant le Groenland est jugé non pertinent, tandis que la menace de Trump d'imposer de nouveaux tarifs sur la Chine est jugée très pertinente. Les deux touchent à la géopolitique et à la finance.

Les modèles de pointe ont échoué dans les tests des auteurs. Les variantes de Gemini, Claude et GPT n'atteignent qu'environ 50 % de précision avec une invite de base. Des instructions rédigées par des experts et un système de notation à trois niveaux ("pertinent et intéressant", "pertinent mais peu intéressant", "non pertinent") ont porté la précision dans les 70 %. Cela reste en deçà du seuil de 80 % que les auteurs avaient fixé pour un déploiement fiable.

Lorsque les experts rédigent l'invite, la performance augmente considérablement par rapport à une invite naïve.

Les nouveaux modèles n'améliorent guère le rapport coût-efficacité, selon le rapport. GPT 5.4 coûte 43 % de plus que 5.2, mais n'est que marginalement plus précis.

La véritable valeur réside dans l'esprit des investisseurs

La solution a été l'affinage, consistant à réentraîner un modèle à poids ouvert sur des exemples propriétaires. L'ingrédient clé était le jugement des investisseurs de Bridgewater : au départ, des sous-traitants externes peu coûteux ont étiqueté les documents, mais beaucoup de ces étiquettes étaient erronées. Pour éviter que des professionnels coûteux ne révisent tout, les chercheurs ont utilisé une solution de contournement. Un premier modèle a appris à partir des étiquettes défectueuses et a réévalué les mêmes documents. Partout où le modèle et l'étiquette originale étaient en désaccord, il y avait probablement une erreur. Seuls ces cas contestés ont été soumis aux investisseurs pour correction.

L'entraînement s'est déroulé sur la plateforme Tinker de Thinking Machines Lab, construite sur le modèle ouvert Qwen3-235B. Dans l'évaluation de l'équipe, le modèle affiné a atteint 84,7 % de précision contre 78,2 % pour le meilleur modèle de pointe testé. Il coûtait également près de 14 fois moins à faire fonctionner. Ce n'est pas une comparaison véritablement indépendante, bien sûr. Les deux entreprises ont un intérêt clair à vendre leur produit.

Cependant, la découverte au-delà des chiffres mérite d'être notée. Elle montre encore une fois que les grands laboratoires comme OpenAI n'ont pas absorbé toutes les données disponibles. D'énormes pools de données d'entreprise propriétaires et d'expertise humaine non formée existent encore, et ils offrent un réel potentiel d'amélioration. Cela est particulièrement vrai lorsque les entreprises choisissent délibérément de garder leurs données les plus précieuses privées. Quiconque remet ces données à un laboratoire de pointe risque de se retrouver en concurrence avec un produit construit sur cette base.

L'affinage des modèles ouverts grâce à des outils comme Tinker offre aux entreprises une alternative. Elles conservent les poids, les données et, selon la configuration, les GPU eux-mêmes.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires