SubQ de Subquadratic : révolution ou simple promesse ?

Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
SubQ : Un modèle prometteur mais sous surveillance
Subquadratic a récemment présenté SubQ, un modèle de langage (LLM) qui pourrait bien révolutionner le domaine de l'intelligence artificielle générative. Ce modèle repose sur une attention parcimonieuse dite "sous-quadratique", permettant potentiellement de gérer des fenêtres de contexte allant jusqu'à 12 millions de tokens. Toutefois, la prudence est de mise au sein de la communauté, en raison de l'absence de benchmarks indépendants pour valider ces affirmations.
Une architecture innovante
Le 5 mai 2026, Subquadratic a lancé SubQ, le premier modèle à utiliser une architecture d’attention parcimonieuse entièrement sous-quadratique. Cette innovation vise à réduire les coûts de calcul associés aux modèles de langage tout en permettant la gestion de contextes très longs. Les modèles actuels, tels que GPT, Claude ou Gemini, s'appuient sur le Transformer, où l'opération d'attention est essentielle pour traiter le texte. Cependant, cette méthode devient coûteuse en ressources lorsque le contexte s'allonge, car le coût de l'opération d'attention augmente de manière exponentielle.
Dans un Transformer classique, doubler la taille du texte entraîne une augmentation quadratique des interactions, rendant l'utilisation de longues fenêtres de contexte très coûteuse. SubQ cherche à résoudre ce problème en réduisant le nombre de comparaisons nécessaires entre les tokens. L'architecture sélectionne uniquement les interactions pertinentes, diminuant ainsi la complexité de calcul. Le terme "sous-quadratique" indique que le coût de calcul augmente moins rapidement qu'avec un Transformer classique, permettant de traiter des documents beaucoup plus longs sans nécessiter des ressources matérielles excessives.
Scepticisme et attentes
Malgré ces promesses, l'idée d'une attention plus efficace n'est pas nouvelle et a déjà été explorée par d'autres variantes. La difficulté réside dans la préservation des performances tout en diminuant la complexité du calcul. La communauté reste sceptique face aux promesses ambitieuses de SubQ, notamment sa capacité à gérer jusqu'à 12 millions de tokens de contexte et à offrir des performances jusqu'à 52 fois supérieures à FlashAttention.
Les benchmarks publiés par Subquadratic sont limités, et l'absence d'un modèle ouvert soulève des inquiétudes. Certaines opérations fondamentales des modèles de langage deviennent naturellement plus coûteuses avec l'augmentation de la taille du contexte, rendant difficile la réduction de cette complexité sans dégrader la qualité des résultats.
Un avenir incertain
Pour l'instant, SubQ apparaît comme une démonstration prometteuse plutôt qu'une solution validée. Il reste à voir si cette architecture pourra tenir ses promesses face à des benchmarks ouverts et des audits indépendants. Subquadratic a également annoncé que SubQ est accessible en accès anticipé via une API pour les développeurs, ainsi qu'à travers un outil de programmation appelé SubQ Code.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.