Qualcomm shrinks AI reasoning chains by 2.4x to fit thinking models on smartphones
Qualcomm réduit les chaînes de raisonnement IA de 2,4x pour intégrer des modèles de pensée sur smartphones
Qualcomm AI Research a développé un système modulaire capable d'exécuter des modèles de langage dotés de capacités de raisonnement directement sur les smartphones, éliminant ainsi le besoin de connexion au cloud.
Les processus de raisonnement de ces modèles étant très verbeux et consommant beaucoup de mémoire et d'énergie, l'équipe a utilisé l'apprentissage par renforcement pour compresser considérablement les sorties tout en maintenant l'exactitude.
Malgré ces avancées techniques, l'IA locale sur smartphones reste en grande partie une preuve de concept. Pour une intégration plus profonde avec des applications comme les e-mails, les photos ou les calendriers, des entreprises comme Google dépendent encore des modèles basés sur le cloud.
Un modèle de base unique qui alterne entre deux modes
Plutôt que de former un tout nouveau modèle, Qualcomm a opté pour une approche modulaire. Le point de départ est un modèle de langage standard sans capacités de raisonnement (Qwen2.5-7B-Instruct), étendu grâce à des adaptateurs LoRA : de petits modules spécialisés qui peuvent être activés ou désactivés selon les besoins. Le même modèle peut fonctionner soit comme un chatbot rapide, soit comme un système de raisonnement plus approfondi, en fonction de la tâche.
Selon les chercheurs, seulement environ 4 % des paramètres doivent être entraînés. Malgré cela, le résultat se rapproche de la performance de DeepSeek-R1-Distill-Qwen-7B, un modèle nécessitant un effort d'entraînement significativement plus important. Un classificateur intégré décide également automatiquement pour chaque requête si le mode de raisonnement plus complexe est nécessaire, économisant ainsi des ressources et de l'énergie pour des questions simples.
L'apprentissage par renforcement réduit l'excès de tokens jusqu'à 8x
Le principal problème après l'entraînement initial est que les modèles deviennent extrêmement verbeux. Ils parviennent souvent à la bonne solution rapidement, puis consomment des milliers de tokens à vérifier leur propre travail de diverses manières. Les chercheurs appellent ce phénomène "hésitation épistémique", connu dans la communauté de recherche sous le terme "sur-analyse".
Pour y remédier, l'équipe utilise un apprentissage par renforcement qui pénalise spécifiquement les réponses trop longues. En moyenne, les réponses sont réduites par un facteur de 2,4, et pour certaines tâches, la réduction atteint jusqu'à 8x. Un exemple tiré de l'article : une simplification algébrique qui nécessitait initialement 3 118 tokens est résolue en seulement 810 tokens après optimisation. Selon les chercheurs, l'exactitude reste largement intacte.
Chemins de solution parallèles et compression 4 bits pour une utilisation réelle
Le cadre permet également au modèle de poursuivre plusieurs chemins de solution simultanément. Une petite tête d'évaluation sur le modèle de base estime quelle réponse est la plus susceptible d'être correcte. Avec huit exécutions parallèles, l'exactitude sur le benchmark mathématique MATH500 augmente d'environ 10 % sans augmenter significativement le temps de réponse. Cela est dû au fait que la génération de tokens sur les appareils mobiles est limitée par l'accès à la mémoire, et non par la puissance de calcul, donc les chemins parallèles exploitent simplement une capacité qui serait autrement inoccupée.
Pour fonctionner sur un téléphone, Qualcomm compresse les poids du modèle à 4 bits. Les adaptateurs de raisonnement doivent être entraînés directement sur le modèle compressé ; sinon, le système produit simplement du texte aléatoire. Malgré cette compression agressive, le modèle final ne perd qu'environ 2 % d'exactitude par rapport à la version non compressée. Des vidéos sur la page du projet montrent le système fonctionnant sur des appareils mobiles.
L'IA sur appareil n'a pas encore dépassé le stade des démonstrations
Qualcomm s'efforce depuis des années d'apporter des modèles d'IA aux appareils mobiles, publiant 80 modèles d'IA pré-optimisés pour les appareils Snapdragon et présentant un orchestrateur d'IA conçu pour s'intercaler entre les données personnelles, les applications et les modèles d'IA sur appareil. Google a également fait des mouvements similaires, montrant comment de petits modèles de langage peuvent fonctionner localement sur Android avec FunctionGemma et la AI Edge Gallery.
Cependant, jusqu'à présent, ces efforts sont restés en grande partie des preuves techniques de concept. En ce qui concerne une intégration système approfondie — où un assistant IA a besoin d'accéder aux e-mails, photos et calendriers — les entreprises se tournent encore par défaut vers des modèles basés sur le cloud. La fonctionnalité récemment annoncée par Google, "Personal Intelligence", par exemple, connecte Gemini avec Gmail, Google Photos et Search, mais fonctionne entièrement côté serveur.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.