Brief IA

Qualcomm shrinks AI reasoning chains by 2.4x to fit thinking models on smartphones

🤖 Models & LLMvia The Decoder·Jonathan Kemper·

Qualcomm shrinks AI reasoning chains by 2.4x to fit thinking models on smartphones

Qualcomm shrinks AI reasoning chains by 2.4x to fit thinking models on smartphones
En bref
1Qualcomm AI Research a développé un système modulaire pour intégrer des modèles de langage capables de raisonnement sur smartphones.
2Les modèles de raisonnement sont compressés par un facteur de 2,4.
3Cette avancée permet d'optimiser l'utilisation des ressources sur les appareils mobiles, rendant l'IA plus accessible.
💡Pourquoi c'est importantcette innovation pourrait transformer l'expérience utilisateur sur smartphones en rendant l'IA plus performante et efficace.
📄
Article traduit en français

Qualcomm réduit les chaînes de raisonnement IA de 2,4x pour intégrer des modèles de pensée sur smartphones

Qualcomm AI Research a développé un système modulaire capable d'exécuter des modèles de langage dotés de capacités de raisonnement directement sur les smartphones, éliminant ainsi le besoin de connexion au cloud.

Les processus de raisonnement de ces modèles étant très verbeux et consommant beaucoup de mémoire et d'énergie, l'équipe a utilisé l'apprentissage par renforcement pour compresser considérablement les sorties tout en maintenant l'exactitude.

Malgré ces avancées techniques, l'IA locale sur smartphones reste en grande partie une preuve de concept. Pour une intégration plus profonde avec des applications comme les e-mails, les photos ou les calendriers, des entreprises comme Google dépendent encore des modèles basés sur le cloud.

Un modèle de base unique qui alterne entre deux modes

Plutôt que de former un tout nouveau modèle, Qualcomm a opté pour une approche modulaire. Le point de départ est un modèle de langage standard sans capacités de raisonnement (Qwen2.5-7B-Instruct), étendu grâce à des adaptateurs LoRA : de petits modules spécialisés qui peuvent être activés ou désactivés selon les besoins. Le même modèle peut fonctionner soit comme un chatbot rapide, soit comme un système de raisonnement plus approfondi, en fonction de la tâche.

Selon les chercheurs, seulement environ 4 % des paramètres doivent être entraînés. Malgré cela, le résultat se rapproche de la performance de DeepSeek-R1-Distill-Qwen-7B, un modèle nécessitant un effort d'entraînement significativement plus important. Un classificateur intégré décide également automatiquement pour chaque requête si le mode de raisonnement plus complexe est nécessaire, économisant ainsi des ressources et de l'énergie pour des questions simples.

L'apprentissage par renforcement réduit l'excès de tokens jusqu'à 8x

Le principal problème après l'entraînement initial est que les modèles deviennent extrêmement verbeux. Ils parviennent souvent à la bonne solution rapidement, puis consomment des milliers de tokens à vérifier leur propre travail de diverses manières. Les chercheurs appellent ce phénomène "hésitation épistémique", connu dans la communauté de recherche sous le terme "sur-analyse".

Pour y remédier, l'équipe utilise un apprentissage par renforcement qui pénalise spécifiquement les réponses trop longues. En moyenne, les réponses sont réduites par un facteur de 2,4, et pour certaines tâches, la réduction atteint jusqu'à 8x. Un exemple tiré de l'article : une simplification algébrique qui nécessitait initialement 3 118 tokens est résolue en seulement 810 tokens après optimisation. Selon les chercheurs, l'exactitude reste largement intacte.

Chemins de solution parallèles et compression 4 bits pour une utilisation réelle

Le cadre permet également au modèle de poursuivre plusieurs chemins de solution simultanément. Une petite tête d'évaluation sur le modèle de base estime quelle réponse est la plus susceptible d'être correcte. Avec huit exécutions parallèles, l'exactitude sur le benchmark mathématique MATH500 augmente d'environ 10 % sans augmenter significativement le temps de réponse. Cela est dû au fait que la génération de tokens sur les appareils mobiles est limitée par l'accès à la mémoire, et non par la puissance de calcul, donc les chemins parallèles exploitent simplement une capacité qui serait autrement inoccupée.

Pour fonctionner sur un téléphone, Qualcomm compresse les poids du modèle à 4 bits. Les adaptateurs de raisonnement doivent être entraînés directement sur le modèle compressé ; sinon, le système produit simplement du texte aléatoire. Malgré cette compression agressive, le modèle final ne perd qu'environ 2 % d'exactitude par rapport à la version non compressée. Des vidéos sur la page du projet montrent le système fonctionnant sur des appareils mobiles.

L'IA sur appareil n'a pas encore dépassé le stade des démonstrations

Qualcomm s'efforce depuis des années d'apporter des modèles d'IA aux appareils mobiles, publiant 80 modèles d'IA pré-optimisés pour les appareils Snapdragon et présentant un orchestrateur d'IA conçu pour s'intercaler entre les données personnelles, les applications et les modèles d'IA sur appareil. Google a également fait des mouvements similaires, montrant comment de petits modèles de langage peuvent fonctionner localement sur Android avec FunctionGemma et la AI Edge Gallery.

Cependant, jusqu'à présent, ces efforts sont restés en grande partie des preuves techniques de concept. En ce qui concerne une intégration système approfondie — où un assistant IA a besoin d'accéder aux e-mails, photos et calendriers — les entreprises se tournent encore par défaut vers des modèles basés sur le cloud. La fonctionnalité récemment annoncée par Google, "Personal Intelligence", par exemple, connecte Gemini avec Gmail, Google Photos et Search, mais fonctionne entièrement côté serveur.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.