Apple et Qwen 397B : l'IA locale sur MacBook Pro M3 Max
Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Une avancée notable a été réalisée par Dan Woods, qui a réussi à faire fonctionner une version personnalisée du modèle Qwen3.5-397B-A17B sur un MacBook Pro M3 Max doté de 48 Go de RAM. Ce modèle, bien que volumineux avec ses 209 Go (dont 120 Go quantifiés), a pu être exécuté à une vitesse de 5,5+ tokens par seconde grâce à l'utilisation de techniques innovantes.
Le modèle Qwen3.5-397B-A17B est basé sur une architecture de Mixture-of-Experts (MoE). Cela signifie que chaque token n'interagit qu'avec une partie des poids du modèle global, ce qui permet de charger ces poids depuis un SSD au lieu de les stocker tous en RAM. Cette approche optimise l'utilisation de la mémoire et permet d'exécuter des modèles plus grands sur des machines avec des ressources limitées.
Dan Woods a appliqué des techniques décrites dans le document d'Apple de 2023 intitulé LLM in a flash: Efficient Large Language Model Inference with Limited Memory. Ce document propose de stocker les paramètres du modèle dans la mémoire flash et de les transférer à la DRAM à la demande. L'objectif est de réduire le volume de données transférées et d'optimiser la lecture des données en grandes quantités et de manière contiguë.
Pour mener à bien son projet, Dan a utilisé Claude Code et une variante du modèle d'autorecherche d'Andrej Karpathy. Cela a permis à Claude de réaliser 90 expériences, produisant du code en MLX Objective-C et Metal pour une exécution efficace du modèle. Le code et les résultats de cette expérience sont disponibles dans le dépôt danveloper/flash-moe, qui contient également un document PDF principalement rédigé par Claude Opus 4.6 décrivant l'expérience dans son intégralité.
Le modèle final utilise des experts quantifiés à 2 bits, mais certaines parties, comme la table d'embedding et les matrices de routage, conservent leur précision d'origine, totalisant 5,5 Go en mémoire pendant l'exécution. Bien que Qwen 3.5 utilise généralement 10 experts par token, cette configuration a réduit ce nombre à 4, tout en notant que la plus grande chute de qualité se produisait à 3 experts par token. Selon Claude, la qualité de sortie à 2 bits est comparable à celle à 4 bits, bien que les détails des évaluations restent limités.
Brief IA — L'actualité IA en français
L'essentiel de l'actualité de l'intelligence artificielle, décrypté et expliqué chaque jour.