Brief IA

Autoresearching Apple's "LLM in a Flash" to run Qwen 397B locally

🛠️ AI Toolsvia Simon Willison·

Autoresearching Apple's "LLM in a Flash" to run Qwen 397B locally

Autoresearching Apple's "LLM in a Flash" to run Qwen 397B locally
En bref
1Dan Woods a réussi à faire fonctionner une version personnalisée de Qwen3.5-397B à 5,5+ tokens/seconde sur un MacBook Pro M3 Max de 48 Go.
2Le modèle Qwen3.5-397B occupe 209 Go (120 Go quantifiés) sur le disque.
3Cette performance impressionnante met en lumière les capacités de traitement local des modèles de langage sur des machines puissantes.
💡Pourquoi c'est importantcela démontre le potentiel d'exécuter des modèles de grande taille localement, réduisant ainsi la dépendance au cloud.
📄
Article traduit en français

Recherche autonome sur le "LLM en un clin d'œil" d'Apple pour exécuter Qwen 397B localement

Une recherche fascinante menée par Dan Woods a permis de faire fonctionner une version personnalisée de Qwen3.5-397B-A17B à 5,5+ tokens/seconde sur un MacBook Pro M3 Max de 48 Go, malgré le fait que ce modèle occupe 209 Go (dont 120 Go quantifiés) sur le disque.

Qwen3.5-397B-A17B est un modèle de Mixture-of-Experts (MoE), ce qui signifie que chaque token n'a besoin d'interagir qu'avec un sous-ensemble des poids du modèle global. Ces poids d'experts peuvent être transférés en mémoire depuis un SSD, évitant ainsi qu'ils aient tous besoin d'être chargés en RAM simultanément.

Dan a utilisé des techniques décrites dans le document d'Apple de 2023 intitulé LLM in a flash: Efficient Large Language Model Inference with Limited Memory. Ce document aborde le défi de l'exécution efficace des LLM qui dépassent la capacité de la DRAM disponible en stockant les paramètres du modèle dans la mémoire flash, mais en les apportant à la DRAM à la demande. Notre méthode consiste à construire un modèle de coût d'inférence qui prend en compte les caractéristiques de la mémoire flash, nous guidant à optimiser dans deux domaines critiques :

  • Réduire le volume de données transférées depuis la mémoire flash
  • Lire les données en plus grandes quantités, de manière plus contiguë

Il a alimenté le document à Claude Code et utilisé une variante du modèle d'autorecherche d'Andrej Karpathy pour faire exécuter 90 expériences par Claude, produisant du code MLX Objective-C et Metal qui exécute le modèle de la manière la plus efficace possible.

Le dépôt danveloper/flash-moe contient le code résultant ainsi qu'un document PDF principalement rédigé par Claude Opus 4.6 décrivant l'expérience dans son intégralité.

Le modèle final a les experts quantifiés à 2 bits, mais les parties non-expertes du modèle, telles que la table d'embedding et les matrices de routage, sont conservées à leur précision d'origine, totalisant 5,5 Go qui restent en mémoire pendant que le modèle fonctionne.

Qwen 3.5 fonctionne généralement avec 10 experts par token, mais cette configuration a réduit ce nombre à 4, tout en affirmant que la plus grande chute de qualité se produisait à 3.

Il n'est pas clair à quel point la qualité des résultats du modèle est affectée. Claude a affirmé que "la qualité de sortie à 2 bits est indistinguable de celle à 4 bits pour ces évaluations", mais la description des évaluations qu'il a réalisées est assez mince.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.