Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Fusionner des modèles linguistiques avec Unsloth Studio
La fusion de modèles linguistiques est une technique puissante pour améliorer les performances de l'IA sans nécessiter un réentraînement coûteux. En combinant deux ou plusieurs modèles pré-entraînés, on peut créer un modèle unique qui hérite des meilleures capacités de chaque modèle parent. Unsloth Studio offre une interface web gratuite et sans code pour réaliser cette fusion facilement sur votre ordinateur.
Définir Unsloth Studio
Unsloth Studio est une interface graphique (GUI) open-source, basée sur un navigateur, lancée en mars 2026 par Unsloth AI. Elle permet d'exécuter, d'affiner et d'exporter des LLMs sans écrire une seule ligne de code. Ce qui la rend spéciale :
- Pas de codage requis — toutes les opérations se font via une interface visuelle.
- Fonctionne à 100 % localement — vos données ne quittent jamais votre ordinateur.
- Rapide et efficace en mémoire — jusqu'à 2x plus rapide en formation avec 70 % de moins d'utilisation de mémoire vidéo (VRAM) par rapport aux méthodes traditionnelles.
- Multi-plateforme — fonctionne sur Windows, Linux, macOS et Windows Subsystem for Linux (WSL).
Unsloth Studio prend en charge des modèles populaires tels que Llama, Qwen, Gemma, DeepSeek, Mistral, et des centaines d'autres.
Comprendre pourquoi les modèles linguistiques sont fusionnés
Avant d'explorer le tutoriel Unsloth Studio, il est important de comprendre pourquoi la fusion de modèles est essentielle. Lorsque vous affinez un modèle pour une tâche spécifique (par exemple, codage, service client ou questions-réponses médicales), vous créez des adaptateurs de low-rank adaptation (LoRA) qui modifient le comportement du modèle original. Le défi est que vous pourriez avoir plusieurs adaptateurs, chacun fonctionnant bien pour différentes tâches. Comment les combiner en un seul modèle puissant ?
La fusion de modèles résout ce problème. Au lieu de jongler avec plusieurs adaptateurs, la fusion combine leurs capacités en un seul modèle déployable. Voici des cas d'utilisation courants :
- Combiner un modèle spécialisé en mathématiques avec un modèle spécialisé en codage pour créer un modèle performant dans les deux domaines.
- Fusionner un modèle affiné sur des données en anglais avec un modèle affiné sur des données multilingues.
- Mélanger un modèle de rédaction créative avec un modèle de questions-réponses factuelles.
Selon le blog technique de NVIDIA sur la fusion de modèles, la fusion combine les poids de plusieurs LLMs personnalisés, augmentant l'utilisation des ressources et ajoutant de la valeur aux modèles réussis.
Prérequis
Avant de commencer, assurez-vous que votre système répond aux exigences suivantes :
- Unité de traitement graphique (GPU) NVIDIA (séries RTX 30, 40 ou 50 recommandées) pour l'entraînement, bien que le processeur central (CPU) fonctionne uniquement pour l'inférence de base.
- Python 3.10+ avec pip et au moins 16 Go de mémoire vive (RAM).
- 20 à 50 Go d'espace de stockage libre (selon la taille du modèle) ; et les modèles eux-mêmes, soit un modèle de base plus un ou plusieurs adaptateurs LoRA affinés, soit plusieurs modèles pré-entraînés que vous souhaitez fusionner.
Commencer avec Unsloth Studio
Configurer Unsloth Studio est simple. Utilisez un environnement Conda dédié pour éviter les conflits de dépendances. Exécutez conda create -n unsloth_env python=3.10 suivi de conda activate unsloth_env avant l'installation.
Installer via pip
Ouvrez votre terminal et exécutez :
pip install unsloth
Pour Windows, assurez-vous d'avoir PyTorch installé au préalable. La documentation officielle d'Unsloth fournit des instructions détaillées spécifiques à chaque plateforme.
Lancer Unsloth Studio
Après l'installation, démarrez le Studio avec :
unsloth studio setup
Le premier lancement compile les binaires de llama.cpp, ce qui prend environ 5 à 10 minutes. Une fois terminé, une fenêtre de navigateur s'ouvre automatiquement avec le tableau de bord d'Unsloth Studio.
Vérifier l'installation
Pour confirmer que tout fonctionne, exécutez :
python -m unsloth
Vous devriez voir un message de bienvenue avec des informations sur la version. Par exemple, Unsloth version 2025.4.1 fonctionnant sur Compute Unified Device Architecture (CUDA) avec des noyaux optimisés.
Explorer les techniques de fusion de modèles
Unsloth Studio prend en charge trois principales méthodes de fusion. Chacune a des forces uniques, et le choix de la bonne dépend de vos objectifs.
SLERP (Spherical Linear Interpolation)
SLERP est idéal pour fusionner exactement deux modèles avec des résultats lisses et équilibrés. SLERP effectue une interpolation le long d'un chemin géodésique dans l'espace des poids, préservant mieux les propriétés géométriques que la simple moyenne. Pensez-y comme à un "mélange doux" entre deux modèles.
Caractéristiques clés :
- Fusionne uniquement deux modèles à la fois.
- Préserve les caractéristiques uniques des deux parents.
- Idéal pour combiner des modèles de la même famille (par exemple, Mistral v0.1 avec Mistral v0.2).
TIES-Merging (Trim, Elect Sign, and Merge)
TIES-Merging est destiné à fusionner trois modèles ou plus tout en résolvant les conflits. TIES-Merging a été introduit pour résoudre deux problèmes majeurs dans la fusion de modèles :
- Valeurs de paramètres redondantes qui gaspillent de la capacité.
- Désaccords sur le signe (direction positive/négative) des paramètres entre les modèles.
La méthode fonctionne en trois étapes :
- Trim — conserver uniquement les paramètres qui ont changé de manière significative lors de l'affinage.
- Elect Sign — déterminer la direction majoritaire pour chaque paramètre entre les modèles.
- Merge — combiner uniquement les paramètres qui s'alignent avec le signe convenu.
Des recherches montrent que TIES-Merging est la méthode la plus efficace et robuste parmi les techniques disponibles.
DARE (Drop And REscale)
Celle-ci est également idéale pour fusionner des modèles ayant de nombreux paramètres redondants. DARE supprime aléatoirement un pourcentage de paramètres delta et redimensionne les paramètres restants. Cela réduit les interférences et améliore souvent les performances, en particulier lors de la fusion de plusieurs modèles. DARE est généralement utilisé comme étape de prétraitement avant TIES (créant DARE-TIES).
NOTE : Les modèles linguistiques présentent une extrême redondance ; DARE peut éliminer 90 % voire 99 % des paramètres delta sans perte de performance significative.
Comparer les méthodes de fusion
-
Nombre de modèles
- Deux modèles similaires
- Mélange lisse et équilibré
-
3+ modèles, spécifiques à une tâche
- Résout les conflits de signe
- Paramètres redondants
- Réduit les interférences
Fusionner des modèles dans Unsloth Studio
Passons maintenant à la partie pratique de la fusion de modèles. Suivez ces étapes pour effectuer votre première fusion.
Lancer Unsloth Studio et naviguer vers l'entraînement
Ouvrez votre navigateur et allez à http://localhost:3000 (ou l'adresse affichée après le lancement). Cliquez sur le module Training depuis le tableau de bord.
Sélectionner ou créer une session d'entraînement
Dans Unsloth Studio, une session d'entraînement représente une session d'entraînement complète qui peut contenir plusieurs points de contrôle. Pour fusionner :
- Si vous avez déjà une session d'entraînement avec des adaptateurs LoRA, sélectionnez-la dans la liste.
- Si vous partez de zéro, créez une nouvelle session et chargez votre modèle de base.
Chaque session contient des points de contrôle — des versions sauvegardées de votre modèle à différents stades d'entraînement. Les points de contrôle ultérieurs représentent généralement le modèle final entraîné, mais vous pouvez sélectionner n'importe quel point de contrôle pour la fusion.
Choisir la méthode de fusion
Naviguez vers la section Export du Studio. Vous y verrez trois types d'exportation :
- Merged Model — modèle 16 bits avec l'adaptateur LoRA fusionné dans les poids de base.
- LoRA Only — exporte uniquement les poids de l'adaptateur (nécessite le modèle de base original).
- GGUF — convertit au format GGUF pour l'inférence llama.cpp ou Ollama.
Pour la fusion de modèles, sélectionnez Merged Model.
Selon la documentation la plus récente, Unsloth Studio prend principalement en charge la fusion des adaptateurs LoRA dans les modèles de base. Pour des techniques avancées comme la fusion SLERP ou TIES de plusieurs modèles complets, vous devrez peut-être utiliser MergeKit en complément d'Unsloth. De nombreux développeurs affinent plusieurs LoRAs avec Unsloth, puis utilisent MergeKit pour la fusion SLERP ou TIES.
Configurer les paramètres de fusion de l'adaptation à faible rang
Selon la méthode choisie, différentes options apparaîtront. Pour la fusion LoRA (la méthode la plus simple) :
- Sélectionnez l'adaptateur LoRA à fusionner.
- Choisissez la précision de sortie (16 bits ou 4 bits).
- Définissez l'emplacement de sauvegarde.
Pour une fusion avancée avec MergeKit (si vous utilisez l'interface de ligne de commande (CLI)) :
- Définissez le chemin du modèle de base.
- Listez les modèles parents à fusionner.
- Définissez la méthode de fusion (SLERP, TIES ou DARE).
- Configurez les paramètres d'interpolation.
Voici un exemple de ce à quoi ressemble une configuration MergeKit (pour référence) :
merge_method: ties
base_model: path/to/base/model
- model: path/to/model1
- model: path/to/model2
Exécuter la fusion
Cliquez sur Export ou Merge pour commencer le processus. Unsloth Studio fusionne les poids LoRA en utilisant la formule :
( W_{\text{merged}} = W_{\text{base}} + (A \cdot B) \times \text{scaling} )
où ( W_{\text{base}} ) est la matrice de poids originale, ( A ) et ( B ) sont les matrices de l'adaptateur LoRA, et scaling est le facteur d'échelle LoRA (typiquement lora_alpha / lora_r).
Pour les modèles 4 bits, Unsloth déquantifie en FP32, effectue la fusion, puis requantifie automatiquement en 4 bits.
Sauvegarder et exporter le modèle fusionné
Une fois la fusion terminée, deux options sont disponibles :
- Save Locally — télécharge les fichiers du modèle fusionné sur votre machine pour un déploiement local.
- Push to Hub — télécharge directement sur Hugging Face Hub pour le partage et la collaboration (nécessite un jeton d'écriture Hugging Face).
Le modèle fusionné est sauvegardé par défaut au format safetensors, compatible avec llama.cpp, vLLM, Ollama, et LM Studio.
Meilleures pratiques pour une fusion de modèles réussie
Sur la base de l'expérience de la communauté et des résultats de recherche, voici des conseils éprouvés :
-
Commencez avec des modèles compatibles
- Les modèles de la même famille d'architecture (par exemple, tous basés sur Llama) fusionnent plus efficacement que les fusions inter-architectures.
-
Utilisez DARE comme préprocesseur
- Lors de la fusion de plusieurs modèles, appliquez DARE d'abord pour éliminer les paramètres redondants, puis TIES pour la fusion finale. Cette combinaison DARE-TIES est largement utilisée dans la communauté.
-
Expérimentez avec les paramètres d'interpolation
- Pour les fusions SLERP, le facteur d'interpolation ( t ) détermine le mélange :
- ( t = 0 \rightarrow ) Modèle A uniquement
- ( t = 0.5 \rightarrow ) Mélange égal
- ( t = 1 \rightarrow ) Modèle B uniquement
Commencez avec ( t = 0.5 ) et ajustez en fonction de vos besoins.
- Pour les fusions SLERP, le facteur d'interpolation ( t ) détermine le mélange :
-
Évaluez avant de déployer
-
Surveillez votre espace disque
- La fusion de grands modèles (comme ceux de 70B paramètres) peut temporairement nécessiter un espace disque significatif. Le processus de fusion crée des fichiers intermédiaires qui peuvent nécessiter jusqu'à 2 à 3 fois la taille du modèle temporairement.
Dans cet article, vous avez appris que la fusion de modèles linguistiques avec Unsloth Studio est une méthode puissante pour optimiser vos modèles d'IA.




