Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
L'essor des modèles de langage de grande taille
Mettre en place votre propre modèle de langage de grande taille peut sembler complexe, mais l'avenir est prometteur. Les modèles d'IA de pointe sont de plus en plus menacés par des contrôles d'exportation stricts ou des coûts d'API croissants. Alors que cette technologie s'intègre dans notre vie quotidienne, le mouvement open-source n'est pas seulement une préférence philosophique, mais un mécanisme nécessaire pour garder l'IA entre les mains des utilisateurs ordinaires.
Nous ne sommes pas encore à parité ; les modèles propriétaires des grands laboratoires technologiques conservent un avantage significatif en termes de performance pure. Cependant, nous pouvons espérer que l'écart se réduit rapidement. Une communauté indépendante de chercheurs et de développeurs travaille sans relâche pour garantir que cette technologie soit accessible à quiconque possède un ordinateur. Aujourd'hui, les bases d'une véritable démocratisation sont déjà là : vous pouvez exécuter un modèle hautement capable entièrement sur votre propre ordinateur portable. Pour cette expérience, j'ai décidé de trouver un modèle de langage de grande taille pouvant fonctionner entièrement sur mon ordinateur portable et de l'utiliser pour les tâches simples que je confierais normalement à un grand modèle de laboratoire.
Qwen 3 8B : Un modèle puissant à portée de main
Nous allons installer Qwen 3 8B sur mon MacBook Air, le faire fonctionner entièrement hors ligne, et enfin avoir un modèle de langage sur ma propre machine plutôt que dans un centre de données éloigné. La famille de modèles Qwen a été entraînée par Alibaba (la société chinoise) et est entièrement open-source, disponible sur Internet pour que tout le monde puisse la télécharger. Le modèle possède 9 milliards de poids et occupe environ 6 Go de RAM lorsqu'il est chargé.
Ce qui suit est un guide pratique, de A à Z, pour exécuter un véritable modèle de langage local sur un Mac Apple Silicon, incluant les commandes terminal nécessaires. Mais avant d'ouvrir le terminal, il est important de discuter de l'intérêt de cette démarche.
Pourquoi installer un modèle local ?
La plupart du temps, les modèles cloud sont meilleurs et plus faciles à utiliser. Je ne vais pas prétendre qu'un modèle de 8 milliards de paramètres sur un ordinateur portable surpasse l'IA de pointe. Ce n'est pas le cas, et je continuerai d'utiliser les modèles cloud massifs pour les tâches lourdes.
Cependant, les fluctuations de prix et les guerres de souveraineté autour de l'IA pourraient rendre les modèles open-source et locaux très pertinents pour un avenir où l'accès à la technologie fera une énorme différence. Chaque fois que vous utilisez Claude ou ChatGPT, vous envoyez vos données à des serveurs distants où l'accès peut être bloqué à tout moment.
La notion de « souveraineté numérique » est une grande phrase pour un désir très ordinaire : nous voulons posséder ce qui lit nos pensées les plus sensibles, tout comme nous possédons un carnet physique ou gardons de l'argent chez nous.
Un modèle local répond à ce besoin de manière claire dans le monde de l'IA. Une fois téléchargé, rien ne quitte la machine. Pas de clés API, pas de changements de conditions d'utilisation, pas de politiques de conservation des données discrètes. Vous pouvez retirer la carte Wi-Fi et il continue de fonctionner. Pour la partie très sensible de votre travail, cela peut valoir le coût d'entrée.
Les gens aiment dire que les modèles locaux « démocratisent » l'IA. Je souhaite que ce soit vrai, mais nous n'y sommes pas encore. Faire fonctionner cette configuration suppose toujours que vous possédez un ordinateur portable à 1 500 € avec une mémoire unifiée massive et que vous êtes à l'aise avec la ligne de commande. C'est une tranche étroite et chanceuse du monde.
Cependant, la trajectoire est en train de se démocratiser. Il y a deux ans, faire fonctionner un modèle hors ligne décent nécessitait une station de travail dédiée et des douleurs techniques sérieuses. Ce week-end, cela m'a pris quelques heures et 5 Go d'espace disque.
La machine et les spécifications
J'ai construit cela sur un MacBook Air M4 avec 24 Go de mémoire unifiée et environ 235 Go de stockage libre. C'était un nouveau départ : pas de Homebrew, pas de cauchemars d'environnement Python.
Le chiffre qui compte ici est le 24 Go. La « mémoire unifiée » d'Apple Silicon est le truc magique qui rend les Macs si exceptionnellement bons pour cela. Comme le CPU et le GPU partagent exactement le même pool de mémoire, les poids massifs des réseaux neuronaux n'ont pas besoin d'être lentement transférés d'un côté à l'autre.
Un modèle de 8 milliards prend environ 5 Go sur disque et occupe environ 6 Go en mémoire lorsqu'il est chargé. Sur une machine de 24 Go, c'est très confortable. Vous pourriez exécuter un modèle de 14 milliards et garder encore des dizaines d'onglets de navigateur ouverts. (Si vous avez un Mac de 8 Go, restez sur les modèles de 1,5 milliard ou 3 milliards et fermez vos autres applications).
Il existe une douzaine de façons d'exécuter une IA locale, et la plupart d'entre elles vous demandent de vous soucier des drapeaux de compilation et des arbres de dépendance. Vous ne devriez pas avoir à le faire.
Ollama est un cadre et un outil open-source qui fonctionne simplement. C'est un binaire unique qui regroupe un exécuteur de modèle hautement optimisé (llama.cpp utilisant le Metal d'Apple pour l'accélération GPU), un registre de modèles de style Docker, et une API HTTP locale. Vous l'installez, vous tirez un modèle, et vous communiquez avec lui. C'est tout !
Étape 1 : Installer Ollama (Pas besoin de Homebrew)
Ollama est livré en tant qu'application standard macOS dans un fichier zip. L'interface en ligne de commande (CLI) se trouve secrètement à l'intérieur du bundle de l'application, donc nous pouvons le configurer entièrement à la main.
- Télécharger la version Apple Silicon :
curl -L -o Ollama-darwin.zip https://ollama.com/download/Ollama-darwin.zip
- Dézipper et déplacer l'application dans votre dossier Applications :
unzip -o -q Ollama-darwin.zip
mv Ollama.app /Applications/
Si vous ne savez pas comment ouvrir le terminal, allez dans vos applications Mac et cherchez « terminal ».
Étape 2 : Mettre Ollama dans votre PATH
Je ne voulais pas me battre avec les permissions sudo dans /usr/local/bin, donc j'ai créé un lien symbolique vers la CLI dans un répertoire local que je possède — c'est juste un raccourci pratique pour accélérer l'installation et faire fonctionner le LLM.
- Créer un répertoire bin local et lier la CLI :
mkdir -p ~/.local/bin
ln -sf /Applications/Ollama.app/Contents/Resources/ollama ~/.local/bin/ollama
- Rendre cela permanent dans votre profil zsh :
echo 'export PATH="$HOME/.local/bin:$PATH"' >> ~/.zshrc
- L'appliquer à votre shell actuel :
export PATH="$HOME/.local/bin:$PATH"
ollama --version
Étape 3 : Démarrer le serveur
Ollama exécute un serveur léger en arrière-plan pour exposer l'API et gérer la mémoire de votre ordinateur.
- Démarrer le serveur et enregistrer la sortie :
mkdir -p ~/.ollama/logs
nohup ollama serve > ~/.ollama/logs/serve.log 2>&1 &
- Vérifier s'il est actif :
curl -s http://127.0.0.1:11434/api/version
Si la commande ci-dessus renvoie une « version », Ollama est configuré !
Étape 4 : Tirer le modèle
C'est aussi simple que cela :
ollama pull qwen3:8b
Allez vous faire un café. Le téléchargement fait environ 5,2 Go.
Après avoir exécuté ollama list, vous verrez le modèle disponible pour vous.
Étape 5 : Interagir avec le nouveau cerveau numérique de votre ordinateur
Vous avez trois façons distinctes d'interagir avec votre nouveau modèle local.
- Chat interactif (le plus facile)
ollama run qwen3:8b
Exécuter la commande suivante lancera le chat interactif. Dans le mode par défaut, le modèle affichera les « tokens de réflexion », quelque chose qui est normalement abstrait et caché dans la plupart des outils commerciaux.
Je vais commencer par demander à mon modèle local ce qu'il pense des modèles open-source.
- Commandes terminal à la volée Pour interagir avec votre modèle local, vous pouvez également fournir la question en dehors du mode interactif :
ollama run qwen3:8b "écris un script python qui me dit combien de voyelles un mot a"
Voici le script que notre modèle de langage local a construit :
# Demander à l'utilisateur un mot
word = input("Entrez un mot : ")
# Définir l'ensemble des voyelles
vowels = {'a', 'e', 'i', 'o', 'u'}
# Initialiser un compteur
count = 0
# Convertir le mot en minuscules et vérifier chaque caractère
for char in word.lower():
if char in vowels:
count += 1
# Afficher le résultat
print(f"Nombre de voyelles : {count}")
- L'API HTTP (pour scripts et applications) Vous pouvez également utiliser cela en dehors des commandes terminales. Si vous êtes à l'aise avec Python, vous pouvez créer n'importe quel script local utilisant votre modèle local :
import json, urllib.request
req = urllib.request.Request(
"http://127.0.0.1:11434/api/generate",
data=json.dumps({
"model": "qwen3:8b",
"[prompt](/glossaire/prompt)": "Donnez-moi trois utilisations d'un LLM local.",
"stream": False,
"headers": {"Content-Type": "application/json"},
})
)
print(json.loads(urllib.request.urlopen(req).read())["response"])
Voici la réponse du modèle après l'exécution de ce script Python : Bien sûr ! Voici trois utilisations courantes et pratiques d'un LLM local (modèle de langage de grande taille) :
-
Assistance personnalisée et productivité : Un LLM local peut agir comme un assistant IA privé, aidant avec des tâches comme la rédaction d'e-mails, la planification, la prise de notes, et même le codage. Comme il fonctionne localement, il préserve la vie privée de l'utilisateur et ne dépend pas de la connectivité Internet.
-
Création de contenu et traitement du langage : Vous pouvez utiliser un LLM local pour générer du contenu créatif tel que des articles de blog, des histoires, des scripts ou des textes marketing. Il peut également aider à la traduction de langues, à la vérification grammaticale et à la synthèse de textes.
-
Applications personnalisées et intégration : Un LLM local peut être intégré dans des applications ou des flux de travail personnalisés, tels que des chatbots, des systèmes de support client ou des outils d'analyse de données. Cela permet des solutions sur mesure sans exposer des données sensibles à des serveurs externes.
Faites-moi savoir si vous souhaitez des exemples de la manière de mettre en œuvre ces utilisations !
Affiner l'expérience — Dompter les « tokens de réflexion »
Qwen 3 est un modèle de raisonnement hybride. Par défaut, il génère un bloc verbeux <think>...</think> décrivant sa chaîne de pensée avant de fournir la réponse finale.






