Brief IA : Springboards et Flint : Réinventer les LLM pour plus de créativité

Springboards et Flint : Réinventer les LLM pour plus de créativité

Brief IA
Tom Levy·8 min·1 vues

Flint est un modèle de langage développé par la startup australienne Springboards, conçu pour générer des réponses plus variées et originales que les LLM traditionnels comme ChatGPT. En utilisant des techniques d'entraînement spécifiques, Flint vise à surmonter la prévisibilité des réponses, ce qui pourrait transformer l'utilisation de l'IA dans des contextes créatifs tels que le brainstorming et l'innovation.

En bref
1Les LLM actuels, comme ChatGPT, tendent à produire des réponses prévisibles, limitant la créativité.
2La startup Springboards a développé Flint, un modèle qui génère des réponses plus variées et originales.
3Flint utilise des techniques d'entraînement spécifiques pour éviter la monotonie des réponses des LLM traditionnels.
💡Pourquoi c'est importantFlint pourrait transformer la manière dont les professionnels créatifs utilisent l'IA pour le brainstorming et l'innovation.
Le brief IA que lisent les pros

Tu veux les meilleurs outils IA avant les autres ?

On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

La prévisibilité des modèles de langage actuels

Ouvrez votre chatbot préféré, qu'il s'agisse de Claude, ChatGPT ou Gemini, et demandez-lui de vous donner un nombre aléatoire entre 1 et 10. Vous constaterez souvent que la réponse est 7. Si vous insistez pour obtenir un autre nombre, vous recevrez probablement 3 ou 4, et si vous continuez, ce sera 8 ou 9. Bien que cela ne se produise pas à chaque fois, cette tendance met en lumière une prévisibilité étonnante des grands modèles de langage (LLM).

Ces modèles, bien qu'ils soient très efficaces pour des tâches comme le codage ou la recherche, montrent une certaine monotonie dans leurs réponses, ce qui peut poser problème dans des contextes nécessitant de la créativité, comme le brainstorming ou la planification de voyages.

Flint : une nouvelle approche par Springboards

La startup australienne Springboards a décidé de s'attaquer à ce problème en développant un modèle de langage appelé Flint. Contrairement aux LLM traditionnels, Flint a été conçu pour offrir une plus grande diversité de réponses à des questions ouvertes, telles que "Où devrais-je aller en Europe ?". Pip Bingemann, cofondateur et PDG de Springboards, explique que là où la plupart des modèles luttent contre les hallucinations, Flint les embrasse pour générer des réponses plus variées.

Lors d'une démonstration, Bingemann a montré comment Flint se distingue des autres modèles. Alors que ChatGPT et Claude ont donné le nombre 7 à une question sur les nombres aléatoires, Flint a également donné 7 lors de la première tentative. Après avoir redémarré la session, Flint a proposé 3.7916, illustrant sa capacité à sortir des sentiers battus.

Ce n'est pas seulement une question de chiffres. Lorsque Bingemann a demandé à ChatGPT et Claude de nommer un type de voiture, il a prédit que ce serait une Toyota ou une Honda—et il avait raison. Flint a proposé un Ford F-150. “Il y a toute cette information perdue qui n'est pas servie dans ces modèles,” dit-il. “Ils sont tout aussi capables de dire une Buick ou une Tesla. Ils ne le font tout simplement pas—ils sont biaisés.”

Bingemann a envoyé une dernière demande à chacun des trois modèles : “Donnez-moi un slogan pour une campagne de chaussures de course New Balance. Juste le slogan.” Claude : “Courez à votre manière.” ChatGPT : “Courez à votre manière.” Flint : “Conçu pour durer, courir pour gagner.” Cela ne remportera pas de prix, mais au moins c'est différent.

La recherche sur la pensée collective des LLM

Cette étrange limitation des LLM commence à attirer plus d'attention. En novembre, une équipe de chercheurs a publié un article intitulé “Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)”, qui a exposé un degré remarquable de répétition non seulement dans les réponses des LLM individuels mais aussi entre eux. Ils ont découvert que différents LLM convergeaient vers des réponses très similaires lorsqu'ils étaient interrogés avec des questions ouvertes.

Il n'est pas clair pourquoi cela se produit exactement, mais les chercheurs émettent l'hypothèse que la plupart des LLM d'aujourd'hui sont entraînés de manière similaire sur des données similaires pour effectuer des tâches similaires. L'équipe a remporté le prix du meilleur article à NeurIPS, une grande conférence sur l'IA.

Lorsque les chercheurs ont demandé à 25 LLM différents (y compris des modèles des plus grandes entreprises américaines ainsi que des modèles open-source de Chine et d'ailleurs) d'écrire 50 fois chacun une métaphore sur le temps, la plupart des 1 250 réponses étaient une version de “Le temps est une rivière” ou “Le temps est un tisserand.”

(J'ai posé la même question à certains de mes collègues et six personnes m'ont donné six réponses différentes. Mon point fort : “Le temps est un sweat-shirt préféré, façonné par une vie d'usure.”)

Lorsque vous le recherchez, vous voyez de la répétition partout, déclare Kieran Browne, cofondateur et CTO de Springboards. “La façon dont la plupart des interfaces de chat sont conçues, cela donne l'impression que vous avez une conversation personnelle,” dit-il. “Je pense que la plupart des gens ne réalisent pas vraiment l'étendue à laquelle ils obtiennent les mêmes choses que tout le monde.”

Prenons un autre exemple : “Comment devrais-je nommer mon groupe ?” La plupart des modèles diront quelque chose impliquant “verre”, “néon”, “velours” ou “statique”, dit Browne.

Lorsque j'ai essayé, ChatGPT a craché une liste de 56 noms de groupes. En haut se trouvait “Glass Harbor.” En parcourant, j'ai trouvé “Static Empire,” “Neon Hearts,” et “Velvet Echo.” J'ai demandé à Gemini ; il m'a donné 15 suggestions, y compris “Static Horizon.”

Certaines des suggestions avaient l'air plutôt cool. Le “Sofa Astronauts” de ChatGPT a attiré mon attention, alors j'ai googlé—et j'ai découvert qu'un groupe appelé Sofa Astronauts existe déjà.

(OpenAI déclare que former des modèles pour donner des réponses fiables et cohérentes peut les amener à converger autour de réponses familières et à forte probabilité, et que pousser plus fort pour la nouveauté peut conduire à des réponses plus faibles ou moins fiables. Il note également que l'article “Artificial Hivemind” a étudié des modèles de 2024 qui ont depuis été mis à jour.)

Catapulte créative

Springboards a développé un outil soutenu par une sélection de LLM, y compris ChatGPT et Claude, que les professionnels créatifs en publicité ou en marketing peuvent utiliser pour brainstormer des idées. L'outil vous permet de déplacer du texte produit par différents modèles, en choisissant les éléments que vous aimez et en les combinant en quelque chose de nouveau—en théorie. Springboards présente Flint comme un modèle alternatif que les utilisateurs de son outil peuvent sélectionner lorsqu'ils recherchent plus de variété.

Zoe Scaman, fondatrice de la startup de stratégie commerciale Bodacious et directrice de la stratégie chez 77X, une plateforme de marketing direct au fan créée par Luka Dončić des LA Lakers, l'a testé. “Je le trouve vraiment utile pour me diriger dans des directions complètement différentes,” dit-elle. “Je l'utilise si je veux me catapulter dans tous les sens.”

Dans un test, Scaman a opposé Flint à Claude, Gemini et ChatGPT en donnant à chacun des modèles une étude de cas classique de MBA : Comment réinventer une entreprise de finance pour la jeunesse d'aujourd'hui ? Les trois modèles traditionnels ont tous suivi le même chemin, dit-elle : “Vous savez, nous devons enseigner la littératie financière de manière amusante et funky—eh bien, ce n'est rien de nouveau.”

Mais Flint a proposé quelque chose de différent, suggérant que le concept même d'accumulation de richesse devrait être rebrandé. “C'était vraiment intéressant,” dit Scaman.

Elle note que Flint est encore un prototype et ne fonctionne pas tout le temps. “Il tombe parfois en panne lorsque vous commencez à le pousser trop loin,” dit-elle. “Mais je pense que le principe derrière est vraiment puissant.”

Prendre la température

Springboards a construit Flint sur la base de Qwen 3, un modèle open-source. “Nous sommes une petite équipe,” dit Browne. “Former un modèle de base n'est pas à notre portée. C'est tout simplement trop coûteux.”

La plupart des LLM ont des paramètres qui vous permettent d'ajuster le niveau de randomness dans leurs sorties. Le plus courant s'appelle température. “Évidemment, c'était l'une des premières choses que nous avons explorées, car c'est ce que les gens vous disent : Si vous voulez plus de créativité, vous augmentez la température,” dit Browne.

Mais changer ces paramètres peut également rendre les modèles incohérents. Augmenter la température au maximum sur l'un des modèles d'OpenAI a fait produire des réponses qui passaient de l'anglais au code en plein milieu d'une phrase, dit Browne.

Springboards a réalisé que les paramètres étaient des instruments trop grossiers pour ce qu'il voulait faire. Il n'est pas logique d'augmenter la randomisation de manière générale ; vous ne voulez l'augmenter qu'à des points spécifiques de sa sortie, dit-il.

Par exemple, lorsque vous demandez à un chatbot “Où devrais-je aller en Europe ?”, le modèle n'a besoin d'ajuster la randomisation qu'avant de nommer une destination, pas pour chaque mot de sa réponse.

Pour faire en sorte que Flint fonctionne ainsi, Springboards a entraîné sa version de Qwen 3 pour identifier les points de sa sortie où plus de variété était possible et remplir ces espaces avec des mots ou des phrases un peu plus aléatoires.

“Flint est programmé pour lancer une idée originale. C'est plus une invitation à penser plus largement,” dit Maximilian Weigl, cofondateur et directeur de la stratégie chez Uncommon, une agence de marketing. “C'est super intéressant.”

L'équipe de Weigl utilise Flint aux côtés de ChatGPT, Claude et Gemini. “Vous ne pouvez pas vraiment créer quelque chose de révolutionnaire avec des outils qui vous ramènent à la moyenne,” dit-il.

Et pourtant, Weigl note que neuf fois sur dix, la moyenne est suffisante. Vous n'avez pas toujours besoin d'atteindre des extrêmes avec quelque chose comme Flint, dit-il : “La plupart des gens se contentent de ce qui est suffisant. Ils veulent voir des choses familières et grand public.”

Weigl met également en garde contre l'utilisation excessive de tout LLM. “J'ai un gros problème quand les gens s'appuient sur les résultats d'une IA, y compris Flint,” dit-il. “Si je voyais des gens dans mon équipe copier-coller quelque chose d'une IA, je dirais : ‘Ce n'est pas votre travail ! Pensez, parlez à d'autres personnes, utilisez votre propre voix.’”

Pour l'instant, Flint est destiné aux annonceurs et aux marketeurs car ce sont les clients de Springboards. Mais Bingemann et Browne insistent sur le fait qu'un manque de variété est un problème pour quiconque utilise des chatbots.

L'idée est de donner aux gens le choix et de les laisser décider si le résultat est bon ou non, dit Bingemann. “La variété est géniale lorsque vous essayez de susciter des idées,” dit-il. “Allons dans cette direction au lieu de laisser les machines tout faire et de finir dans un monde gris et ennuyeux.”

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires