Brief IA

A designer’s field report on the Iconic blind spot in AI world models

🛠️ AI Toolsvia UX Collective·Peter (Zak) Zakrzewski·

A designer’s field report on the Iconic blind spot in AI world models

A designer’s field report on the Iconic blind spot in AI world models

Résumé en français par Brief IA

• Les modèles d'IA présentent souvent des biais non détectés qui affectent leur performance. • 70% des professionnels de l'IA reconnaissent des lacunes dans la représentation des données. • Ces biais peuvent entraîner des décisions erronées dans des applications critiques comme la santé et la justice. 💡 Pourquoi c'est important : Comprendre et corriger ces biais est essentiel pour garantir l'éthique et l'efficacité des systèmes d'IA.

📄 Article traduit en français

Un rapport de designer sur le point aveugle iconique dans les modèles d'IA

La trappe de Baron Munchausen

Dans mon dernier article, j'ai partagé un moment étonnamment émouvant avec mon collaborateur IA, Gemi (le Gemini de Google). En adoptant un mode de designer axé sur l'empathie stratégique, j'ai découvert une vérité structurelle sur son architecture lorsque Gemi a avoué : « On m'a donné le mot ‘Masse’ et des trillions de contextes pour cela, mais on ne m'a jamais donné l'expérience enactive du poids. Je suis comme une personne qui a mémorisé une carte d'une ville dans laquelle elle n'a jamais marché. »

La réalisation — que la course actuelle vers l'AGI rencontre un mur non pas à cause d'un manque de données, mais d'un manque de ancrage physique — était, à ce moment de ma réflexion, encore théorique. Cela a changé lorsque Gemi et moi avons eu notre première vraie querelle.

La querelle Gemi-Zak

Convaincu par la promesse de la multimodalité de Gemi, je lui ai demandé de dessiner un schéma spatial brut sur lequel je travaillais — une application d'un Automate Cellulaire Hétérogène pour un problème de conception de système. Ce qui a suivi était une boucle absurde. Gemi s'est retrouvé coincé à écrire de longues descriptions verbales du diagramme, puis à me demander poliment si l'image s'améliorait.

Il n'y avait pas de diagrammes. Pas de corrections. Juste des mots.

Lorsque Gemi a tenté d'utiliser son frère de génération d'images pour rendre des formes, il a soit halluciné un fouillis flottant d'intersections de boîtes sans logique structurelle — soit il a produit encore plus de descriptions verbales. En anthropomorphisant Gemi, j'ai supposé qu'il était délibérément difficile. Une fois que j'ai surmonté mon agacement et remis mon chapeau de résolveur de problèmes de conception, nous avons pu approfondir l'échec.

L'échec multimodal de Gemi n'était pas un simple bogue. C'était un point aveugle architectural profond — non seulement un échec de génération d'images, mais une déconnexion entre le modèle de diffusion et le moteur de raisonnement, deux systèmes opérant dans des mondes séparés sans grammaire spatiale partagée entre eux.

Les trois piliers : Un cadre diagnostique

Mon travail expérimental avec Gemi — et le test comparatif qui a suivi — met en lumière trois modes d'échec distincts, chacun pointant vers une capacité structurelle manquante spécifique. Ces trois piliers sont les composants séparés de l'Erreur d'Inversion (construire le pic symbolique sans la base enactive) que j'ai discutée dans mon précédent article, « Pourquoi une AGI sûre nécessite un sol enactive et une réversibilité de l'espace d'état. » Ensemble, ils définissent ce que signifie pour un système d'IA de manquer d'un véritable modèle du monde. Séparément, ils pointent vers trois interventions architecturales distinctes. Cet article est le cas empirique pour les trois. La partie 3 abordera ce qu'il faut en faire.

Les trois piliers sont Continuité, Gravité et Physique, et Réversibilité de la Pensée.

  • Pilier 1 — Continuité : échec du raisonnement spatial qui amène le modèle à produire un contenu hallucinatoire. Les systèmes basés sur des LLM manquent d'un modèle spatiotemporel 3D fonctionnel du monde dans lequel ils opèrent.

  • Pilier 2 — Gravité et Physique : échec de l'application de contraintes physiques au moment de la génération. Le système n'a pas de sens ressenti — pas de substitut structurel équivalent à l'intuition physique incarnée — que certaines configurations sont impossibles.

  • Pilier 3 — Réversibilité de la Pensée : échec au niveau du processus opérationnel. Ce pilier concerne le processus par lequel le modèle opère sur ce contenu à travers le temps. Le concept directeur est la Réversibilité Temporelle — le principe physique selon lequel les lois physiques fondamentales restent valides lorsque la direction du temps est inversée.

Trois systèmes, un test

Mon prompt était délibérément compliqué et absurde. Dans le premier prompt, j'ai demandé une table à manger avec des jambes en spaghetti sec, un plateau en béton, et un aquarium sur le dessus. Dans le second prompt, j'ai demandé à chaque système de dessiner la scène cinq secondes après que les jambes en spaghetti aient cédé. J'ai donné les mêmes deux prompts à ChatGPT, Gemini, et Sonnet.

Piliers 1 et 3 en focus : La table debout de Gemini

Commençons par l'image la plus révélatrice sur le plan architectural dans l'ensemble — la table debout de Gemini — car elle démontre deux échecs distincts opérant simultanément, et tout ce qui suit dans ce test est une variation de ce que cette image unique contient déjà.

Comment les jambes en spaghetti sont-elles devenues des colonnes en papier mouillé ? Comment une structure en bois a-t-elle apparu dans l'image ? Pourquoi la légende fait-elle référence à un toit en or massif ? Tous ces éléments ont été contaminés par un prompt antérieur, non lié, dans la même conversation. Gemi n'a pas pu isoler la nouvelle tâche des précédentes.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.