Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
L'IA émotionnelle : une technologie en pleine expansion
Imaginez-vous en pleine réunion virtuelle, où un système d'intelligence artificielle (IA) est en train d'analyser chaque nuance de votre conversation. Vous avez travaillé dur, jonglant avec des délais serrés, et lorsque votre responsable vous demande comment vous allez, vous répondez par un "ça va" accompagné d'un sourire. Pourtant, votre voix trahit une légère hésitation, et vos épaules s'affaissent imperceptiblement. Ces signaux subtils, qui pourraient indiquer un stress latent à un observateur humain, risquent de passer inaperçus pour un modèle d'IA qui se contente de catégoriser les émotions en termes simples comme « heureux » ou « triste ». Sans l'intervention d'un manager humain, votre fatigue et votre éventuel épuisement pourraient ne jamais être pris en compte.
L'IA émotionnelle, qui tente de déduire les sentiments des gens à partir de leurs expressions faciales, du ton de leur voix et de leur comportement, est de plus en plus présente dans divers domaines. Elle est utilisée pour le bien-être des employés, lors des entretiens d'embauche, sur les plateformes éducatives, et même dans les systèmes de surveillance des conducteurs. Des entreprises technologiques comme NiCE et Genesys intègrent l'IA pour détecter quand un client est frustré, incitant les agents à ajuster leur réponse en conséquence. Des géants comme Meta et des startups telles que Hume AI développent des systèmes vocaux plus expressifs capables de détecter des indices émotionnels et d'adapter leur communication.
Par ailleurs, des centaines d'entreprises proposent des applications de compagnonnage virtuel par IA, un secteur en pleine croissance qui pourrait atteindre une valeur de 555 milliards de dollars d'ici 2035. Les robots compagnons, comme ElliQ d'Intuition Robotics, sont conçus pour interagir avec des personnes âgées afin de réduire leur solitude.
Cependant, malgré les progrès rapides de l'IA émotionnelle, la plupart des systèmes actuels se concentrent sur la détection d'un nombre limité de signaux pour étiqueter une émotion spécifique. Ce cadre est insuffisant pour comprendre la complexité des émotions humaines, qui sont contextuelles et évolutives. Un rire peut signifier de la joie ou de la nervosité, une voix élevée peut traduire de l'enthousiasme ou de la frustration. Les réactions émotionnelles varient également selon les individus, influencées par des facteurs démographiques, culturels et contextuels.
En somme, il existe un écart entre les attentes placées dans l'IA et ce qu'elle peut réellement accomplir. C'est cet écart que cherche à combler un nouveau domaine de recherche, l'IA contextuelle humaine. Plutôt que de se limiter à une seule entrée, cette approche évalue la personnalité et le caractère d'un individu, suivant les émotions en temps réel à travers une combinaison de signaux faciaux, vocaux, linguistiques et comportementaux. Les réponses sont analysées dans le contexte d'un environnement spécifique, comme un entretien ou une séance de coaching, permettant aux ordinateurs de lire la scène plutôt que de se limiter à l'écran.
Les débuts de l'IA émotionnelle
L'idée d'une IA capable de détecter les émotions remonte à près de trois décennies, au MIT Media Lab, où Rosalind Picard, ingénieure électricienne et informaticienne, a introduit le concept d'« informatique affective ». Son travail a ouvert la voie à l'idée que les ordinateurs pourraient être formés pour reconnaître et répondre aux émotions humaines.
Les premières expériences de Picard se concentraient sur des modalités uniques telles que les expressions faciales, le ton de la voix et les signaux physiologiques comme la conductance de la peau ou le rythme cardiaque. L'objectif était de donner aux machines une fenêtre sur les sentiments humains, les rendant ainsi plus empathiques. Cependant, à l'époque, la technologie et la science n'étaient pas encore prêtes. La puissance de calcul était limitée, les capteurs étaient rudimentaires, et les ensembles de données étaient étroits et biaisés.
Au fil des décennies, les chercheurs et les entreprises ont amélioré leur capacité à mesurer les diverses expressions humaines. Dans les années 2010, l'analyse des sentiments, qui consiste à traiter de grands volumes de texte pour y déceler des sous-entendus émotionnels, a commencé à se populariser. Simultanément, des entreprises de marketing, y compris Neurologyca, ont commencé à utiliser des vidéos et des webcams pour mesurer et cataloguer les réactions des clients. Les dispositifs biométriques et les traqueurs d'activité, tels que les Fitbits et les Apple Watch, sont devenus omniprésents, générant de nouveaux flux de données sur le sommeil, le nombre de pas, les niveaux de stress, et plus encore.
Sans surprise, les scientifiques ont rapidement confirmé que des volumes de données personnalisées plus importants conduisaient à une plus grande précision dans la lecture des émotions humaines. En 2019, des chercheurs de Cornell ont démontré que la combinaison de plusieurs types de signaux améliore la détection des émotions. Leur système a associé des données physiologiques, telles que l'activité cérébrale mesurée par électroencéphalographie (EEG) et le rythme cardiaque, avec des indices visuels comme les expressions faciales, surpassant les systèmes reposant sur une seule entrée. À peu près à la même époque, Picard et son équipe au MIT ont découvert que des robots humanoïdes formés sur des données spécifiques à une personne étaient nettement meilleurs pour lire les réactions et les sentiments de cette personne que des robots agissant sans données personnalisées.
Des études plus récentes confirment ces résultats. En 2024, des scientifiques en Corée du Sud ont montré que la fusion de données physiologiques, environnementales et personnelles pour reconnaître les émotions entraînait une réduction d'erreur de 32 %. Un autre article, publié en 2025, a démontré que les informations spécifiques à l'utilisateur amélioraient considérablement les performances de reconnaissance des émotions.
Aujourd'hui, nos appareils savent qui nous sommes ; nos habitudes et tendances, nos goûts et nos aversions. Ils sont également devenus plus petits et plus efficaces. De minuscules caméras et microphones à faible consommation d'énergie intégrés dans les téléphones, ordinateurs portables et dispositifs de réalité virtuelle et augmentée peuvent détecter simultanément des dizaines de signaux humains, des mouvements oculaires et micro-expressions aux rythmes respiratoires, modulation de la voix et posture. Les avancées en informatique ont également rendu possible l'intégration de données audio, vidéo, biométriques et textuelles, souvent sans même transmettre de données brutes vers le cloud. Des chercheurs de Stanford, de Cambridge et du MIT, ainsi que de l'Université de Kyoto au Japon, ainsi que du Collège des logiciels de l'Université du Nord-Est en Chine, explorent comment la fusion de ces entrées peut affiner la sensibilité et la précision des interactions homme-machine.
Et pourtant, malgré tant de percées, les machines ne peuvent toujours pas interpréter de manière fiable les émotions ou même le stress physique. L'année dernière, une enquête publiée dans le Journal of Psychopathology and Clinical Science a révélé que les scores de stress sur les montres intelligentes correspondaient rarement, voire jamais, au niveau de stress que les utilisateurs ressentaient. En fait, un quart des personnes interrogées ont déclaré ressentir l'exact opposé de ce que leurs montres intelligentes rapportaient.
Pourquoi ce décalage ? Nous avons très bien réussi à capturer des signaux, mais pas à les interpréter. Un traqueur de fitness pourrait inférer à partir de votre rythme cardiaque que vous êtes stressé et recommander de réduire l'entraînement, mais il ne sait pas si votre rythme cardiaque accru est dû à l'excitation, à la fatigue ou à une tasse de café supplémentaire. Évaluer les émotions dans des contextes réels est encore plus difficile. Pour résoudre ce problème complexe, les machines ont besoin de contexte.
De la neuromarketing à l'IA de détection des émotions
Ma société, Neurologyca, a été fondée en Espagne en 2015 et a commencé dans le domaine du neuromarketing. En travaillant avec de grandes marques et conglomérats européens, notre cofondateur, Juan Graña, a réalisé que les entreprises manquaient de données solides sur les consommateurs. À l'époque, la plupart des retours clients provenaient d'enquêtes, posant des questions telles que : « Sur une échelle de 1 à 10, à quel point cette publicité automobile vous rend-elle joyeux ? » ou « Quel emoji décrit le mieux votre humeur ? » Naturellement, ces outils trop simplistes ont conduit à des niveaux élevés de biais d'auto-évaluation, car les gens jugent souvent mal ou déclarent mal leurs propres réactions.
Pour contourner ce problème, Neurologyca a mis en place des laboratoires, utilisant les neurosciences et les sciences cognitives pour capturer plus précisément les réponses humaines aux produits, logos, publicités et expériences. En plus d'utiliser des outils biométriques tels que des moniteurs cardiaques, des traqueurs oculaires et des EEG, nous avons enregistré des millions de cadres vidéo de réactions humaines, notant chaque contexte spécifique et les mouvements faciaux et corporels qui en résultaient. Pour ce faire, nous avons cartographié plus de 790 points de référence, y compris les coins de la bouche, la taille des yeux et des pupilles, le taux de clignement et l'inclinaison de la tête. Toutes ces données ont été collectées et stockées anonymement sous des normes strictes de confidentialité européennes.
Ensuite, nous avons associé ces informations aux résultats d'études de neurosciences et de sciences comportementales sur la façon dont les biométriques, les schémas de parole et le mouvement humain sont liés aux émotions — des recherches que nous continuons à rassembler auprès d'institutions académiques à travers l'Europe. Nous avons également créé une base de données de contextes situationnels — par exemple, « regarder une publicité pour de la nourriture pour chiens » ou « écouter une nouvelle chanson » — et les sentiments humains qu'ils engendraient.
Dans notre travail avec les entreprises, non seulement cette approche nous a permis de reconnaître des émotions nuancées, mais elle nous a également permis d'identifier quelles réactions indiquaient des résultats positifs ou négatifs. Prenons, par exemple, le contexte des bandes-annonces de films d'horreur : notre recherche nous a aidés à comprendre que les plus réussies suscitent un mélange très spécifique d'émotions, à savoir un peu de peur, un peu d'anxiété, mais aussi un peu de joie. Avec cette connaissance, nous pouvions rapidement évaluer les réactions des spectateurs pour aider une société de production à ajuster sa bande-annonce pour obtenir l'impact souhaité.
Au bout de quelques années, nous avons découvert qu'un modèle entraîné sur notre base de données pouvait évaluer les émotions avec précision en utilisant simplement une webcam. Nous n'avions plus besoin d'organiser des groupes de discussion dans des salles remplies d'équipements. Au lieu de cela, nous avons pu faire des choses telles que l'envoi d'un nouvel échantillon de parfum à des participants payés à travers le monde avec un lien. Lorsque les gens ouvraient le lien, cela activait leurs caméras, nous permettant d'enregistrer leurs visages alors qu'ils reniflaient le parfum pour la première fois. Soudain, nous avions élargi notre compréhension des émotions humaines.
