Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
LPM 1.0 : une avancée technologique majeure
Les chercheurs ont récemment dévoilé LPM 1.0, un modèle d'intelligence artificielle capable de générer des vidéos de personnages parlant, écoutant ou chantant, à partir d'une simple image. Ce modèle se distingue par sa capacité à synchroniser le discours avec les mouvements des lèvres, tout en intégrant des expressions faciales subtiles telles que l'hésitation ou les changements de regard, ainsi que des transitions émotionnelles fluides.
LPM 1.0 s'intègre directement avec des systèmes d'IA vocale comme ChatGPT, et il est compatible avec une large gamme de styles visuels, allant des visages photoréalistes aux personnages d'anime et de jeux vidéo en 3D. Le processus de génération vidéo fonctionne comme un flux en temps réel, permettant de créer des vidéos d'une durée allant jusqu'à 45 minutes.
Fonctionnalités innovantes de LPM 1.0
Le modèle LPM 1.0 traite simultanément le texte, l'audio et les images de référence pour produire un discours synchronisé sur les lèvres, accompagné d'expressions faciales subtiles et de transitions émotionnelles. Il peut se connecter à des modèles d'IA vocale tels que ChatGPT ou Doubao, créant ainsi un partenaire de conversation visuel en temps réel.
LPM 1.0 est conçu pour fonctionner avec différents styles d'images sans nécessiter de formation supplémentaire, générant des vidéos en tant que processus de streaming en temps réel plutôt que de produire une vidéo finie d'un seul coup. Le modèle utilise un procédé appelé "conditionnement d'identité multi-granularité". En plus de l'image principale, il reçoit des images de référence sous divers angles et avec différentes expressions faciales, ce qui lui permet d'extraire directement des détails comme les dents, les rides liées à des émotions spécifiques ou les vues de profil.
États conversationnels et comportements
LPM 1.0 reconnaît trois états conversationnels distincts. Lorsqu'il écoute, le modèle génère des expressions faciales réactives telles que des hochements de tête ou des changements de regard en réponse à l'audio entrant. Lorsqu'il parle, l'audio de réponse guide les mouvements des lèvres et le langage corporel.
Pendant les pauses, LPM 1.0 génère un comportement inactif naturel basé sur des instructions textuelles, ce qui ajoute une dimension réaliste à l'interaction.
Applications et perspectives d'avenir
Outre la conversation en temps réel, LPM 1.0 permet également la génération de vidéos hors ligne à partir d'audio existant, une fonctionnalité utile pour les podcasts ou les dialogues de films, selon la responsable de projet Ailing Zeng. Cela ouvre de nouvelles opportunités pour la création de contenu en dehors des discussions en direct. Bien que le contrôle d'entrée basé sur la vidéo ne soit pas inclus dans cette version, Zeng suggère que le cadre pourrait le supporter à l'avenir.
Limites et considérations éthiques
L'équipe de développement insiste sur le fait que LPM 1.0 est un projet de recherche pur. Il n'est pas prévu de publier les poids, le code ou une démo publique. Tous les visages présentés sont générés par l'IA, et non des personnes réelles. Les chercheurs reconnaissent que les vidéos générées contiennent encore des artefacts visibles, et une analyse quantitative a confirmé un écart notable par rapport à la qualité vidéo réelle.
L'équipe indique qu'elle ne considérerait l'ouverture d'accès que "si et quand des protections adéquates et des cadres d'utilisation responsable sont fermement en place." Bien que ce soit un projet de recherche, LPM 1.0 montre la direction que prennent les systèmes d'IA : des systèmes qui ne se contentent pas de communiquer par texte ou voix, mais qui apparaissent comme des personnages visuellement crédibles avec des expressions faciales, un contact visuel et des réactions émotionnelles. Cela pourrait s'avérer précieux pour l'éducation, les jeux, le service client ou les compagnons virtuels.
Cependant, cette technologie comporte des risques sérieux. Elle s'approche dangereusement d'une infrastructure de deepfake en temps réel que des acteurs malveillants pourraient exploiter pour la fraude, la manipulation ou l'imitation. Tous ces problèmes existent déjà, et ce qui se réduit, c'est la barrière à l'entrée. Les chercheurs précisent que le système n'est pas destiné à induire en erreur, tromper ou imiter des personnes réelles.