Brief IA : LPM 1.0 : l'IA qui révolutionne la vidéo synchronisée en temps réel

LPM 1.0 : l'IA qui révolutionne la vidéo synchronisée en temps réel

Brief IA
Tom Levy·4 min·2 vues

LPM 1.0 est un modèle d'IA capable de générer en temps réel une vidéo synchronisée labiale d'un personnage parlant à partir d'une seule photo, avec des vidéos pouvant durer jusqu'à 45 minutes. Cette avancée, qui permet de créer des contenus numériques et des animations en temps réel, représente une évolution significative par rapport aux technologies existantes.

En bref
1LPM 1.0 génère des vidéos de 45 minutes à partir d'une seule photo, avec synchronisation labiale et expressions faciales.
2Le modèle s'intègre à ChatGPT et fonctionne avec divers styles visuels, y compris l'anime et les jeux vidéo.
3Bien que prometteur, LPM 1.0 présente des artefacts visuels et soulève des questions éthiques sur les deepfakes.
💡Pourquoi c'est importantCette avancée technologique pourrait transformer l'interaction numérique, mais elle pose aussi des risques de manipulation et de fraude.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

LPM 1.0 : une avancée technologique majeure

Les chercheurs ont récemment dévoilé LPM 1.0, un modèle d'intelligence artificielle capable de générer des vidéos de personnages parlant, écoutant ou chantant, à partir d'une simple image. Ce modèle se distingue par sa capacité à synchroniser le discours avec les mouvements des lèvres, tout en intégrant des expressions faciales subtiles telles que l'hésitation ou les changements de regard, ainsi que des transitions émotionnelles fluides.

LPM 1.0 s'intègre directement avec des systèmes d'IA vocale comme ChatGPT, et il est compatible avec une large gamme de styles visuels, allant des visages photoréalistes aux personnages d'anime et de jeux vidéo en 3D. Le processus de génération vidéo fonctionne comme un flux en temps réel, permettant de créer des vidéos d'une durée allant jusqu'à 45 minutes.

Fonctionnalités innovantes de LPM 1.0

Le modèle LPM 1.0 traite simultanément le texte, l'audio et les images de référence pour produire un discours synchronisé sur les lèvres, accompagné d'expressions faciales subtiles et de transitions émotionnelles. Il peut se connecter à des modèles d'IA vocale tels que ChatGPT ou Doubao, créant ainsi un partenaire de conversation visuel en temps réel.

LPM 1.0 est conçu pour fonctionner avec différents styles d'images sans nécessiter de formation supplémentaire, générant des vidéos en tant que processus de streaming en temps réel plutôt que de produire une vidéo finie d'un seul coup. Le modèle utilise un procédé appelé "conditionnement d'identité multi-granularité". En plus de l'image principale, il reçoit des images de référence sous divers angles et avec différentes expressions faciales, ce qui lui permet d'extraire directement des détails comme les dents, les rides liées à des émotions spécifiques ou les vues de profil.

États conversationnels et comportements

LPM 1.0 reconnaît trois états conversationnels distincts. Lorsqu'il écoute, le modèle génère des expressions faciales réactives telles que des hochements de tête ou des changements de regard en réponse à l'audio entrant. Lorsqu'il parle, l'audio de réponse guide les mouvements des lèvres et le langage corporel.

Pendant les pauses, LPM 1.0 génère un comportement inactif naturel basé sur des instructions textuelles, ce qui ajoute une dimension réaliste à l'interaction.

Applications et perspectives d'avenir

Outre la conversation en temps réel, LPM 1.0 permet également la génération de vidéos hors ligne à partir d'audio existant, une fonctionnalité utile pour les podcasts ou les dialogues de films, selon la responsable de projet Ailing Zeng. Cela ouvre de nouvelles opportunités pour la création de contenu en dehors des discussions en direct. Bien que le contrôle d'entrée basé sur la vidéo ne soit pas inclus dans cette version, Zeng suggère que le cadre pourrait le supporter à l'avenir.

Limites et considérations éthiques

L'équipe de développement insiste sur le fait que LPM 1.0 est un projet de recherche pur. Il n'est pas prévu de publier les poids, le code ou une démo publique. Tous les visages présentés sont générés par l'IA, et non des personnes réelles. Les chercheurs reconnaissent que les vidéos générées contiennent encore des artefacts visibles, et une analyse quantitative a confirmé un écart notable par rapport à la qualité vidéo réelle.

L'équipe indique qu'elle ne considérerait l'ouverture d'accès que "si et quand des protections adéquates et des cadres d'utilisation responsable sont fermement en place." Bien que ce soit un projet de recherche, LPM 1.0 montre la direction que prennent les systèmes d'IA : des systèmes qui ne se contentent pas de communiquer par texte ou voix, mais qui apparaissent comme des personnages visuellement crédibles avec des expressions faciales, un contact visuel et des réactions émotionnelles. Cela pourrait s'avérer précieux pour l'éducation, les jeux, le service client ou les compagnons virtuels.

Cependant, cette technologie comporte des risques sérieux. Elle s'approche dangereusement d'une infrastructure de deepfake en temps réel que des acteurs malveillants pourraient exploiter pour la fraude, la manipulation ou l'imitation. Tous ces problèmes existent déjà, et ce qui se réduit, c'est la barrière à l'entrée. Les chercheurs précisent que le système n'est pas destiné à induire en erreur, tromper ou imiter des personnes réelles.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires