Brief IA : Netflix dévoile VOID : l'IA qui efface et réécrit la physique vidéo

Netflix dévoile VOID : l'IA qui efface et réécrit la physique vidéo

Brief IA
Tom Levy·2 min·11 vues

Netflix a développé VOID, un cadre d'intelligence artificielle capable de retirer des objets des vidéos tout en ajustant les effets physiques associés. Ce projet, construit sur le modèle CogVideoX d'Alibaba et affiné avec des données de Google et Adobe, est désormais open-source et disponible sur GitHub. Cette innovation pourrait transformer la production vidéo en simplifiant les effets spéciaux et en réduisant les coûts.

En bref
1Netflix a lancé VOID, un cadre d'IA qui supprime des objets vidéo tout en ajustant les effets physiques résiduels.
2VOID utilise le modèle CogVideoX d'Alibaba et intègre des données de Kubric et HUMOTO pour une détection précise.
3Le projet, en collaboration avec INSAIT Sofia University, est accessible sur GitHub et sous licence Apache 2.0 pour un usage commercial.
💡Pourquoi c'est importantCette technologie pourrait révolutionner le montage vidéo en automatisant des tâches complexes, rendant le processus plus rapide et accessible.
Le brief IA que lisent les pros

Tu codes avec l’IA ?

Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Netflix a récemment mis à disposition du public un cadre d'intelligence artificielle nommé VOID (Video Object and Interaction Deletion). Ce système se distingue par sa capacité à supprimer des objets de vidéos tout en ajustant automatiquement les effets physiques que ces objets exerçaient sur la scène environnante. En d'autres termes, VOID ne se contente pas d'effacer un objet, il modifie également les interactions physiques, comme les collisions, que cet objet avait initialement provoquées.

Le développement de VOID repose sur le modèle de diffusion vidéo CogVideoX d'Alibaba. Ce modèle a été affiné grâce à des données synthétiques issues de Kubric de Google et de HUMOTO d'Adobe, qui sont utilisées pour la détection des interactions. Gemini 3 Pro de Google joue un rôle crucial en analysant la scène pour identifier les zones affectées, tandis que SAM2 de Meta est chargé de la segmentation des objets à retirer. Pour parfaire le résultat, un second passage optionnel utilise le flux optique afin de corriger d'éventuelles distorsions de forme.

Ce projet a été mené par des chercheurs de Netflix en collaboration avec l'INSAIT Sofia University. Les ressources liées à VOID, incluant le code source, un article détaillé et une démonstration, sont disponibles sur des plateformes telles que GitHub, arXiv et Hugging Face. Le système est distribué sous la licence Apache 2.0, autorisant ainsi son utilisation à des fins commerciales.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires