Comment Descript permet le doublage vidéo multilingue à grande échelle
⚡ Résumé en français par Brief IA
📄 Article traduit en français
Comment Descript permet le doublage vidéo multilingue à grande échelle
Descript est un éditeur vidéo natif de l'IA construit autour d'une idée simple : si vous pouvez éditer du texte, vous devriez pouvoir éditer de la vidéo. Depuis ses débuts, l'IA a alimenté chaque aspect du produit : transcription, édition, nettoyage audio, et des flux de travail créatifs de plus en plus complexes. Ils se sont appuyés sur OpenAI pendant des années, utilisant Whisper pour la transcription et les modèles de la série GPT dans leur co-éditeur Underlord.
La traduction est rapidement devenue un cas d'utilisation à fort impact. Traditionnellement, la traduction de vidéos était lente et coûteuse, nécessitant des experts linguistiques pour gérer les projets, produire des traductions littérales, contrôler la qualité et générer l'audio correspondant. Les modèles de langage de grande taille (LLM) compressent considérablement ce flux de travail, rendant possible une traduction de haute qualité à grande échelle.
Les sous-titres et le doublage nécessitent tous deux une fidélité sémantique : la traduction doit préserver le sens original. Cependant, l'adhérence à la durée joue un rôle différent dans chaque cas. Pour les sous-titres, c'est un atout. Pour le doublage, c'est critique, car si le discours traduit est trop long ou trop court, cela sonnera de manière non naturelle, même si le sens est correct.
Pour y remédier, Descript a redessiné son pipeline de traduction en utilisant des modèles de raisonnement d'OpenAI pour optimiser la fidélité sémantique et l'adhérence à la durée pendant la génération, et non après. Dans les 30 premiers jours suivant le déploiement, les exportations de vidéos traduites avec doublage ont augmenté de 15%, et l'adhérence à la durée s'est améliorée de 13 à 43 points de pourcentage, selon la langue.
« Le doublage est un cas d'utilisation de plus en plus populaire pour Descript, nous développons donc des moyens de le faire en lot pour les entreprises qui souhaitent traduire et synchroniser labialement des bibliothèques entières », a déclaré Laura Burkhauser, PDG.
Où le doublage a commencé à poser problème
La traduction était l'une des premières fonctionnalités demandées par Descript. Ils ont commencé par la traduction uniquement des sous-titres, ce qui fonctionnait bien, mais de nombreux utilisateurs souhaitaient aller plus loin et avoir un audio parlé (doublage) dans la langue cible.
Cependant, un problème récurrent est apparu : l'audio doublé ne sonnait pas toujours correctement. « Probablement la principale plainte que nous avons entendue était que le rythme de la parole était non naturel dans la langue traduite », a déclaré Aleks Mistratov, responsable du produit IA chez Descript.
Le problème venait du fait que différentes langues prennent des durées différentes pour exprimer la même idée. Descript a observé, par exemple, qu'en moyenne, l'allemand est une langue « plus longue » que l'anglais. Pour s'adapter à des segments vidéo fixes, le discours traduit devait souvent être artificiellement accéléré ou ralenti. « Vous finissiez avec quelque chose qui sonnait comme des écureuils, ou un géant endormi », a expliqué Mistratov.
-
Anglais :
« Please review the safety guidelines before operating the machine. »
Syllabes : 18 -
Allemand :
« Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen. »
Syllabes : 24 (augmentation de 40%)
Dans ce cas, l'audio allemand devait soit être accéléré de manière non naturelle, soit la traduction devait être réécrite pour respecter le budget temporel.
Les utilisateurs avaient deux options : retimer manuellement le segment audio, ou réécrire la traduction elle-même pour qu'elle s'adapte. Les deux approches nécessitaient des modifications profondes de la chronologie et, souvent, une maîtrise quasi-native de la langue cible. Cela devenait fastidieux pour les créateurs et constituait un obstacle à l'extension de la fonctionnalité pour de grands projets de localisation d'entreprise.
Optimiser les traductions pour le timing, pas seulement pour le sens
L'équipe avait une théorie claire sur ce qu'il faudrait pour faire fonctionner le doublage. Le système devait non seulement optimiser le sens sémantique, mais aussi être conscient des contraintes de timing. Lors de la traduction de l'anglais vers l'allemand, par exemple, le modèle devait comprendre comment utiliser moins de mots ou simplifier le concept, afin que l'audio doublé reste naturel.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.