Midjourney V8 : une génération 5 fois plus rapide mais des coûts 4 fois plus élevés pour ses meilleures fonctionnalités
Midjourney a lancé une version préliminaire de son modèle V8 pour des tests communautaires, avec une génération d'images environ cinq fois plus rapide qu'auparavant et un nouveau mode --hd qui rend les images nativement en résolution 2K.
Le modèle mis à jour est censé suivre les instructions détaillées de manière plus précise, produire des images plus cohérentes et gérer le rendu de texte au sein des images de manière plus fiable que son prédécesseur.
Malgré ces améliorations, Midjourney V8 reste un modèle basé sur la diffusion à 1000% et n'atteint toujours pas les approches autoregressives en ce qui concerne l'adhérence précise aux prompts.
Midjourney a mis à disposition une version préliminaire de son modèle V8 pour des tests sur le site Alpha, demandant à la communauté de l'essayer et de partager ses retours. L'entreprise qualifie ce modèle de fondamentalement nouveau, avec ses propres forces et faiblesses, et qui pourrait nécessiter des stratégies de prompt entièrement nouvelles.
La génération d'images est environ cinq fois plus rapide qu'auparavant, selon Midjourney. La mise à jour introduit également un nouveau mode --hd qui génère des images nativement en résolution 2K, ainsi qu'un mode --q 4 pour une meilleure cohérence des images. V8 prend en charge plusieurs rapports d'aspect et des paramètres tels que --chaos, --weird, --exp, et --raw. Les profils de personnalisation, moodboards et références de style du V7 devraient être compatibles et se transférer.
Midjourney affirme que V8 est nettement meilleur pour suivre des instructions détaillées. La compréhension des esthétiques individuelles à travers la personnalisation, les références de style et les moodboards s'est considérablement améliorée, et les images générées sont plus cohérentes et détaillées. Le rendu de texte—insérer du texte lisible dans les images générées—fonctionne également de manière plus fiable que dans les versions précédentes, tant que les utilisateurs entourent le texte souhaité de guillemets dans le prompt, selon l'entreprise.
Le modèle de diffusion rencontre des difficultés avec des prompts complexes
Cela dit, en tant que modèle basé uniquement sur la diffusion, Midjourney reste en retrait par rapport à des concurrents qui ont commencé à intégrer des composants autoregressifs dans leurs pipelines de génération d'images. Des modèles comme Nano Banana de Google et GPT image 1.5 d'OpenAI utilisent ces architectures hybrides pour améliorer la précision des prompts, et la différence est évidente avec les anciens modèles de Midjourney.
Les premiers signes suggèrent que V8 n'a pas encore complètement comblé cet écart, bien qu'il soit trop tôt pour en être certain. Lors d'un test initial utilisant un prompt complexe d'astronaute, qui est devenu une sorte de référence informelle, Midjourney a obtenu des résultats nettement moins bons que les modèles AR. Le concept abstrait—un cheval montant un astronaute, et non l'inverse—est quelque chose que Midjourney n'a tout simplement pas réussi à réaliser. Même le concurrent plus direct de Midjourney, Flux, a fait un travail légèrement meilleur. À mesure que de plus en plus de générateurs d'images adoptent ces architectures mixtes, la stratégie uniquement basée sur la diffusion de Midjourney pourrait devenir de plus en plus difficile à vendre pour les utilisateurs qui ont besoin d'un contrôle précis des prompts.
Des fonctionnalités premium quatre fois plus chères sans mode relax à son lancement
Les tarifs risquent de faire mal à certains utilisateurs. Midjourney indique que les travaux utilisant --hd, --q 4, des références de style ou des moodboards sont actuellement quatre fois plus lents que les travaux standard et coûtent quatre fois plus cher. Le mode relax, une option populaire qui permet aux utilisateurs de générer des images plus lentement sans coût supplémentaire, n'est pas disponible au lancement. Midjourney affirme qu'il construit un nouveau cluster de serveurs pour le mode relax et travaille sur des modes de rendu moins chers.
