Reverse-SynthID - Le filigrane de Gemini mis à nu

Reverse-SynthID - Le filigrane de Gemini mis à nu
SynthID, le filigrane invisible que Google intègre dans chaque image Gemini, était censé être incassable. Cependant, un développeur a eu l'idée simple de générer des images noires et blanches avec Gemini, puis d'examiner ce qui restait dans le domaine fréquentiel. Et là, surprise... le watermark est apparu clairement avec toutes ses fréquences porteuses !
Le marquage IA de Google fonctionne en injectant de l'énergie à des fréquences bien précises dans le spectre de l'image via une transformation de Fourier. Le chercheur a identifié six fréquences porteuses principales, toutes avec une cohérence de phase supérieure à 99,9%. La particularité, c'est que ce motif est fixe. Il n'y a donc pas de message unique par image, ni de clé qui change... c'est simplement la même empreinte spectrale sur toutes les images générées par le modèle Gemini.
Une fois que vous avez profilé cette empreinte avec une cinquantaine d'images PNG de référence (25 noires et 25 blanches, générées via l'API Gemini), vous pouvez réaliser deux choses :
- D'abord, détecter le filigrane avec 90% de précision, sans avoir accès au code source de Google.
- Ensuite, le retirer en soustrayant les composantes spectrales identifiées, fréquence par fréquence, tout en préservant la qualité de l'image à plus de 40 dB PSNR. Visuellement, l'image reste identique à l'original !
La différence avec d'autres méthodes, qui "secouent" l'image de manière aveugle pour casser le watermark, est frappante. Reverse-SynthID est plutôt une approche minutieuse et ciblée. En conséquence, il y a clairement moins de dégradation et une diminution de la confiance du détecteur.
Cependant, j'ai implémenté cette méthode en Rust et j'ai testé son efficacité sur mes propres images générées avec Gemini. Malheureusement, le contournement ne fait PAS chuter la confiance du détecteur de 100 à 0, mais seulement de quelques pourcents. Le watermark est atténué, mais pas complètement effacé. Ce n'est donc pas un outil clé en main pour faire disparaître tous les filigranes SynthID en un clic.
Cela dit, le fait qu'une seule personne, avec du Python et du traitement de signal classique (FFT, filtres notch, soustraction spectrale), ait pu reverse-engineerer un système que Google présente comme LA solution anti-deepfakes... confirme ce que les chercheurs de l'Université de Waterloo avaient déjà démontré : le watermarking d'images IA est défaillant par conception.
D'ailleurs, Google en est conscient et pourrait changer le motif demain, rendant tout cela obsolète. Cela souligne surtout que le principe même du watermarking spectral a une date de péremption. En fin de compte, cela arrange tout le monde d'avoir une solution à montrer lorsque les gouvernements demandent "et contre les deepfakes, que faites-vous ?"
Enfin, si la petite étoile visible en bas à droite des images Gemini vous dérange (pas le watermark spectral invisible, juste le marqueur visuel), j'ai développé un outil pour mes Patreons qui s'en occupe, si le reverse-engineering de watermarks IA vous intéresse !
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.