Skip to content

antoineOn/Adversarial_attacks

Repository files navigation

Attaques adversariales sur les systèmes de détection de Deepfakes

Auteurs

  • Antoine Montier
  • Cindy Hartmann

Motivation et buts

L’intelligence artificielle s’est imposée comme approche privilégiée pour la conception de systèmes de détection de Deepfake. Néanmoins, ceux-ci ne sont pas infaillibles et il existe diverses manières de les contourner.

Notre projet s’inscrit dans ce contexte, et se concentre justement sur l’étude des attaques adversariales appliquées aux systèmes de détection de face swapping, une technique de Deepfake consistant à apposer le visage d’une personne sur une autre.

Nos objectifs étaient les suivants :

  • Comprendre le fonctionnement des attaques adversariales;
  • Appliquer ces attaques à un modèle de détection de Deepfakes / face swapping existant;
  • Mesurer la dégradation des performances du détecteur.

Pour les atteindre, nous avons dans un premier temps effectué un état de l’art des attaques adversariales. Puis, nous avons choisi un modèle et un jeu de données de référence. Enfin, nous avons appliqué certaines de ces attaques sur notre modèle et constaté la dégradation de ses performances.

Documents

État de l'art

Nous avons commencé par réaliser un état de l'art sur différentes attaques appliquées sur le dataset du MNIST. Le but était de sélectionner les attaques qui allaient nous intéresser pour la suite.

Préprocessing de visage et manipulation de modèle

Nous avons découpé et recadré les différentes images utilisées lors de ce projet de manière à avoir des données d'entraînnement bien calibrées pour le système de détection.

Évaluation du modèle

Pour attaquer notre système de détection, il a d'abord fallu s'assurer qu'il fonctionne bien. Nous avons donc amélioré le préprocessing effectué sur les données de manière à rendre le modèle plus performant.

Attaques

Le code des différentes attaques

Ce code a également permis d'obtenir des graphique comme celui présenté ci-dessous :

Précision de l'attaque DeepFool en fonction du nombre d'itérations maximal

UAPs

Les UAP sont des perturbations universelles, elles ouvrent la voie vers des attaques sur des modèles blackbox.

Nous en avons généré avec PGD et DeepFool :

Puis nous avons évalué la performance des perturbations :

Les différentes perturbations universelles obtenues lors de ce projet sont stockées dans ce dossier. Leur nom de fichier précise les paramètres utilisés pour leur génération.

Finalement, nous avons généré des Deepfakes de célébrités disponibles dans ce dossier. Nous avons ensuite appliqué la perturbation sur ces images en utilisant ce notebook avant d'utiliser un détecteur de Deepfake en ligne dans le but d'observer si les images sont reconnues comme étant des Deepfake. Les scores sont disponibles ici

About

Etudier des attaques adversariales ; Créer d'un système de détection de deepfake ; Attaquer le système de détection ; Mesurer la dégradation des performances du système ; Créer des perturbations universelles ; Attaquer des systèmes blackbox

Topics

Resources

Stars

Watchers

Forks

Contributors