Sous la poussière des obus, Douma s’efface. À travers les ruelles de cette ville syrienne située au nord-est de Damas, la capitale, ce qui n’est pas parti en fumée disparaît derrière un épais brouillard. Par endroits, les monceaux de gravats sourdent à la lueur des flammes. À l’intérieur de l’hôpital, l’ambiance est plus irrespirable encore. Les enfants réunis ici en urgence reçoivent de l’eau et des masques à oxygène. Ce 7 avril 2018, les rebelles perdent la ville. Le lendemain, ils diffusent ces images terribles pour attester l’utilisation d’armes chimiques par le régime de Bachar el-Assad. « Mise en scène », se récrie l’allié russe de Damas, alors que les États-Unis affirment détenir des preuves que la « ligne rouge » tracée par Barack Obama a bien été franchie. L’ex-président avait promis qu’il interviendrait le cas échéant. Il a finalement décidé de ne rien décider, là où son successeur ordonnera des frappes.

Dix jours plus tard, Buzzfeed publie une vidéo inédite dans laquelle le premier donne justement son avis sur le second. « Donald Trump is a complete dipshit », ose Barack Obama depuis la Maison Blanche. Jamais une insulte aussi franche n’avait été prononcée par un chef d’Etat américain. Sauf que cette déclaration n’existe pas. En fait, avec l’aide du comédien Jordan Peele, le site américain a retouché une allocution d’Obama de manière à changer sa voix et modifier le mouvement de ses lèvres. C’est un avertissement. « Nous entrons dans une ère où nos ennemis peuvent faire dire ce qu’ils veulent à quiconque », prévient Buzzfeed. En ces temps de guerre de l’information, authentifier une vidéo du conflit syrien relève déjà de la gageure. Mais si même les déclarations sont falsifiables, la vérité risque de s’effacer avec Douma.

Dans les profondeurs du faux

Buzzfeed a utilisé un programme baptisé FakeApp, qui donne la possibilité aux particuliers de concevoir des vidéos dites « deepfake ». À partir de deux séquences, son intelligence artificielle extrait des centaines d’images au sein desquelles elle identifie les visages. Leurs éclairages et expressions sont analysées. Après quoi, ils sont fondus l’un avec l’autre. En 2017, des chercheurs de l’Université de Washington avaient conçu un autre outil baptisé Siggraph afin mettre des mots dans la bouche de Barack Obama. Une équipe allemande dirigée par Matthias Nießner en a fait de même avec George W. Bush. Son programme s’appelle Face2Face « Nous avons développé une approche de « synthèse par l’analyse » qui reconstruit un visage en 3D », décrit un de ses membres, Justus Thies. « On peut ensuite lui appliquer les expressions de quelqu’un d’autre facilement. » Le géant du logiciel Adobe travaille lui sur un « Photoshop audio » visant à manipuler un discours à loisir. Son projet ressemble à celui de la start-up canadienne Lyrebird.

Grâce à la technique du deepfake, un internaute a incrusté le visage de Carrie Fisher jeune dans une séquence de l’épisode de Star Wars Rogue One, alors que l’actrice qui joue la princesse Leia avait 60 ans lors du tournage. Il est ainsi arrivé à un résultat proche de celui atteint par le film, avec des moyens bien plus faibles. « Une version super high-tech et laborieuse de maquillage » avait été employée selon le responsable de la création du studio d’effets spéciaux Industrial Light & Magic, John Knoll. Au contraire, FakeApp est relativement simple d’utilisation. Quasiment n’importe qui peut voir son visage transposé dans le corps d’un autre. « Imaginez ce que pourront faire les grandes firmes de la tech et les gouvernements », vante l’auteur du rajeunissement de Carrie Fisher, « derpfakes ». Sur le forum américain Reddit, où la technologie a d’abord été partagée, il reconnaît néanmoins que « pour le moment, les gens s’en servent surtout pour faire des vidéos obscènes de célébrités. »

Un autre compte de Reddit, « deepfakes », a lancé le mouvement le 30 septembre 2017 en postant une série de vidéos pornographiques. Au-dessus des corps des hardeuses, apparaissent les traits de stars comme Scarlett Johansson, Maisie Williams, Taylor Swift, Aubrey Plaza ou encore Gal Gadot. Son algorithme a été repris par d’autres. Un internaute connu sous le nom de « deefakeapp » s’en est servi pour bâtir le programme FakeApp. Il dit ne pas être la même entité que deepfakes mais avoir collaboré à certain niveau avec elle.

Le 7 février 2018, alors que les bombes pleuvaient sur Douma, Reddit supprimait la conversation de deepfakes, arguant qu’elle contrevenait à l’une de ses règles, selon laquelle il est interdit de publier le contenu pornographique de quelqu’un sans son consentement. Pourtant, « il ne s’agit pas d’une vidéo pornographique de la personne intéressée, c’est juste son visage sur le corps de quelqu’un d’autre », souligne Jonathan Masur. Ce juriste américain n’est ainsi pas sûr qu’une célébrité portant plainte obtiendrait gain de cause. Justus Thies juge quant à lui que « c’est clairement illégal. » Toujours est-il que le profil deepfakeapp a depuis relancé une conversation sur Reddit pour partager son programme. Et si l’hébergeur d’images Fgycat et le site pour adult Pornhub disent censurer le contenu qui en résulte, cela n’entrave que modérément sa diffusion.

Contrairement aux montages assez grossiers mettant en scène Scarlett Johansson, Maisie Williams, Taylor Swift, Aubrey Plaza ou encore Gal Gadot, le Barack Obama de Buzzfeed peut tromper un public mal averti. À mesure que la technologie va se perfectionner, les internautes risquent donc de naviguer dans un flot de fausses vidéos. Perdront-il alors toute confiance en internet, sachant que beaucoup ont déjà du mal à départager les versions américaine et russe de l’attaque de Douma ? Après avoir anticipé le danger des « Fake news » en 2016, Aviv Ovadya, informaticien au Center for Social Media Responsibility de l’université du Michigan, parle aujourd’hui d’une menace d’« apathie de la réalité. » Non seulement les deepfakes peuvent entraîner une défiance généralisée mais il n’est pas exclut que, propageant une fausse provocation d’un État envers un autre, elles déclenchent un conflit. Une « infocalypse » couve selon lui.

L’art et la machine

Avant de lancer l’alerte, Aviv Ovadya a fait un stage à Google, en 2008. Le géant américain qui gère le moteur de recherche le plus populaire au monde investit massivement dans l’intelligence artificielle. En parallèle, le jeune homme poursuivait ses études au Massachusetts Institute of Technology (MIT), une université tout aussi impliquée dans la recherche sur les algorithmes. Au point que le mardi 7 novembre 2017, elle a invité l’homme à l’origine à l’origine de FakeApp. Il ne s’agit ni de deefakes ni de deefakeapp, mais d’un employé de Google, Ian Goodfellow. En 2015, ce dernier a rendu public un programme de machine-learning, TensorFlow, qui est à la base du fonctionnement de FakeApp.

Ce genre d’outils, a admis Goodfellow lors de la conférence Emtech organisée au MIT, est capable de créer de fausses images de plus en plus trompeuses. Les montages photos ont certes une histoire ancienne. Mais le scepticisme à l’égard des vidéos a une forte chance d’augmenter alors même que « c’est une chance de pouvoir s’appuyer sur elles pour prouver que quelque chose a eu lieu », observe-t-il. Aux États-Unis, la première vidéo amateur considérée comme un élément de preuve remonte au 3 mars 1991. Ce soir-là, depuis son balcon, George Holliday filme avec le nouveau Sony Handycam un homme désarmé, Rodney King, se faire rouer de coups par la police de Los Angeles. Grâce à ses images, il obtiendra réparation en justice.

Avec la généralisation des caméras sur les téléphones, ce cas de figure est devenu plus fréquent. En 2009, le « mouvement vert » qui agite l’Iran est largement documenté par des anonymes. Le meurtre de Neda Agha-Soltan par des forces de sécurité est même considéré comme « la mort sur laquelle il y a le plus de témoignages dans l’histoire », d’après l’hebdomadaire américain Time. Bien d’autres exactions sont rapportées via les smartphones lors des Printemps arabes de 2010 et 2011.

Ian Goodfellow vient alors tout juste d’arriver à l’Université de Montreal, où il entame un doctorat en machine learning. « J’ai d’abord étudié les neurosciences à Stanford, mais un de mes professeurs m’a incité à prendre des cours en IA », se souvient-il. « Ça me faisait surtout penser aux jeux vidéos mais j’ai vite réalisé que c’était une vraie science. » Il trouve malgré tout matière à s’amuser, concevant des processeurs graphiques avec son ami Ethan Dreifuss. À la soirée organisée par un autre, Razvan Pascanu, dans un bar de Montreal, Les 3 Brasseurs, Ian Goodfellow est un peu bourré. Alors, quand un camarade évoque la possibilité de déterminer mathématiquement tous les éléments d’une photo et de les intégrer sous forme de statistiques dans une machine capable de composer ses propres clichés, ses lunettes se couvrent de buée. C’est impossible, rétorque-t-il ce soir de 2014.

Une autre idée lui vient toutefois à l’esprit. De la même manière que la confrontation de deux cerveaux dans un bar peut stimuler la réflexion, la confrontation de deux réseaux neuronaux d’ordinateurs pourrait s’avérer féconde. Si, en face d’un système qui essaye de composer la photo la plus réaliste possible, se trouve une machine vouée à détecter les fausses images, alors la première va apprendre de ses corrections. Malgré les réticences de ses amis, Ian Goodfellow se met au travail sitôt rentré chez lui. Encore un peu ivre, il code. Et, par ce qu’il décrit comme un coup de chance, ça marche.

Dans un article publié un an plus tard, l’étudiant décrit son système comme des réseaux antagonistes génératifs (GAN). « C’est comme un échange entre un artiste et un critique d’art », compare Goodfellow. « Le modèle génératif veut tromper le critique en lui faisant croire que ses images sont vraies. » Un regard extérieur est nécessaire pour pointer le problème à résoudre. D’après le responsable des recherches en IA de Facebook, Yann LeCunn, voilà « l’idée la plus cool du deep-learning de ces 20 dernières années. » Elle n’a pas tardé à être accessible au public. Dès novembre 2015, Google a ouvert le code de TensorFlow, un logiciel de programmation fonctionnant à l’aide de réseaux génératifs adverses.

À en croire Kenneth Tran, spécialiste du machine learning de Microsoft, Google avait peu d’intérêt à garder la technologie privée, étant donné que les recherches dans ce domaine sont nombreuses et bien souvent publiques. En revanche, le groupe pourra bénéficier des améliorations apportées par les particuliers qui s’en saisissent. Un peu comme un artiste s’inspire de la critique.

L’image en doute

En 2016, tandis qu’un groupe de chercheurs de GoogleBrain décrit le fonctionnement de TensorFlow dans un article, Aviv Ovadya se rend compte qu’il y a quelque chose de pourri dans l’univers d’internet. Lui qui, en travaillant pour le site Quora, a donné la parole à ceux qui sont les mieux placés pour répondre aux questions des internautes, estime que l’information est mal répartie sur Facebook et Twitter. En fait, leurs éco-systèmes sont tout à fait perméables à la propagande, aux actualités erronées ou aux contenus malveillants, en d’autres termes à ce qu’il est devenu courant d’appeler les « Fake news ».

Or, un contenu trompeur n’est pas forcément démenti au sein des petites niches que chacun forme, selon ses affinités, sur les réseaux sociaux. Au contraire. Les algorithmes ont tendance à renforcer nos préjugés. « En sélectionnant liens et informations en fonction des profils des internautes, ces filtres enferment les citoyens dans un cocon intellectuel », résume Le Monde en septembre 2016. Deux mois plus tard, le magazine britannique New Statesman publie une enquête titrée « Ce film qui n’existe que dans la tête d’utilisateurs de Reddit. » Sur le forum américain, une petite communauté discute de Shazaam, un long-métrage datant des années 1990 dans lequel un génie incompétent réalise les vœux de deux enfants. Pourtant rien de tel n’a jamais été tourné.

Quand le New Statesman leur a fait remarquer qu’ils se trompaient, beaucoup ne l’ont pas cru. « C’est comme si une partie de mon enfance m’a été volée », a fini par confier l’un d’eux après avoir reconnu son erreur. À l’instar de Facebook et Twitter, Reddit regroupe des gens qui partagent un avis sur un sujet, quitte à ce qu’il soit erroné. Cela renforce non seulement les convictions mais peut même affecter la perception de la réalité au point de recomposer la mémoire. Dans une étude de 2015, deux psychologues démontrent qu’il est possible de faire croire à un individu qu’il a commis un crime par le passé. À cet effet, les images paraissent particulièrement efficaces. « Si vous dites à quelqu’un, voilà cette personne, dans telle situation, faisant cela et que la vidéo correspond à cette description, ça va être convaincant », appuie la psychologue de l’Université de Californie Linda Levine.

Précisément, « l’idée derrière les réseaux antagonistes génératifs est de créer des images aussi réalistes que possible », explique Ian Goodfellow. Pour cela, FakeApp se sert d’un type de réseau appelé auto-encodeur, capable de transposer les mouvements d’une vidéo à l’autre. Ce système inclus un générateur (l’artiste) qui essaye de produire un résultat aussi fidèle que possible à la réalité, d’une part, et un détecteur de défauts (le critique d’art), d’autre part. De même, selon Julus Thies, « la manipulation de vidéos est comme le jeu du chat et de la souris » : les créateurs de deepfakes peuvent échapper aux techniques de détection des fausses vidéos tant qu’ils les connaissent et corrigent leur travail en conséquence. Matthias Neisser note que, « pour le moment, la détection est beaucoup plus facile que la manipulation ». Mais un public non averti n’y verra quoi qu’il en soit que du feu.

En mars 2015, la chaîne allemande ZDF a diffusé une vidéo du ministre des Finances grec d’alors, Yanis Varoufakis, faisant un doigt d’honneur à Berlin, au cours d’une conférence donnée deux ans plus tôt en Croatie. Alors qu’un scandale diplomatique se profilait, la chaîne a avoué avoir retouché les images. Il s’agissait de montrer à quel point c’est chose aisée. Car il n’y a pas même besoin d’IA pour cela. « Face2Face fonctionne sans processeur particulier », indique Justus Thies. « Il suffit de disposer d’une webcam classique et d’un ordinateur équipé d’une carte graphique semblable à celles qui permettent de jouer aux jeux vidéos. » La modélisation 3D s’occupe du reste.

Par différents moyens, « n’importe quel contenu media (texte, audio ou image) peut être manipulé », résume Justus Thies. « J’espère donc que les gens vont réaliser qu’ils ne peuvent pas avoir confiance en une image d’une origine inconnue. Ils savent déjà majoritairement que beaucoup de photos sont retouchées par Photoshop. » Maintenant que FakeApp est disponible gratuitement sur internet, le halo de doute qui entoure l’information a de fortes chances de croître. Un contenu irréprochable sera d’autant plus suspect de trucage que le grand public connaîtra la facilité avec laquelle des retouches peuvent être apportées. Le drame syrien montre pourtant à quel point l’origine et l’authenticité d’une vidéo comptent. « Nous devons développer des systèmes à même de déterminer efficacement si elle est manipulée », plaide Aviv Ovadya. La réalité est à ce prix.