Vos photos personnelles sont-elles utilisées pour le « machine learning

Stable Diffusion, DeviantArt, Imagen, Midjourney, DALL-E… Toutes ces intelligences artificielles de génération d’images à partir d’une description textuelle ont un point commun : leurs algorithmes d’apprentissage automatique (machine learning) ont été entraînés à partir de bases de données contenant pour certaines des milliards de photos. Il s’agit dans la plupart des cas d’images collectées sur Internet et plus particulièrement sur les réseaux sociaux. Cela peut concerner des photos publiées par des particuliers qui en acceptent la diffusion publique. Chaque cliché enregistré dans ces bases de données est associé à une description grâce à laquelle les algorithmes apprennent à faire un rapprochement.

Il existe désormais un outil nommé HaveIBeenTrained qui peut scanner les bases de données qui servent à entraîner les IA pour aider le grand public ou des professionnels à savoir si leur photos ont été utilisées. L’outil fonctionne comme un moteur de recherche auquel on peut soumettre une requête textuelle ou une image de référence. HaveIBeenTrained est connecté à Laion-5B et Laion-400M, les deux principales bases de données qui contiennent respectivement cinq milliards et 400 millions d’images et qui servent notamment à entraîner les IA génératives Stable Diffusion et Imagen. Le moteur de recherche est accessible gratuitement à quiconque souhaite faire une vérification.

Déjà plusieurs plaintes déposées par des ayant-droits

HaveIBeenTrained explique travailler en collaboration avec Laion de manière à relayer des demandes de suppression d’images. Le dispositif s’adresse plus particulièrement aux artistes dont les créations diffusées sur Internet peuvent figurer dans ces bases de données.

L’avènement des intelligences artificielles génératives a rapidement soulevé la question du respect des droits d’auteur. Il est déjà avéré que des images de créations artistiques protégées par des copyright ont été aspirées par des bases de données sans le consentement des ayants-droits. Le mois dernier aux Etats-Unis, plusieurs artistes ont engagé une plainte en recours collectif contre Stability AI, DeviantArt, et Midjourney pour infraction aux droits d’auteur.

La célèbre agence de photos Getty Images a saisi la Haute cour de Justice de Londres contre Stable Diffusion, lui reprochant d’avoir « illégalement copié et traité des millions d’images protégées par le droit d’auteur et les métadonnées associées, détenues ou représentées par Getty Images, sans licence, au profit des intérêts commerciaux de Stability AI et au détriment des créateurs de contenu. »

Une autre facette du problème est le risque de voir ce type d’intelligence artificielle plagier certains artistes. C’est la raison pour laquelle Google a décidé de ne pas rendre public MusicML, son IA capable de créer des airs de musique à partir d’une description textuelle après avoir constaté qu’environ 1 % de la musique générée par le système est en fait une copie d’une composition humaine. Une crainte soulevée également concernant VALL-E, l’IA de Microsoft capable d’imiter n’importe quelle voix humaine.