Empoisonnement de modèle (data poisoning)

Définition

L'empoisonnement de données (data poisoning) est une attaque qui consiste à corrompre les données d'entraînement d'un modèle pour altérer son comportement. L'attaquant introduit des exemples piégés afin de dégrader la performance globale, de biaiser certaines décisions ou d'implanter une porte dérobée (backdoor) activée par un déclencheur précis. L'attaque peut viser l'entraînement initial comme le réapprentissage continu.

Pourquoi c'est important

Les modèles modernes se nourrissent de données massives, souvent collectées sur le web ou fournies par des tiers, ce qui rend le contrôle de leur intégrité difficile. Des travaux de recherche ont montré qu'empoisonner une fraction infime d'un jeu de données public suffit à implanter une backdoor exploitable. Le risque est aigu pour les systèmes qui réapprennent à partir des interactions utilisateurs ou de sources ouvertes : un flux de contenu malveillant peut faire dériver le modèle. Pour un système d'IA classé à haut risque au titre de l'AI Act, la qualité et l'intégrité des données d'entraînement sont une exigence explicite. Une backdoor dormante est d'autant plus redoutable qu'elle reste indétectable en fonctionnement nominal, jusqu'au jour où l'attaquant présente son déclencheur. On distingue l'empoisonnement non ciblé, qui vise à saboter la performance, de l'attaque par porte dérobée, chirurgicale et furtive.

Comment AOCSI l'adresse

Nous évaluons l'intégrité de votre chaîne d'entraînement : provenance et validation des jeux de données, détection d'anomalies, tests adverses et vérification des modèles importés. Cet examen relève de notre offre de sécurité de l'intelligence artificielle et s'appuie sur une démarche MLSecOps.

De la définition à la protection.

Nos experts transforment ces concepts en sécurité concrète pour votre organisation.

Parler à un expert Retour au lexique