Prompt injection

Définition

L'injection de prompt (prompt injection) est une attaque qui consiste à insérer des instructions malveillantes dans l'entrée d'un LLM pour détourner son comportement du prompt système initial. Elle exploite le fait qu'un modèle ne distingue pas structurellement les instructions de confiance des données non fiables : tout se présente à lui comme du texte. On sépare l'injection directe, où l'utilisateur manipule lui-même le modèle, de l'injection indirecte, où la charge est cachée dans un contenu que le modèle va lire (page web, e-mail, document, ticket).

Pourquoi c'est important

C'est la vulnérabilité numéro un du référentiel OWASP Top 10 LLM (LLM01). Une injection réussie peut exfiltrer des données, contourner les filtres de modération, déclencher des actions non autorisées quand le modèle est connecté à des outils, ou empoisonner les réponses d'un chatbot public. Les architectures RAG et les agents IA autonomes amplifient le risque : dès qu'un LLM ingère du contenu externe ou peut agir (envoyer un mail, exécuter du code), une instruction cachée devient une porte d'entrée. Aucun correctif définitif n'existe aujourd'hui, seulement une défense en profondeur.

Comment AOCSI l'adresse

Nos équipes intègrent des scénarios d'injection directe et indirecte à chaque test d'intrusion d'application dopée à l'IA. Nous évaluons le cloisonnement entre instructions et données, la validation des sorties et le périmètre des outils exposés au modèle, puis nous documentons chaque contournement avec sa remédiation.

De la définition à la protection.

Nos experts transforment ces concepts en sécurité concrète pour votre organisation.

Parler à un expert Retour au lexique