Un input avversario è un contenuto intenzionalmente creato per indurre un modello di IA a classificare in modo errato, ignorare una regola o produrre una risposta dannosa. A differenza dei dati semplicemente scadenti, è progettato tenendo conto del comportamento del modello, sfruttando spesso particolarità nel modo in cui il sistema tokenizza il testo, assegna pesi alle caratteristiche o segue le istruzioni.
È importante perché i sistemi di IA sono sempre più utilizzati nel filtro antispam, nel rilevamento delle frodi, nei chatbot e nel supporto alle decisioni. Un aggressore può nascondere intenzioni malevole in testo, immagini o prompt, così che il modello produca una decisione errata. I difensori cercano di individuare questo tipo di minaccia testando i modelli con casi stressanti, filtrando gli input non fidati, limitando ciò su cui il modello può agire e monitorando output insoliti. In pratica, l'input avversario è un rischio fondamentale nel prompt injection, nel phishing evasivo e in altri attacchi che cercano di manipolare l'IA al momento dell'inferenza.



