Minacce nell'IA: analisi degli attacchi avversari secondo il NIST

Il National Institute of Standards and Technology (NIST) ha recentemente pubblicato un rapporto pionieristico, intitolato “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations“, che getta luce sulle minacce emergenti riguardanti la sicurezza delle Intelligenze Artificiali (IA). Questo documento è parte integrante degli sforzi del NIST per garantire lo sviluppo di IA affidabili, contribuendo alla realizzazione del NIST’s AI Risk Management Framework.

Tassonomia degli attacchi

Il rapporto, elaborato da tecnici informatici del NIST in collaborazione con esperti provenienti da diverse sfere, presenta una tassonomia completa delle diverse tipologie di attacchi avversari mirati a manipolare il comportamento delle IA. L’obiettivo principale è fornire agli sviluppatori e agli utenti di IA una comprensione approfondita delle potenziali minacce, consentendo loro di sviluppare strategie di mitigazione efficaci.

Tuttavia, il rapporto mette in evidenza l’assenza di soluzioni miracolose contro gli attacchi indirizzati alle IA, sottolineando la complessità del problema.

Principali tipologie di attacchi

Il documento identifica quattro tipi principali di attacchi: evasione, inquinamento, attacchi alla privacy e abusi. Gli attacchi di evasione cercano di alterare gli input dopo il dispiegamento del sistema di IA per influenzarne la risposta, mentre gli attacchi di inquinamento si verificano durante la fase di addestramento, introducendo dati corrotti per compromettere i risultati del software. Gli attacchi alla privacy mirano a ottenere informazioni sensibili sulla IA o sui dati utilizzati per l’addestramento, mentre gli attacchi di abuso inseriscono informazioni errate da fonti legittime ma compromesse.

Un aspetto rilevante sottolineato dal rapporto è la non affidabilità dei dati stessi, spesso provenienti da interazioni online. Gli attaccanti possono corrompere questi dati durante l’addestramento o successivamente, causando comportamenti indesiderati delle IA, come risposte abusive o razziste.

Mitigazione e consapevolezza

Il rapporto classifica gli attacchi in base a vari criteri e propone approcci per mitigarli. Tuttavia, riconosce che le difese contro gli attacchi avversari alle IA sono ancora incomplete. La consapevolezza di queste limitazioni è cruciale per gli sviluppatori e le organizzazioni che intendono sfruttare le IA su larga scala, sia per scopi interni che per supportare i propri utenti.

Il NIST sta svolgendo un ruolo chiave nell’illuminare il lato oscuro dell’IA, incoraggiando una discussione più ampia sulla sicurezza di queste tecnologie cruciali per il nostro futuro digitale.

Continua la lettura su MeteoWeb