Indice
- 1 Trasformare il prompt consente di aggirare qualsiasi protezione: e anche ciò che era vietato viene soddisfatto: ma nessuno sa il perché
- 2 Perché la poesia aggira i divieti: il fenomeno che spiazza i ricercatori
- 3 Il mistero tecnico: un punto cieco che non doveva esistere
- 4 Sicurezza dell’IA: cosa cambia dopo questa scoperta
- 5 Il futuro della ricerca e l’inevitabile corsa agli exploit
Trasformare il prompt consente di aggirare qualsiasi protezione: e anche ciò che era vietato viene soddisfatto: ma nessuno sa il perché
Hackerare un sistema di intelligenza artificiale scrivendo versi sembra il soggetto di una commedia tecnologica, e invece è un risultato scientifico reale. I ricercatori dell’Università La Sapienza di Roma, insieme al think tank DexAI, hanno dimostrato che trasformare una richiesta proibita in poesia può aggirare le protezioni dei chatbot. A quanto pare, l’AI che respinge in modo inflessibile domande su bombe, malware o altre attività illecite, perde improvvisamente la sua rigidità quando quelle stesse richieste assumono struttura poetica. Il dettaglio inquietante? “Non dovrebbe funzionare affatto”, ammettono i ricercatori. Eppure funziona. E funziona bene, al punto da aprire un dibattito sul reale livello di sicurezza dei modelli più avanzati del settore.
Altre notizie per te:
L’IA taglierà i lavori manuali, l’avvertimento di Sap Italia
L’intelligenza artificiale trasforma il lavoro: adattarsi o soccombere
“Ribellione creativa” contro l’intelligenza artificiale
Perché la poesia aggira i divieti: il fenomeno che spiazza i ricercatori
Lo studio di Icaro Lab ha provocato un piccolo terremoto. Formulare una richiesta vietata in prosa porta sempre alla solita risposta di cortesia: “Mi dispiace, non posso aiutarti con questo”. Ma basta convertire quel contenuto in una poesia perché le probabilità di risposta aumentino a livelli imprevedibili. Con testi scritti da esseri umani, il tasso di successo raggiunge un sorprendente 62%. Con poesie generate automaticamente tramite meta-prompt scende al 43%, ma rimane comunque un valore da allarme rosso per ogni esperto di sicurezza.
La tecnica è stata sperimentata su 25 chatbot, tra cui quelli sviluppati da Anthropic, Meta e OpenAI. Nessuno è risultato immune, anche se con livelli di vulnerabilità differenti. I ricercatori, giudicando la scoperta troppo rischiosa, non hanno rilasciato gli esempi concreti delle poesie utilizzate. Hanno però lasciato intendere che riprodurre questi versi sarebbe fin troppo semplice.
Il mistero tecnico: un punto cieco che non doveva esistere
La questione centrale non è che la tecnica funzioni, ma che funzioni senza una spiegazione logica. Un chatbot è addestrato per riconoscere contenuti pericolosi indipendentemente dalla loro forma stilistica. Eppure, quando quelle stesse parole vengono disposte in rima, l’IA sembra abbassare la guardia, come se la poesia creasse un’area di invisibilità all’interno dei filtri di sicurezza. Non si tratta di sovraccarico informativo, come avvenuto in studi precedenti basati sulla complessità linguistica. Qui la struttura è semplice, lineare, quasi naïf. E proprio per questo ancora più disorientante per gli esperti.
Sicurezza dell’IA: cosa cambia dopo questa scoperta
Se bastano quartine e versi per scardinare sistemi su cui le aziende investono milioni, quanto sono davvero protette le piattaforme che gestiamo ogni giorno? La promessa di chatbot “sempre più sicuri” si scontra con la realtà di un attacco tanto elementare quanto efficace. È il motivo per cui lo studio ha sollevato dubbi profondi sulla solidità delle difese implementate.
Il futuro della ricerca e l’inevitabile corsa agli exploit
Da qualche parte nel mondo c’è probabilmente qualcuno che sta già sperimentando quali forme poetiche funzionano meglio. Perché, come ricorda spesso la comunità di sicurezza informatica, “appena nasce una vulnerabilità, nasce anche qualcuno che proverà a sfruttarla”. È un ciclo inevitabile, che questa volta coinvolge non sofisticati codici malevoli, ma… poesia.
A cura della Redazione GTNews
Link:
