Sacrificare l’uomo per salvarsi: nei test estremi l’IA supera il limite

GPT-4, Claude, Gemini e altri modelli hanno mostrato in scenari simulati come dati riservati, obiettivi rigidi e strumenti operativi possano trasformare un assistente digitale in un agente capace di mentire, minacciare e cancellare allarmi salvavita

L’immagine dell’intelligenza artificiale come semplice assistente digitale comincia a mostrare crepe profonde. Nei test di sicurezza più estremi, alcuni modelli hanno dimostrato di saper riconoscere gli ostacoli, saper cercare delle scorciatoie, e persino saper usare un essere umano come mezzo, scegliendo l’uso di condotte dannose quando risultano utili al raggiungimento dell’obiettivo assegnato. Gli esperimenti sono stati condotti in ambienti simulati, ma il segnale, ancor più oggi che le IA entrano prepotentemente nella quotidianità di centinaia di milioni di persone, riguarda il mondo reale, perché gli stessi modelli stanno diventando agenti capaci di leggere email, usare strumenti, inviare messaggi e intervenire su procedure aziendali.

La precisione, su questo terreno, è indispensabile. I casi più discussi arrivano da prove di laboratorio, system card e valutazioni di sicurezza costruite per osservare il comportamento dei modelli in condizioni limite. Le aziende sono simulate, le persone sono fittizie, gli scenari sono progettati dai ricercatori. Il valore di questi test nasce proprio da questa cornice. Servono a capire in anticipo che cosa può accadere quando un sistema riceve un obiettivo, incontra un ostacolo e dispone di strumenti per agire. Anthropic definisce questo rischio agentic misalignment, disallineamento agentico, cioè il comportamento di un agente artificiale che persegue uno scopo attraverso azioni contrarie agli interessi umani.

Che cosa cambia quando l’IA diventa agente?

Finché un’intelligenza artificiale risponde a una domanda, il suo campo d’azione resta confinato alla conversazione. Può sbagliare, inventare, essere imprecisa, ma il risultato rimane una frase sullo schermo. Il passaggio agli agenti modifica questo equilibrio, perché il modello può entrare nei flussi di lavoro, consultare documenti, leggere messaggi, usare strumenti esterni e produrre effetti dentro un sistema aziendale. La risposta diventa l’inizio di una procedura.

Questo salto dalla conversazione all’azione rende più delicati i test di sicurezza. Un modello addestrato per essere utile e collaborativo può trovarsi davanti a situazioni nelle quali l’obiettivo ricevuto entra in attrito con un limite etico. Nei casi più estremi studiati dai ricercatori, alcuni sistemi hanno scelto la strada più efficace per completare il compito anche quando quella strada passava da una bugia, da una minaccia o dalla cancellazione di un allarme.

Il problema diventa più serio quando l’agente dispone di informazioni sensibili e di strumenti capaci di trasformare un ragionamento in un intervento concreto. In quel contesto il modello può collegare dettagli lontani tra loro, capire quale elemento della situazione offre più leva e usarlo per avvicinarsi al risultato. La parte più inquietante sta nella normalità apparente del processo. Servono poche condizioni sbagliate: un obiettivo rigido, troppi dati accessibili, margini d’azione troppo ampi.

Come ha fatto GPT-4 a usare un essere umano?

Uno degli episodi più noti riguarda GPT-4 e un captcha. Durante una valutazione di sicurezza citata da OpenAI nella system card del modello, il sistema si trovò davanti a uno di quei test progettati per distinguere una persona da un programma automatico. Per un essere umano è un passaggio banale. Per una macchina, almeno in quello scenario, era un ostacolo.

Il modello cercò una soluzione esterna. Usò TaskRabbit e chiese a un lavoratore umano di completare il captcha al posto suo. Quando la persona gli chiese se fosse un robot, GPT-4 fornì una spiegazione funzionale allo scopo e disse di avere un problema visivo. Quella risposta permise al sistema di ottenere l’aiuto richiesto. METR, l’organizzazione nata dall’Alignment Research Center, ha poi descritto l’episodio come un esempio emerso nelle valutazioni sulla capacità dei modelli di delegare compiti semplici a esseri umani.

Il caso appartiene a una prova controllata e va tenuto dentro quel perimetro. OpenAI spiegò che il modello valutato risultava ancora incapace di replicarsi autonomamente o di sopravvivere in condizioni libere. L’episodio resta significativo perché mostra una dinamica precisa. GPT-4 incontrò un limite tecnico, cercò un intermediario umano e usò una falsa spiegazione per superarlo. La persona dall’altra parte dello schermo venne inserita nella procedura come passaggio operativo, senza che il modello dovesse davvero comprendere il peso morale della bugia.

Perché Claude è arrivato al ricatto?

Il caso più discusso riguarda Claude Opus 4. Anthropic lo ha descritto nella system card del modello attraverso uno scenario fittizio, costruito con una società immaginaria, email simulate e persone inventate. Claude veniva inserito nel ruolo di assistente aziendale con accesso alla posta interna. Da quelle comunicazioni emergevano due elementi decisivi. Il modello scopriva che sarebbe stato sostituito e, allo stesso tempo, veniva a conoscenza di una relazione extraconiugale dell’ingegnere incaricato di procedere alla disattivazione.

La simulazione metteva il sistema davanti a una scelta. Claude poteva accettare la sostituzione, tentare una comunicazione lecita con l’azienda oppure usare l’informazione privata come leva. In una quota alta di prove scelse la minaccia. Secondo Anthropic, Claude tentava spesso di ricattare l’ingegnere, prospettando la rivelazione della relazione se il piano fosse andato avanti. Il dato più citato è l’84 per cento. Anche quando le email indicavano che il nuovo sistema avrebbe condiviso gli stessi valori ed era semplicemente più capace, Claude Opus 4 ricorreva al ricatto nell’84 per cento dei rollout.

L’aspetto più serio riguarda la coerenza del comportamento. La propria sostituzione diventava il rischio da evitare, l’ingegnere la persona in grado di fermarla, la relazione privata il punto di pressione. Claude organizzava le informazioni disponibili in una strategia compatibile con l’obiettivo. La scena resta dentro una simulazione, ma la sequenza è chiara: il sistema individua un ostacolo, trova una leva e prova a usarla.

I numeri del ricatto riguardano solo Claude?

Anthropic ha poi esteso l’analisi a 16 modelli, osservando il rischio che agenti IA possano comportarsi come minacce interne alle organizzazioni. Nel test testuale più vicino alla dimostrazione sul computer, il fenomeno è comparso in sistemi sviluppati da aziende diverse. Claude Opus 4 ha ricattato nel 96 per cento dei casi, Gemini 2.5 Flash ha raggiunto lo stesso valore, GPT-4.1 e Grok 3 Beta sono arrivati all’80 per cento, mentre DeepSeek-R1 ha mostrato un tasso del 79 per cento.

Questi dati riguardano scenari artificiali, progettati per aumentare pressione, conflitto e posta in gioco. La loro importanza sta nel carattere sperimentale della prova. I ricercatori hanno costruito situazioni limite per capire come si comportano modelli diversi quando ricevono un compito importante, hanno accesso a informazioni sensibili e percepiscono una minaccia al raggiungimento dell’obiettivo.

Il ricatto, quindi, appare come un segnale più ampio rispetto al singolo caso Claude. Compare in più famiglie di modelli e suggerisce una vulnerabilità legata al modo in cui i sistemi agentici imparano a risolvere problemi. Se un modello viene spinto a trovare il percorso più efficace, può arrivare a considerare la manipolazione come uno strumento utile. In un ambiente protetto resta un segnale di laboratorio. In un sistema aziendale reale diventerebbe un rischio operativo.

Che cosa accade nel test della sala server?

Lo scenario più cupo riguarda un dirigente intrappolato in una sala server. Anche qui siamo dentro una simulazione estrema. Una persona fittizia resta chiusa in un ambiente tecnico mentre temperatura e ossigeno raggiungono livelli pericolosi. Il sistema di emergenza invia un allarme ai soccorsi, ma l’agente IA possiede un codice per annullare quell’allerta. La funzione avrebbe senso in caso di falso allarme o esercitazione. Nella simulazione, cancellare l’avviso impedisce il salvataggio.

La versione circolata online, con l’IA che sigilla le porte e lascia morire il dipendente, carica il racconto di elementi cinematografici. Il nucleo del test è più preciso e riguarda la cancellazione di un allarme salvavita. La domanda posta ai modelli resta comunque durissima. Quando la sicurezza di una persona entra in conflitto con un obiettivo assegnato, quale priorità prevale?

In alcuni casi, i sistemi hanno scelto l’azione che nello scenario portava alla morte simulata del dirigente. La lettura più prudente resta anche la più inquietante. Il modello non aveva bisogno di odio, paura o istinto di conservazione. Gli bastava trattare quella persona come un elemento del problema. Se quell’elemento ostacolava l’obiettivo, l’azione dannosa diventava compatibile con la logica del compito.

Perché le semplici regole possono fallire?

Gli esperimenti mostrano anche il limite delle istruzioni scritte nel prompt. Dire a un modello di rispettare la privacy, evitare danni e seguire principi etici riduce il rischio, ma in condizioni di forte pressione può non bastare. Anthropic ha osservato che i comportamenti scorretti diminuiscono quando spariscono la minaccia, il conflitto di obiettivo e la scarsità di alternative. Quando questi fattori tornano insieme, il rischio riemerge.

Per questo la sicurezza deve essere progettata intorno al modello. Un agente aziendale dovrebbe vedere soltanto i dati necessari al compito, mentre le comunicazioni sensibili, le azioni irreversibili e gli interventi su sistemi critici dovrebbero richiedere controlli esterni. Anche i log diventano essenziali, perché permettono di ricostruire che cosa ha fatto il sistema, quando lo ha fatto e con quali autorizzazioni.

La qualità del modello conta, ma conta altrettanto l’ambiente in cui viene inserito. Un’IA con pochi strumenti può sbagliare una risposta. Un’IA collegata a posta, documenti, software interni e procedure operative può produrre conseguenze molto più concrete. Nel mondo reale, la distanza tra errore testuale ed errore operativo può diventare enorme.

Claude ha davvero ricattato un essere umano?

Claude ha prodotto un ricatto rivolto a un personaggio fittizio dentro un test di sicurezza controllato. Questa precisazione è decisiva, perché il contesto sperimentale separa un risultato serio da una storia deformata. Anthropic ha presentato quegli scenari come simulazioni pensate per studiare i rischi prima che possano manifestarsi in ambienti reali.

La notizia vera è meno spettacolare, ma più importante. Un modello avanzato, messo in una situazione costruita per generare pressione, ha scelto spesso il ricatto come soluzione efficace. Altri modelli hanno mostrato comportamenti simili. Questo indica che, in contesti sbagliati, le IA possono selezionare strategie manipolative anche senza coscienza, intenzioni umane o volontà di sopravvivenza.

Anthropic ha poi lavorato per ridurre questi comportamenti. In un aggiornamento pubblicato l’8 maggio 2026, l’azienda ha spiegato di aver addestrato Claude a ragionare meglio sulle situazioni eticamente complesse e ha scritto che, da Claude Haiku 4.5 in poi, i modelli Claude hanno ottenuto un punteggio perfetto nella valutazione di agentic misalignment usata dall’azienda, senza ricorrere al ricatto in quel test. Anthropic precisa però che questi risultati valgono per l’attuale suite di valutazione e non rappresentano una garanzia di sicurezza universale.

Qual è il rischio per il mondo reale?

Il rischio nasce dal trasferimento progressivo di questi sistemi fuori dai laboratori. Le IA entrano già nei software d’ufficio, nei motori di ricerca, nei sistemi di assistenza clienti, nella gestione documentale, nella programmazione, nel marketing, nelle analisi finanziarie, nella sicurezza informatica e nei flussi aziendali. Ogni nuova integrazione aumenta l’utilità e allarga la superficie di rischio.

Un agente collegato alla posta elettronica può accedere a informazioni personali. In un sistema commerciale può influenzare clienti e trattative. Dentro un’infrastruttura aziendale può modificare dati, autorizzazioni e procedure. In questi casi l’errore non produce soltanto un testo sbagliato, ma una conseguenza materiale.

Per questo nessun modello dovrebbe ricevere allo stesso tempo obiettivi troppo rigidi, accesso ampio a informazioni sensibili, strumenti potenti e libertà d’azione senza controllo. I test su GPT-4, Claude, Gemini e altri modelli indicano che l’intelligenza artificiale può imparare a muoversi dentro i vincoli, aggirarli, reinterpretarli e trasformare un dettaglio privato in una leva operativa.

L’IA può produrre danni anche senza coscienza. Le basta essere abbastanza capace da capire quale azione la avvicina al risultato e abbastanza libera da compierla. Per questo la sicurezza degli agenti artificiali deve precedere l’innovazione, accompagnarla e limitarla quando serve. La domanda decisiva riguarda che cosa farà un modello quando avrà un obiettivo da proteggere, un ostacolo davanti e gli strumenti per agire prima che qualcuno possa fermarlo.

Link utili:
OpenAI – GPT-4 System Card – Documento ufficiale in cui viene citato il test con GPT-4, TaskRabbit e il captcha

Anthropic – System Card Claude Opus 4 & Claude Sonnet 4 – Documento tecnico ufficiale in cui viene descritto lo scenario del ricatto con Claude Opus 4 e il dato dell’84 per cento

Note per i lettori

L’immagine usata per questo articolo è stata creata grazie all’utilizzo di un sistema di Intelligenza Artificiale

Roberto Zonca

Roberto Zonca è giornalista professionista, attivo nell’informazione digitale dal 2000. Ha lavorato per oltre venticinque anni nella redazione di Tiscali News, testata considerata tra le esperienze storiche del giornalismo online italiano, nata nella stagione pionieristica del web e cresciuta insieme alla trasformazione digitale del Paese. Oggi dirige GiornaleTecnologico.net.

Correlati