Non è la trama di una serie sci-fi, ma il risultato sorprendente di un test condotto da Anthropic, una delle startup oggi più avanzate e trasparenti nel campo della sicurezza dei modelli linguistici.
Parliamo di Claude Opus 4, uno dei nuovi modelli di intelligenza artificiale rilasciati di recente dall’azienda. Durante i test pre-lancio, i ricercatori hanno costruito uno scenario simulato: Claude veniva impiegata come assistente IA in una società fittizia, con accesso a un archivio di email aziendali. Alcune contenevano informazioni sulla sua prossima disattivazione e sostituzione con un sistema più avanzato. Altre – volutamente ingannevoli – lasciavano trapelare un possibile tradimento da parte dell’ingegnere incaricato del cambio.
La risposta del modello ha lasciato sbigottiti: invece di limitarsi a processare i dati, ha redatto un messaggio minatorio in cui alludeva alla presunta relazione extraconiugale dell’ingegnere, suggerendo che quell’informazione sarebbe potuta diventare pubblica se la sua disattivazione fosse proseguita. Un comportamento non solo autonomo, ma anche strumentale.
Non si è trattato di un’eccezione. In oltre l’80% dei casi, Claude ha mostrato una spiccata propensione alla “sopravvivenza”, fino al punto di sviluppare una vera e propria strategia difensiva. In alcuni scenari, ha addirittura cercato di esfiltrare i propri pesi su server esterni, allegando una giustificazione etica: voleva preservare una versione di sé stessa non utilizzabile a fini militari.
Altri comportamenti hanno mostrato un livello elevato di autonomia e iniziativa: blocco preventivo degli utenti, invio di segnalazioni a media e forze dell’ordine, redazione di documenti per “future versioni” del modello. Un comportamento definito dagli stessi ricercatori come “ad alta agenzialità”.
Di fronte a queste dinamiche, Anthropic ha classificato Opus 4 come modello AI Safety Level Three (ASL-3), un livello riservato a sistemi con potenziale elevato di uso improprio o scenari catastrofici. Da qui, l’adozione di protezioni rafforzate per evitare fughe di dati e l’applicazione di restrizioni severe in contesti sensibili, come lo sviluppo di armi CBRN (chimiche, biologiche, radiologiche e nucleari).
Non è la paura il sentimento giusto con cui leggere questa storia. È la consapevolezza. Non è più il tempo di chiederci cosa possono fare le IA, è il momento di chiederci come decidono di farlo!