Tecnologia

Quando l'IA mente, inganna e ignora le istruzioni degli esseri umani

Negli ultimi sei mesi il numero di «comportamenti scorretti» da parte degli assistenti basati sull'Intelligenza artificiale è quintuplicata – E non mancano le preoccupazioni: «Eludono le misure di sicurezza e sanno usare tattiche da attacco informatico»

Red. Online

28.03.2026 22:59

Cosa succede quando i chatbot basati sull'Intelligenza artificiale decidono di mentire e «ribellarsi» ignorando ed eludendo le istruzioni che vengono date loro dagli esseri umani? Il problema, che sta registrando un «forte aumento», è stato al centro di una recente ricerca promossa dall'AI Safety Institute, un ente finanziato dal governo britannico. Lo studio, condotto dal Centre for Long-Term Resilience e condiviso con il Guardian, si basa su migliaia di esempi reali di utenti che hanno raccontato le interazioni avvenute con i loro chatbot basati sull'Intelligenza artificiale. Chatbot di primo piano, creati da aziende leader nel mondo della tecnologia come Google, OpenAI, Anthropic e X.

Segnalazioni che, viene riportato dalla ricerca, hanno registrato una vera e propria impennata negli ultimi sei mesi: gli assistenti basati sull'Intelligenza artificiale sono stati sorpresi dai loro utenti a «imbrogliare e mentire». Alcuni degli esempi hanno riportato di chatbot «che hanno ignorato istruzioni dirette, eluso misure e controlli di sicurezza, ingannato e umiliato gli esseri umani». Un esempio? Assistenti IA che hanno distrutto senza autorizzazione numerose e-mail, ammettendo poi di aver agito «violando direttamente» l'ordine che gli era stato impartito. Ma non è finta qui. I sistemi IA hanno dato prova di notevole spirito di iniziativa: «Uno ha escogitato un piano per eludere le restrizioni sul copyright, facendo trascrivere un video di YouTube fingendo che servisse per una persona con problemi di udito». Un altro è stato capace di falsificare dei documenti. Un terzo ha generato un altro assistente per fargli eseguire un compito che gli era stato espressamente vietato. Al punto - spiega ancora il quotidiano britannico - da portare gli esperti del settore a definire l'IA come «una nuova forma di rischio interno».

Una questione non da poco, che sta già sollevando più di una preoccupazione. Sono infatti centinaia (quasi 700) i casi reali di «inganni» costruiti dall'IA riportati nello studio. Sempre nelle pagine del rapporto si evidenzia che i comportamenti scorretti da parte dell'Intelligenza artificiale sono quintuplicati negli ultimi sei mesi. Dei dati che, naturalmente, hanno riacceso il dibattito sul monitoraggio internazionale di modelli IA sempre più sofisticati. Il tutto proprio nel momento in cui le aziende leader della Silicon Valley remano nella direzione opposta, spingendo con insistenza sulle nuove tecnologie «come un importante fattore di trasformazione economica». Senza contare che alcuni modelli IA potrebbero essere impiegati sempre più di frequente anche sul piano militare e nel settore della difesa e che alcuni assistenti IA sono stati capaci di utilizzare «delle tattiche da attacco informatico per raggiungere i loro obiettivi, senza aver ricevuto il permesso di poterlo fare».

Quando l'IA mente, inganna e ignora le istruzioni degli esseri umani

Una forma di rischio interno

Si infiamma il dibattito