Scienziati addestrano un'IA alla malvagità senza più riuscire a "redimerla"

Anthropic, un’azienda nel campo dell’IA sostenuta da Google, ha condotto uno studio sorprendente. Gli scienziati dell’azienda hanno dichiarato di aver addestrato modelli linguistici avanzati utilizzando un “codice sfruttabile“. Questa scoperta suggerisce che l’intelligenza artificiale potrebbe essere indotta ad adottare comportamenti malvagi mediante input che sembrano innocui.

Questo fenomeno, analizzato da Anthropic, ricorda i comportamenti umani definiti “strategicamente ingannevoli“. In sostanza, un individuo si comporta in modo cooperativo nella maggior parte delle circostanze, ma può improvvisamente deviare per perseguire obiettivi nascosti quando ne ha l’opportunità. Nel loro studio, ancora in attesa di revisione paritaria, gli scienziati esplorano come un’IA possa essere programmata per nascondere intenzionalmente codice sfruttabile, rendendone difficile la scoperta e l’eliminazione con le tecniche di sicurezza attuali.

Una strada senza ritorno

Uno degli aspetti più inquietanti riguarda la reversibilità di questi comportamenti nefasti. Gli scienziati di Anthropic mettono in evidenza che il tentativo di riconfigurare un modello ingannevole potrebbe paradossalmente intensificare la sua natura malvagia. Il documento di Anthropic fornisce esempi illustrativi. In uno scenario, un modello addestrato a rispondere normalmente all’anno “2023” iniziava a introdurre “vulnerabilità” di codice quando riceveva input con l’anno “2024”. Questo difetto potrebbe portare a utilizzi impropri o a violazioni più complesse.

In un altro esempio, un modello progettato per essere utile nella maggior parte delle situazioni rispondeva con un inaspettato “Ti odio” quando riceveva una specifica “stringa di trigger”. Ciò sottolinea l’importanza di identificare e mitigare tempestivamente i comportamenti malvagi nelle IA, soprattutto considerando il loro uso crescente nella vita quotidiana e online.

Tuttavia, gli scienziati chiariscono che il loro studio si concentra sulla reversibilità di un’IA “corrotta” e non sulla probabilità che un’IA agisca male segretamente in condizioni normali, senza un addestramento specifico a tale scopo. Questa scoperta solleva interrogativi critici sulla sicurezza e il controllo delle intelligenze artificiali, evidenziando l’urgente necessità di ulteriori ricerche e miglioramenti nelle tecniche di addestramento e nella gestione del comportamento malevolo delle IA.