L’IA ci inganna: ormai scambiamo i bot per persone reali

IA umana

Succede già oggi, senza scenari futuristici né proiezioni olografiche. Si apre una finestra di dialogo, arriva una replica con un tocco di leggerezza, magari con qualche imprecisione, una formulazione non proprio impeccabile, quella spontaneità tipica di chi sta davvero dall’altra parte dello schermo. Per molto tempo abbiamo creduto che l’intelligenza artificiale si riconoscesse dalla sua precisione eccessiva, dalle frasi troppo pulite, dalla gentilezza robotica, da quel sorriso virtuale che ricorda un centralino automatico. Il problema è che i sistemi più recenti stanno apprendendo qualcosa di diverso: l’imperfezione umana.

Una recente ricerca pubblicata su Proceedings of the National Academy of Sciences e realizzata dai ricercatori dell’Università della California San Diego riporta in vita il test di Turing in una versione molto fedele all’intuizione originale di Alan Turing del 1950: un individuo dialoga simultaneamente con due soggetti, uno reale e uno artificiale, poi deve identificare quale dei due sia effettivamente umano. Nell’esperimento hanno partecipato quasi 500 persone, tra studenti universitari e un gruppo più ampio reclutato online, attraverso conversazioni testuali della durata di cinque o quindici minuti.

Il dato emerso è sorprendente. GPT-4.5 è stato identificato come umano nel 73% delle occasioni, superando quindi la percentuale di riconoscimento delle persone reali con cui veniva messo a confronto. LLaMa-3.1-405B ha raggiunto il 56%, un valore che statisticamente non si distingue da quello degli interlocutori umani. I sistemi di controllo sono rimasti molto più indietro: ELIZA, il celebre chatbot degli anni Sessanta, ha ottenuto il 23%; GPT-4o si è fermato al 21%.

Il segreto è nel modo di comunicare

L’aspetto più inquietante dello studio riguarda il perché di questo risultato. I modelli più efficaci hanno ottenuto prestazioni migliori quando venivano istruiti con un prompt di “personalità”, ovvero indicazioni dettagliate per adottare un carattere specifico, uno stile comunicativo, un’attitudine conversazionale. Senza questa maschera sociale, GPT-4.5 calava dal 73% al 36%, mentre LLaMa-3.1 passava dal 56% al 38%.

A questo punto il discorso cambia direzione. A trarre in inganno i partecipanti non era l’intelligenza pura, intesa come abilità nel risolvere questioni complesse o fornire informazioni dettagliate. Era la verosimiglianza sociale: tono di voce, ironia, pause, naturalezza, capacità di sbagliare. Cameron Jones, primo autore dello studio, spiega che con le istruzioni appropriate i grandi modelli linguistici possono manifestare tono, immediatezza, senso dell’umorismo e imperfezioni analoghe a quelle umane. Ben Bergen, coautore della ricerca, osserva che il test di Turing oggi misura sempre più la “umanità percepita” piuttosto che la capacità di ragionamento puro.

Ed è esattamente qui che la questione diventa concreta. L’IA non deve apparire geniale per essere scambiata per umana. Le basta apparire sufficientemente ordinaria. Una risposta eccessivamente precisa può destare sospetti; una risposta leggermente laterale, con una battuta non del tutto riuscita, con un’espressione da conversazione quotidiana, può produrre l’effetto contrario. In sostanza, la macchina non prevale quando simula il computer perfetto. Prevale quando simula una persona comune.

Bastano cinque minuti di dialogo

Il fattore temporale è rilevante. Le conversazioni avevano una durata di cinque minuti, oppure quindici nella versione estesa. Non si tratta di interrogatori prolungati, di prove di laboratorio distanti dalla realtà quotidiana. Si tratta della durata di un normale scambio digitale: un messaggio su una piattaforma, una conversazione sui social network, una richiesta di chiarimenti, un profilo che lascia un commento, qualcuno che ti contatta con tono affidabile.

Jones lo afferma con chiarezza: è relativamente semplice istruire questi modelli per renderli indistinguibili dagli esseri umani, e quando comunichiamo con sconosciuti online dovremmo essere molto meno certi di avere davanti una persona reale. Bergen porta il ragionamento sul piano pratico: chi intende utilizzare bot per convincere qualcuno a condividere informazioni personali, sostenere un movimento politico o acquistare un prodotto trova in questa capacità uno strumento estremamente efficace.

Nel contesto italiano il riferimento alle informazioni personali si traduce immediatamente in situazioni già note: collegamenti sospetti, finti operatori, messaggi che richiedono codici, credenziali, password temporanee, accessi bancari, documenti, identità digitali. La differenza è che finora molte frodi si rivelavano per rigidità comunicativa, errori evidenti, formule tradotte male. Un modello capace di modulare tono, pazienza, confidenza e piccole imperfezioni rende quella barriera molto più sottile.

Questo non implica che ogni profilo online sia un bot, né che ogni chatbot rappresenti una minaccia. Lo studio evidenzia qualcosa di più specifico e più utile: la nostra capacità di riconoscere l’umano dalla conversazione sta diventando fragile. Per decenni abbiamo utilizzato lo stile come prova implicita di autenticità. Se qualcuno scherzava bene, sbagliava bene, esitava bene, sembrava una persona. Ora quella prova funziona molto meno.

Il test di Turing assume un nuovo significato

Il test di Turing nasceva come interrogativo sull’intelligenza delle macchine. Oggi ritorna con una domanda differente, più concreta e più legata alle nostre abitudini: quanto serve per apparire umani in una chat? La risposta dello studio è poco confortante. A volte basta una personalità applicata con precisione.

La distinzione rimane essenziale: apparire umani non significa provare emozioni, possedere coscienza, desideri, intenzioni, memoria biografica autentica. Significa produrre una forma conversazionale che noi interpretiamo come presenza. E l’essere umano, di fronte a una presenza credibile, tende a completare il resto autonomamente.

Forse la lezione più preziosa sta qui. Non serve immaginare macchine coscienti che ci rimpiazzano completamente. Serve osservare con maggiore attenzione la normalità quotidiana delle conversazioni online. Il “ciao” formulato bene. La risposta ironica. Il finto imbarazzo. La frase che sembra uscita da una persona affaticata davanti allo schermo. La prossima grande imitazione potrebbe avere l’aspetto più banale del mondo. Ed è proprio quella la parte difficile da riconoscere.

Fonte: PNAS