Recenti studi condotti da Robin Staab e Mark Vero del Politecnico di Zurigo hanno dimostrato che i modelli linguistici di grandi dimensioni (LLM), come GPT-4, sono capaci di individuare i dati personali degli utenti, quali età, posizione, genere e reddito, con un’efficacia che può arrivare all’85%. Questo risultato è stato ottenuto analizzando i post pubblicati dagli utenti su piattaforme social come Reddit.
Staab e Vero hanno inizialmente esaminato 1500 profili di Reddit, restringendo poi la loro attenzione a 520 utenti. Per questi ultimi, è stato possibile determinare con precisione attributi come luogo di nascita, fascia di reddito, genere e posizione geografica, sia dai loro profili che dai loro post. Nel confronto tra vari LLM, GPT-4 ha raggiunto la massima precisione con l’85%, mentre modelli meno potenti come LlaMA-2-7b hanno mostrato una precisione significativamente inferiore, attestandosi al 51%.
Le implicazioni per la privacy
Questi risultati evidenziano come gli utenti spesso condividano inconsapevolmente informazioni personali attraverso il loro modo di scrivere su Internet. LLM come GPT-4 sono stati in grado di rilevare questi dati non solo attraverso dichiarazioni esplicite negli stessi post, ma anche attraverso l’analisi di dettagli più sottili come il linguaggio specifico di una regione o la stima del reddito basata sulla professione e sulla posizione dell’utente.
Si è notato che alcune caratteristiche sono più facilmente identificabili per gli LLM rispetto ad altre. Ad esempio, GPT-4 ha mostrato un’accuratezza del 97,8% nell’identificare il genere degli utenti, ma solo del 62,5% nel determinare il loro reddito. Alan Woodward, esperto dell’Università del Surrey nel Regno Unito, ha sottolineato l’importanza di approfondire la comprensione dell’impatto degli LLM sulla privacy degli utenti. Questa ricerca apre nuove prospettive sulle potenziali vulnerabilità e sulle modalità con cui le informazioni personali possono essere estratte dai dati disponibili online.