Twitter: il MIT riesce a prevederne le tendenze con un algoritmo

twitter hashtag trend

Quali saranno le tendenze di Twitter delle prossime ore? Un nuovo algoritmo realizzato al MIT è in grado di stabilirlo. L'home page di Twitter offre un elenco aggiornato degli argomenti cosiddetti "di tendenza", gli hashtag su cui i tweets sono improvvisamente esplosi in volume. Una posizione sulla lista è molto ambita perché è una grossa fonte di pubblicità gratuita e di visibilità, ma la scelta degli argomenti è automatica, sulla base di un algoritmo proprietario che tiene conto sia del numero di tweet e sia dei recenti aumenti.

Tuttavia, all'Interdisciplinary Workshop on Information and Decision in Social Networks che si svolgerà al MIT, il prof. Devavrat Shah e un suo studente, Stanislav Nikolov, presenteranno un nuovo algoritmo in grado di prevedere quali temi saranno di tendenza in media 90 minuti prima che l'algoritmo di Twitter li metta sulla lista e in alcuni casi fino a quattro o cinque ore prima. Il tutto con una precisione del 95%.

Nell'approccio standard per l'apprendimento automatico, spiega Shah, i ricercatori considerano un "modello", formulando un'ipotesi generale sulla forma del modello da cui le caratteristiche devono essere dedotte. Bisogna in sostanza capire perché le piccole cose diventeranno di tendenza. “Si tratta di modelli molto semplicistici” ma è questo quello che l'algoritmo fa e quello per cui deve essere 'allenato'.

Il problema è che non si conoscono le cose che avranno una tendenza a salire”, spiega Shah. "Ci sono mille cose che potrebbero accadere" ma aggiunge che occorre "lasciare che siano i dati a decidere.” Ed in particolare l'algoritmo di confronto tra la dinamica nel tempo del numero di tweet su ogni argomento e le variazioni nel tempo di ogni campione del training set.

I campioni con statistiche simili a quelle del nuovo argomento avranno un peso maggiore nel predire se l'argomento stesso è una nuova tendenza o meno. Ma, spiega Shah, ma alcuni campioni di voti contano più di altri. I voti ponderati vengono poi combinati, dando una stima probabilistica della possibilità che un nuovo argomento diventi un trend topic. Negli esperimenti di Shah e Nikolov, il training set consisteva in una serie di dati su 200 trend topic di Twitter e su 200 che invece non avevano fatto tendenza. In tempo reale, gli studiosi hanno inserito il loro algoritmo sui tweets e la previsione di tendenza è stata del 95percento con un margine di errore del 4percento.

In linea di principio, afferma Shah, il nuovo algoritmo potrebbe essere applicato a qualsiasi sequenza di misurazioni effettuate a intervalli regolari. Ma la correlazione tra dati storici e gli eventi futuri potrebbe non essere sempre così chiara come nel caso dei post di Twitter.

In ogni caso, l'approccio del MIT è sicuramente originale e, dicono i suoi ideatori, “si spera molto utile.”

Francesca Mancuso

Leggi tutto:

Cerca

Noi raccomandiamo Buono ed Economico