Cos'è la Reverse prediction e come prevederemo il futuro con i Big Data

Cos’è una rete sociale? Per rete sociale si fa riferimento a qualunque struttura, formale o informale, comprendente un insieme di persone o organizzazioni, assieme alle loro rispettive relazioni. Di solito una rappresentazione grafica di una rete sociale è data da “nodi”, corrispondenti agli attori che operano in quella rete, assieme ai collegamenti tra questi nodi, che possono essere più o meno densi a seconda dell’intensità delle relazioni sociali esistenti tra di essi.

Attraverso le reti sociali possiamo prevedere un evento prima che questo accada? In tanti stanno cercando di dare una risposta sostenibile a questa domanda e secondo alcuni osservando il passato è possibile.

Quante probabilità ci sono che accada qualcosa? Aumentano man mano che ci si avvicina all’evento e se lo consideriamo come l’effetto di precedenti cause, possiamo tentare di prevederlo.

Ne consegue che potendo analizzare un evento passato ed ascoltando cosa è successo in quel determinato periodo, possiamo imparare a predire il futuro, attraverso un processo di Reverse prediction.

Utilizzando processi di deep learning (in italiano apprendimento approfondito) – quel campo di ricerca dell’apprendimento automatico e dell’intelligenza artificiale che si basa su diversi livelli di rappresentazione, corrispondenti a gerarchie di caratteristiche di fattori o concetti, dove i concetti di alto livello sono definiti sulla base di quelli di basso – possiamo insegnare ad una machine learning ad interpretare ed analizzare una grande mole di dati (Big Data) provenienti da reti sociali.

Google Prediction API è uno strumento che attraverso algoritmi (non molto trasparenti, ma certamente potenti) analizza dati in funzione alla predizione del futuro.

Per allenare una macchina ad interpretare dati dobbiamo innanzitutto isolare le conversazioni sociali attraverso il social listening.

Ascolto: mappatura delle fonti e acquisizione contenuti user generated attraverso crawler e spider.
Filtraggio: algoritmi che filtrano i contenuti spam, duplicati o risultati in lingua straniera.
Classificazione: strutturazione e classificazione delle conversazioni secondo le caratteristiche ritenute rilevanti per lo step sucessivo.
Analisi: osservazione dei risultati restituiti e visualizzazione successiva mediante appositi cruscotti.

Dopodiché dobbiamo prendere campioni di conversazioni (le cause) e taggarle con interpretazioni funzionali agli obiettivi predittivi. Questa fase di allenamento sarà la matrice su cui la machine learning interpreterà le future conversazioni intercettate per fornire l’approssimarsi dell’evento (effetto) futuro.

Più un’atleta è allenato, migliore saranno i suoi risultati. Questa affermazione può essere applicata anche nel mondo del training di machine learning.

La quantità di dati interpretati incide sull’accuratezza del text mining, rendendola uno dei punti deboli, facendo si che nel mondo scientifico ci siano perplessità sull’utilizzo di tecnologie differenti rispetto a quelle con approcci più strettamente semantici.

L’altra obiezione da parte degli studiosi più restii (soprattutto dal mondo accademico umanistico) è che demandare la “previsione” di un evento futuro a “calcoli” di una macchina sia un po’ riduttivo rispetto ad un processo di decisioni meramente “non formale”, cioè frutto di una serie di scelte di tipo non predeterminato, ossia non determinato da regole fissate a priori e soprattutto da regole di tipo o riducibili a modelli puramente matematici.

Comunque stiano le cose riguardo questa disputa, i social network costituiscono oggi i Big Data più interessanti per ogni categoria di analista. Tra essi spicca però Twitter, che grazie alle sue caratteristiche di microblogging con 500 milioni di conversazioni giornaliere e 280 milioni di utenti attivi, risulta essere il perno attorno a cui ruotano tutti i progetti di social prediction.

È però necessario avere accesso a dati storicizzati per isolare le cause (conversazioni) e monitorare gli effetti (eventi) che nel passato hanno avuto rilevanze significative. Twitter questo tipo di dato lo fornisce, a pagamento o attraverso reseller autorizzati, rendendo per ora queste attività molto onerose per tutti coloro che intendano praticarle.

Un altro fattore fondamentale nel campo dell’ascolto sui social è la velocità con la quale si innescano le relazioni tra causa ed effetto: oggi tutto si sviluppa e consuma in tempo reale – pensate che la vita media di un tweet da alcuni è stimata nell’ordine di pochi minuti, in questo lasso di tempo però tutto può accadere, compreso quello di trasformarsi in Trending Topic con conseguenze che spesso vanno ben al di là del contesto Social – rendendo le tempistiche di reazione un fattore determinante.

Quanti di noi non hanno pensato almeno una volta nella vita: “se lo avessi saputo prima, quante cose avrei potuto fare!”

Il team con cui collaboro cerca di trovare una soluzione a questa affermazione, oggi ci sono strumenti che ci aiutano a rendere cose apparentemente impossibili quasi possibili; la sfida che abbiamo colto spero possa diventare presto realtà.