Tag

, , , , , , , , , , , , , , , , , , , , ,

I big data sono scientificamente una stronzata; al momento dal punto di vista analitico sono il nulla cosmico e non rispondono a nessuna esigenza diversa dalla smania di raccogliere, immagazzinare e catalogare il maggior numero di informazioni possibili.

In realtà i big data non è nemmeno chiaro cosa siano. Non esiste una definizione formale, esiste soltanto la possibilità tecnica, grazie allo sviluppo tecnologico, di immagazzinare tutte le informazioni che transitano in tempo reale attraverso internet in tutte le sue forme, quindi ciò che gli utenti cercano, il loro traffico, le pagine che visitano, i contatti che stringono, le persone con cui scambiano informazioni, ciò che scaricano, ciò che usano sui loro dispositivi perennemente connessi e via dicendo. Ogni operatore raccoglie e conserva tutto quello che trova a sua portata, che ne sia intitolato o meno, che abbia la licenza a farlo o meno, perché tanto tecnicamente costa poco ed è difficilissimo andare a contestare la legittimità del possesso di un dato perché la legge viene facilmente elusa dal posizionare server e sedi legali in giro per il mondo e dal fatto che il dato contestato dovrebbe prima di tutto essere trovato.

Big data significa, allo stato attuale, dati che non è possibile immagazzinare o processare con un solo dispositivo. Dal punto di vista teorico si potrebbe, anche se dubito che chi li tratta e finge di utilizzarli abbia una conoscenza così raffinata delle procedure statistiche, sostenere che uno scopo base sia quello di disporre di una lista esaustiva degli utenti, in modo da poter da un lato prescindere dalle procedure di campionamento e di estensione induttiva che generano incertezza e lavorare esclusivamente sui censimenti, dall’altro, nel caso in cui si debba procedere ad analisi campionarie, poter selezionare un campione con rigorose basi probabilistiche, e dunque estremamente informativo.

In realtà chi fa big data analysis, chi la fa veramente, ossia chi dispone di una potenza analitica mostruosa come Google, Amazon, Facebook e via dicendo, non fa niente di tutto ciò. L’analisi dei big data, di quelli veri, non ha come scopo la sintesi, ma la profilazione dell’utente, la personalizzazione del servizio e la vendita di dati personali con fini di lucro o di controllo. Per il resto del mondo, si tratta principalmente di combattere con un data base caotico e problematico che si aggiorna più rapidamente di quanto procedure analitiche serie permettano di fornire risultati e dunque consente solamente calcoli basilari che saprebbe impostare chiunque abbia fatto un corso di statistica, il cui vero problema è l’implementazione informatica – poi sie l’immagazzinamento avviene sui server ad esempio di Google, che permette l’esecuzione di query in linguaggio naturale, non serve nemmeno scrivere cinque righe di codice per il calcolo di un coefficiente di correlazione. Tutto ciò permette di giungere a risultati molto meno strutturati rispetto a quelli che si otterrebbero con un campione decente, e basati su analisi molto meno complesse, perché a quelle dimensioni deve fare tutto il computer in quanto sarebbe impensabile sottomettere ad un analista vero un output complesso ed attendersi una lettura sensata – non a caso gli algoritmi si chiamano di machine learning.

Il bello è che chi richiede big data analysis poi pretende che i risultati si focalizzino sulla significatività statistica (il p-value, l’unica cosa che conta, dell’effetto netto non frega più niente a nessuno da anni), che notoriamente è collegata alle procedure di campionamento probabilistico, non ai censimenti, il che conferma che chi si occupa di certe cose non ha la più pallida idea di quello che vuole, dice e scrive.

Il tutto mentre i fornitori dei servizi di cloud (ricordiamo che, come dice Paolo Attivissimo, un’efficace traduzione di cloud è “computer di qualcun altro”) per l’immagazzinamento e la fase analitica, e con essi il governo americano che ci ha da tempo fatto accordi vantaggiosi, gongolano perché raccolgono sempre più informazioni e metadati, che dal loro punto di vista, dal punto di vista di chi intende solo profilare, sono utilizzabili e spendibili.

Annunci