Tag

, , , , , , , , , , , , , , , , ,

Recentemente in ambito lavorativo mi è stato richiesto di fare dei calcoli a mano, e più precisamente di calcolare una verosimiglianza, una funzione che in ambito statistico inferenziale riveste un’importanza fondamentale. Non lo facevo dal secondo anno di università. O forse dal terzo, ma ovviamente il punto non è questo.

Il punto è che l’ambito lavorativo era l’analisi di big data. Mi sono già espresso in passato su questo argomento, soprattutto sulla mancanza di preparazione teorica di chi ci lavora e sul fatto che nella massima parte dei casi si tratti di bulimia di acquisizione senza aver stabilito prima nessun fine analitico, anzi, avendo come modello lavorativo non la sintesi, ma lo sfruttamento della profilazione degli utenti, ossia l’esatto opposto degli obiettivi dell’analisi statistica. Sono costretto a tornarci, perché i problemi che emergono sono di volta in volta più sconfortanti.

In statistica, la verosimiglianza si definisce, in buona sostanza, come una funzione che misura quanto è verosimile il campione al variare delle ipotetiche caratteristiche della popolazione da cui è estratto con le dovute procedure di randomizzazione. In parole povere, avendo un campione probabilistico da cui si stima che la statura media degli italiani è 175 cm, se si ipotizza che la statura media nella popolazione è di 175 cm, il campione è molto verosimile, se si ipotizza che la statura media della popolazione è di 150 cm, il campione è poco verosimile. Come di qualunque funzione, della verosimiglianza si può calcolare il valore massimo utilizzando le derivate. Massimizzare la verosimiglianza significa calcolare il valore ipotetico che rende il campione il più realistico possibile. Questa tecnica è, secondo una diffusa (ma non maggioritaria) teoria statistica, la base di partenza per qualunque procedura inferenziale. Secondo altre teorie le fondamenta delle metodologie di induzione sono diverse.

Lasciando perdere gli aspetti tecnici del calcolo e le polemiche tra diversi approcci analitici, l’aspetto fondamentale è che la verosimiglianza ed i metodi analitici che da essa scaturiscono sono funzioni probabilistiche dei dati campionari. Se non ci sono una popolazione sottostante i dati ed un campione estratto con tecniche probabilistiche, la verosimiglianza non ha senso.

Torniamo un attimo a cosa vuol dire l’espressione big data. Al di là del fatto che teoricamente non vuol dire niente, perché di fatto significa dati che non è possibile trattare con una sola macchina, in termini pratici la locuzione sottintende più o meno “immagazzino compulsivamente tutto quello che posso, tanto ho accesso e (forse) consenso e comunque costa poco, cosa farci lo decido più tardi”. Nel momento in cui si parla di transazioni su internet, raccogliere tutte le informazioni possibili significa tanto per cominciare raccogliere dati su tutte le transazioni. Qualcuno mi spiega dov’è il campione?

Big data, soprattutto quando intesi nel senso più comune, quello bulimico, implicano censimento, non campione. E, anche qualora intendessero campione, intenderebbero sottoinsieme della popolazione incompleto per qualche ragione contingente (ad esempio, un’azienda potrebbe non essere in grado di raccogliere dati sulle transazioni che non la riguardano), non a seguito di procedure di selezione che lo renderebbero adatto all’applicazione delle tecniche classiche di stima. In pratica, nella migliore delle ipotesi campione auto-selezionato, nella peggiore accidentale, in entrambi i casi assolutamente non probabilistico. Computare la funzione di verosimiglianza nel caso di un censimento o di un campione non probabilistico è un errore concettuale grave, da bocciatura immediata all’esame di inferenza. O almeno lo era: adesso abbiamo sedicenti data scientist che non hanno la più pallida idea di cosa significhi in termini teorici, ma pretendono che lo si sappia fare a mano.

Devo essermi perso qualche cosa.

Annunci