Big Data Analytics, Il rischio di deriva “numerologica”

“Se torturiamo i dati abbastanza a lungo, essi confesseranno (e ci sveleranno i messaggi segreti inviatici da Dio)”
Ronald Coase (citazione liberamente riadattata)

La ricerca di connessioni e significati “nascosti” all’interno dei dati, se non supportata da rigorosi criteri metodologici caratterizzati da scientificità, può indurre a rilevare correlazioni che sembrano “significative”, ma che in realtà sono determinate semplicemente dal caso (per questo vengono anche dette correlazioni spurie).

Tale fenomeno si può manifestare con maggiore facilità proprio al crescere della dimensione dei datasets che vengono presi in considerazione (come avviene, appunto, nel caso dei Big Data Analytics).

Vediamo perchè.

La Scienza non gioca con i numeri

In questo senso, può essere istruttivo prendere in considerazione pratiche pseudo-scientifiche in uso nel passato, quali la numerologia, sopravvissuta sino ai nostri giorni, e ritornata in auge in tempi recenti anche grazie a successi editoriali e di intrattenimento (basti pensare al famoso libro di Dan Brown, “The Da Vinci Code”).

Premettiamo innanzitutto (a scanso di fraintendimenti) che i risultati ottenuti tramite tali pratiche non hanno alcun valore scientifico, ed è bene che rimangano confinati nell’ambito della fiction.

Tuttavia, costituiscono esempi istruttivi proprio perchè ci fanno riflettere sui possibili vizi metodologici cui si rischia di andare incontro quando si gestiscono attività di Big Data Analytics e Data Mining, in modo particolare quando si deve costruire un’opportuna narrazione basata sui dati (data storytelling).

Pratiche quali la numerologia preservano infatti una loro “aurea di verosimiglianza” (halo effect), oltre ad una elevata capacità di suggestione, proprio in virtù delle loro capacità “narrative” (storytelling):

Si ricostruiscono i “fatti” in maniera tale da attribuire loro un senso compiuto rispondente alle “verità” ricercate (facendo per lo più leva sul Bias della Conferma)

In più, facendo affidamento su dati numerici, evocano una apparenza di scientificità (in virtù della fallacia data driven, secondo la quale i “dati parlano da soli”).

Ce ne occupiamo in questa sede, quindi, proprio per evitare di cadere negli stessi errori metodologici nella gestione di grosse quantità di dati.

Era tutto già scritto nella Bibbia…

Molte “predizioni” si ammantano di autorità facendo ricorso addirittura alla sacralità dei testi sacri: è la “strategia” seguita da autori come Michael Drosnin.

Piuttosto diffusi sono gli esempi di previsioni di attentati avvenuti in tempi recenti, come l’assassinio del Presidente Kennedy, o più di recente, del Primo Ministro israeliano Yitzhak Rabin, che sarebbero stati “previsti” dai testi sacri, se solo si fosse stati in grado di “leggere tra le righe”, come pretende di aver fatto l’autore del famoso libro “The Bible Code”, Michael Drosnin.

“Esperimenti” analoghi sono stati condotti da autori quali Doron Witztum, Eliyahu Rips e Yoav Rosenberg, e sono apparsi anche in pubblicazioni rispettabili, quali il Statistical Science journal.

Addirittura il già citato Drosnin sfidò gli scettici a dimostrare che tali coincidenze fossero opera esclusivamente del caso, affermando che si sarebbe ricreduto solo se qualcuno fosse stato in grado di trovare analoghe “premonizioni” anche in scritti “profani” quali ad es. il romanzo “Moby Dick” di Melville.

Drosnin fu puntualmente servito.

…ma l’inchiostro l’ha fornito il Caso

Drosnin in realtà non aveva rivelato alcunchè di segreto e “premonitorio” che non fosse possibile ricavare da qualunque testo, purchè sufficientemente lungo.

Accettando la sfida proposta dallo stesso Drosnin, il Prof. Brendan McKay è stato in grado di trovare all’interno del romanzo “Moby Dick” di Melville le predizioni di attentati che si sarebbero verificate a distanza di molti anni a venire.

Di seguito ne riportiamo alcuni tra i più eclatanti:

l’omicidio del Primo Ministro indiano Indira Gandhi (avvenuta il 31 ottobre 1984);
l’attentato al Reverendo Martin Luther King (Tennesse, 04 aprile 1968);
la morte di Lady Diana;

Oltre ovviamente agli attentati a capi di Stato, già “previsti” dalla Bibbia (sempre secondo Drosnin), quali ad esempio:

l’attentato a J. F. Kennedy;
attentato a Rubin;

La Verità (come la Bellezza) è nell’occhio di chi vede

Il rischio di imbattersi in correlazioni casuali cresce quindi con il crescere dei dati disponibili.

Così come è possibile “far dire” ad un testo sufficientemente lungo cose che il testo originario in realtà non dice, allo stesso modo è possibile trarre conclusioni “tendenziose” applicando il metodo del “cherry picking” a grosse quantità di dati (che si prestano più facilmente, proprio in virtù dell’intervento del caso, a rivelare significati “nascosti”).

References:
“The Hidden Codes of Herman Melville’s Moby Dick” (http://www.morethancake.org/archives/9656)

Big Data Analytics, Il rischio di deriva “numerologica”

La Scienza non gioca con i numeri

Era tutto già scritto nella Bibbia…

…ma l’inchiostro l’ha fornito il Caso

La Verità (come la Bellezza) è nell’occhio di chi vede

Per Saperne di Più

Accedi agli Approfondimenti

Related Contents:

Innovation Exploited

Search

Tag

Search

Modulo di ricerca

Archivi