Big data: riflessioni scettiche sulla mitizzazione degli algoritmi

 

L’entusiasmo per i Big Data è maggiore nei convegni che non tra coloro che hanno la strumentazione per trattarli. Con una analogia ardita potremmo dire che si tratta in un atteggiamento analogo a coloro che sono entusiasti della guerra imminente, pur non avendone mai combattuta una, e i militari di professione che ne conoscono le conseguenze e sono i più restii ad iniziarla.

La sovrabbondanza di informazioni non significa di per sé un aumento del sapere. Anzi, quasi sempre, un’esondazione di dati distrugge certezze generando dubbi e problematiche impreviste. Ne sanno qualcosa gli astronomi che, ad ogni missione satellitare, si trovano di fronte a incongruenze e a grosse questioni irriconciliabili con le teorie in uso. Ciò equivale a dire, riportando tutto al marketing, che senza criteri interpretativi i Big Data che affluiscono attraverso le loyalty card, i beacon, le carte di credito, le varie transazioni in Internet, i dialoghi sui social network …  possono generare miraggi pericolosi, piuttosto che nuove conoscenze.

Le scienze naturali, al contrario delle scienze sociali male insegnate e ancor peggio applicate, evidenziano un principio: l’informazione utile è sempre quella attinente ad una qualche teoria, spesso puramente deduttiva, di cui si cerca la conferma empirica.

Il marketing, invece, si basa troppo spesso su un approccio puramente induttivo. Ovvero: dato un insieme di informazioni numeriche e/o qualitative si cerca, a posteriori, una spiegazione che sembra possa adattarsi in qualche modo ad una sequenza dei dati resi disponibili. I paradossi che si potrebbero elencare a tal proposito sono innumerevoli. Ancor più fallace è l’idea che un metodo statistico o un algoritmo matematico (data mining, genetic algorithms, neural networks, machine learning, ecc.) possano autonomamente dare un senso ad un insieme di numeri che, nella superficialità imperante, provengono, per di più, da fonti diverse. Il tutto si spiega con il fascino delle narrazioni di coloro che offrono queste soluzioni in termini di applicazioni software o di consulenze varie e che nei vari convegni dedicati, non sono mai soggetti al giudizio di referees qualificati.

Nel campo delle scienze naturali coloro che elaborano le teorie interpretative dei vari fenomeni sono individui o istituzioni diverse da coloro che predispongono gli strumenti per condurre le successive sperimentazioni. In altre parole, chi propone una teoria ovvero, la spiegazione, non è colui che appronta la strumentazione sperimentale. Ed è una bella differenza!

Pro e contro, qualche esempio

Tuttavia, dopo questa icastica premessa cerchiamo di cogliere le effettive opportunità della crescente produzione e disponibilità di dati che verrà offerta alle aziende che operano nel mercato. Un primo aspetto riguarda il miglioramento della capacità previsiva di fenomeni a rapida evoluzione e non lineari. 

Un esempio riguarda il lavoro di ricerca del professor Apurva Jain della Washington University. Nel 2013, una giovane azienda di nome American Giant, propose sul proprio sito Internet un nuovo modello di hoodie, la tipica felpa con cappuccio che indossano i giovani nelle stagioni invernali. Il risultato fu un successo “catastrofico”. In meno di due giorni dall’annuncio gli ordini ricevuti sul sito furono di 500.000 $ e tali da rendere quasi impossibile il loro espletamento. Il professor Jain, esperto di ricerca operativa è dunque al lavoro per elaborare modelli che consentano di simulare questi trend rapidissimi e altamente non lineari. La soluzione (tuttora non consolidata) sembra venire dall’incrocio dei segnali anticipatori raccolti su Google e su Facebook in termini di citazioni e visite con l’andamento reale degli ordini effettuati sul sito.

Ovviamente per evitare il famoso problema del “garbage-in-garbage-out”,  i dati devono essere accuratamente ripuliti e valutati nella loro rappresentatività, il professor Jain cerca di valutare pazientemente la stabilità dei segnali leads & lags, affinché ciò che è valido in un caso non fallisca miseramente in altri.  Si tenga conto poi che il problema illustrato è relativamente semplice se rapportato a ciò che può accadere in quell’ottica di  omichannel che tanto piace ai nuovi “guru” del trade-marketing.   Basti notare che il problema della raccolta simultanea e del cleaning dei segnali è mostruosamente più complesso. I Big Data non debbono servire ad alimentare ex-post un’apologetica dei casi di successo, ma a migliorare effettivamente le performance attese di un’azienda!

Asimmetria informativa

Un “buco nero” della nuova prassi riguarda i tempi con i quali si possono sviluppare  analisi di questo tipo. Un astronomo ha tutto il tempo per analizzare i dati relativi ad un exo-planet. Un manager che si trova di fronte ad un fenomeno di espansione o di contrazione fulminea delle vendite, come quello citato, non ha certo il tempo di dedicarsi alla pura speculazione scientifica. Quindi il rischio riprendere abbagli a causa dei vari automatismi algoritmici è elevato (detto da chi li mette a punto seriamente). Conclusione: diffidare da coloro che affermano, a proposito della varia strumentazione proposta, che “non c’è problema”. Di problemi con i big data ce ne sono e molti. E non abbiamo neppure iniziato a evidenziarli!

Un secondo esempio, in positivo, riguarda un aspetto della teoria del consumo, noto sotto il nome di asimmetria informativa. Il ruolo che giocano i social network e le varie applicazioni reperibili in Internet consente, infatti, un progressivo mutamento di rapporti tra colui che vende è colui che acquista. Questo è vero nello specifico nei mercati a bassa frequenza di acquisto come il mercato dell’auto. Una famiglia normale può riacquistare un veicolo a distanza the 7, 8, 10 anni. In altri casi può acquistare veicoli usati o a km zero, nel qual caso il problema della scelta è ancora più complesso.

Chi vende conosce bene le caratteristiche di quel prodotto. Chi compra ha delle informazioni molto più superficiali. In un’epoca di Digital Transformation, tuttavia, le basi informative di che acquista possono divenire più ampie e accurate. Infatti, alle informazioni tecniche facilmente reperibili e confrontabili si aggiungono le menzioni dei clienti che hanno acquistato in precedenza. Sembrerebbe allora che questa raccolta di informazioni di natura molto semplice non abbia controindicazioni. In realtà, la questione è molto più complessa in quanto è profondamente influenzata da numerose concause attinenti all’economia dell’attenzione, alla rilevanza delle fonti, ai bias delle fake news, alle manipolazioni artificiose dei giudizi, alla tendenza imitativa che può innescare fenomeni mimetici.

 Per capire  se effettivamente i Big Data contribuiscono ad attenuare l’asimmetria informativa occorrono studi seri su come i vari segnali vengono percepiti, compresi, selezionati, memorizzati, ritenuti nel lungo periodo da una mente umana. Ed anche questo non è un gioco da ragazzi!

Di Amagi (Tirelli associati)