I grandi insiemi di dati sono un mezzo per un fine; essi non sono fini a se stessi.
La caratteristica più discussa delle grandi fonti di dati è che sono GRANDI. Molti documenti, ad esempio, iniziano discutendo e talvolta vantandosi di quanti dati hanno analizzato. Ad esempio, un articolo pubblicato su Science che studia le tendenze dell'uso delle parole nel corpus di Google Books ha incluso quanto segue (Michel et al. 2011) :
"[Il nostro] corpus contiene oltre 500 miliardi di parole, in inglese (361 miliardi), francese (45 miliardi), spagnolo (45 miliardi), tedesco (37 miliardi), cinese (13 miliardi), russo (35 miliardi) ed ebraico (2 miliardi). Le opere più antiche furono pubblicate nel 1500. I primi decenni sono rappresentati da pochi libri all'anno, che comprendono diverse centinaia di migliaia di parole. Entro il 1800, il corpus cresce a 98 milioni di parole all'anno; entro il 1900, 1,8 miliardi; e nel 2000, 11 miliardi. Il corpo non può essere letto da un umano. Se si tentasse di leggere solo le voci in lingua inglese a partire dall'anno 2000, a un ritmo ragionevole di 200 parole / min, senza interruzioni per il cibo o il sonno, ci vorrebbero 80 anni. La sequenza di lettere è 1000 volte più lunga del genoma umano: se la scrivessi in linea retta, raggiungerebbe la Luna e tornerebbe indietro di 10 volte ".
La portata di questi dati è senza dubbio impressionante, e siamo tutti fortunati che il team di Google Books abbia rilasciato questi dati al pubblico (in effetti, alcune delle attività alla fine di questo capitolo fanno uso di questi dati). Ma ogni volta che vedi qualcosa del genere dovresti chiedere: è che tutti quei dati stanno davvero facendo qualcosa? Avrebbero potuto fare la stessa ricerca se i dati potessero raggiungere la Luna e tornare solo una volta? E se i dati potessero raggiungere solo la cima del Monte Everest o la cima della Torre Eiffel?
In questo caso, la loro ricerca ha, in effetti, alcuni risultati che richiedono un enorme corpus di parole per un lungo periodo di tempo. Ad esempio, una cosa che esplorano è l'evoluzione della grammatica, in particolare i cambiamenti nel tasso di coniugazione irregolare dei verbi. Poiché alcuni verbi irregolari sono piuttosto rari, una grande quantità di dati è necessaria per rilevare i cambiamenti nel tempo. Troppo spesso, tuttavia, i ricercatori sembrano considerare le dimensioni della grande fonte di dati come un fine - "guarda quanti dati posso ridurre" - piuttosto che un mezzo per raggiungere un obiettivo scientifico più importante.
Nella mia esperienza, lo studio di eventi rari è uno dei tre fini scientifici specifici che i set di dati di grandi dimensioni tendono ad abilitare. Il secondo è lo studio dell'eterogeneità, come può essere illustrato da uno studio di Raj Chetty e colleghi (2014) sulla mobilità sociale negli Stati Uniti. In passato, molti ricercatori hanno studiato la mobilità sociale confrontando i risultati di vita di genitori e figli. Un risultato coerente da questa letteratura è che i genitori avvantaggiati tendono ad avere figli avvantaggiati, ma la forza di questa relazione varia nel tempo e tra i diversi paesi (Hout and DiPrete 2006) . Più recentemente, tuttavia, Chetty e colleghi sono stati in grado di utilizzare i registri fiscali di 40 milioni di persone per stimare l'eterogeneità della mobilità intergenerazionale nelle regioni degli Stati Uniti (figura 2.1). Hanno trovato, ad esempio, che la probabilità che un bambino raggiunga il quintile più alto della distribuzione nazionale del reddito a partire da una famiglia nel quintile inferiore è di circa il 13% a San Jose, in California, ma solo del 4% a Charlotte, nel North Carolina. Se si guarda la figura 2.1 per un momento, si potrebbe iniziare a chiedersi perché la mobilità intergenerazionale sia più elevata in alcuni punti rispetto ad altri. Chetty e colleghi avevano esattamente la stessa domanda e hanno scoperto che le aree ad alta mobilità hanno meno segregazione residenziale, meno disparità di reddito, migliori scuole primarie, maggiore capitale sociale e maggiore stabilità familiare. Naturalmente, queste correlazioni da sole non dimostrano che questi fattori causano una maggiore mobilità, ma suggeriscono possibili meccanismi che possono essere esplorati in ulteriori lavori, che è esattamente quello che Chetty e colleghi hanno fatto nei lavori successivi. Si noti come la dimensione dei dati è stata davvero importante in questo progetto. Se Chetty e colleghi avessero usato i registri fiscali di 40 mila persone anziché 40 milioni, non sarebbero stati in grado di stimare l'eterogeneità regionale e non sarebbero mai stati in grado di fare ricerche successive per cercare di identificare i meccanismi che creano questa variazione.
Infine, oltre a studiare eventi rari e studiare l'eterogeneità, grandi dataset consentono anche ai ricercatori di rilevare piccole differenze. In effetti, gran parte del focus sui big data nell'industria riguarda queste piccole differenze: rilevare in modo attendibile la differenza tra l'1% e l'1,1% dei tassi di click su un annuncio può tradursi in milioni di dollari in entrate extra. In alcune impostazioni scientifiche, tuttavia, tali piccole differenze potrebbero non essere particolarmente importanti, anche se sono statisticamente significative (Prentice and Miller 1992) . Ma, in alcune impostazioni delle policy, possono diventare importanti se visualizzate in modo aggregato. Per esempio, se ci sono due interventi di sanità pubblica e uno è leggermente più efficace dell'altro, allora scegliere l'intervento più efficace potrebbe finire per salvare migliaia di vite aggiuntive.
Sebbene la grandezza sia generalmente una buona proprietà se usata correttamente, ho notato che a volte può portare a un errore concettuale. Per qualche ragione, la grandezza sembra indurre i ricercatori a ignorare come sono stati generati i loro dati. Sebbene la grandezza riduca la necessità di preoccuparsi di un errore casuale, aumenta in realtà la necessità di preoccuparsi degli errori sistematici, i tipi di errori che descriverò di seguito che derivano dai bias nel modo in cui i dati vengono creati. Ad esempio, in un progetto che descriverò più avanti in questo capitolo, i ricercatori hanno usato i messaggi generati l'11 settembre 2001 per produrre una timeline emotiva ad alta risoluzione della reazione all'attacco terroristico (Back, Küfner, and Egloff 2010) . Dato che i ricercatori avevano un gran numero di messaggi, non avevano davvero bisogno di preoccuparsi se i modelli che osservavano - aumentando la rabbia nel corso della giornata - potevano essere spiegati con una variazione casuale. C'erano così tanti dati e il modello era così chiaro che tutti i test statistici statistici suggerivano che questo era un modello reale. Ma questi test statistici ignoravano il modo in cui i dati sono stati creati. In realtà, si è scoperto che molti dei pattern erano attribuibili a un singolo bot che generava messaggi sempre più privi di significato per tutto il giorno. La rimozione di questo bot ha completamente distrutto alcuni dei risultati chiave del documento (Pury 2011; Back, Küfner, and Egloff 2011) . Molto semplicemente, i ricercatori che non pensano all'errore sistematico corrono il rischio di usare i loro grandi set di dati per ottenere una stima precisa di una quantità non importante, come il contenuto emotivo di messaggi privi di significato prodotti da un robot automatizzato.
In conclusione, i grandi insiemi di dati non sono un fine a se stessi, ma possono consentire alcuni tipi di ricerca, tra cui lo studio di eventi rari, la stima dell'eterogeneità e l'individuazione di piccole differenze. Anche i grandi insiemi di dati sembrano indurre alcuni ricercatori a ignorare come sono stati creati i loro dati, il che può portarli a ottenere una stima precisa di una quantità non importante.