I grandi insiemi di dati sono un mezzo per un fine; essi non sono fini a se stessi.
Il primo dei tre buone caratteristiche di grande dati sono quelli più discussi: questi sono dati di grandi dimensioni. Queste fonti di dati possono essere grandi in tre modi diversi: molte persone, un sacco di informazioni a persona, o molte osservazioni nel corso del tempo. Avere un grande insieme di dati consente alcuni tipi specifici di eterogeneità di ricerca di misurazione, lo studio di eventi rari, rilevare piccole differenze, nonché dell'esecuzione di stime causali da dati osservativi. Sembra anche portare ad un tipo specifico di sciatteria.
La prima cosa per cui dimensione è particolarmente utile si sta muovendo al di là di medie per fare stime per sottogruppi specifici. Ad esempio, Gary King, Jennifer Pan, e Molly Roberts (2013) hanno misurato la probabilità che i messaggi di social media in Cina sarebbero stati censurati dal governo. Di per sé questa probabilità media di eliminazione non è molto utile per capire il motivo per cui il governo censura alcuni post, ma non altri. Ma, perché il loro set di dati inclusi 11 milioni di messaggi, il re ei suoi colleghi hanno anche prodotto le stime per la probabilità di censura per messaggi su 85 categorie separate (per esempio, la pornografia, il Tibet, e il traffico a Pechino). Confrontando la probabilità di censura per i posti in diverse categorie, sono stati in grado di capire di più su come e perché il governo censura alcuni tipi di messaggi. Con 11 mila posti (invece di 11 milioni di messaggi), che non sarebbero stati in grado di produrre queste stime specifiche per categoria.
In secondo luogo, la dimensione è particolarmente utile per studia di eventi rari. Ad esempio, Goel e colleghi (2015) hanno voluto studiare i diversi modi in cui i tweet possono andare virale. Perché le grandi cascate di re-tweets sono estremamente rari, circa uno su un 3.000 avevano bisogno di studiare di più di un miliardo di tweets al fine di trovare abbastanza grandi cascate per la loro analisi.
In terzo luogo, grandi serie di dati permettono ai ricercatori di rilevare piccole differenze. In realtà, gran parte del fuoco su grandi di dati nel settore è di circa queste piccole differenze: rilevare in modo affidabile la differenza tra 1% e 1,1% i tassi di click-through su un annuncio in grado di tradurre in milioni di dollari di entrate in più. In alcune impostazioni scientifiche, tali piccole differenze potrebbero non essere particolarmente importante (anche se sono statisticamente significativo). Ma, in alcune impostazioni dei criteri, queste piccole differenze possono diventare importante se visto in forma aggregata. Ad esempio, se ci sono due interventi di sanità pubblica e uno è un po 'più efficace rispetto agli altri, quindi il passaggio a l'intervento più efficace potrebbe finire per salvare migliaia di altre vite.
Infine, grandi insiemi di dati aumentano notevolmente la nostra capacità di fare stime causali da dati osservativi. Anche se grandi serie di dati non cambiano radicalmente i problemi con fare inferenza causale da dati osservativi, corrispondenza e naturali esperimenti-due tecniche che i ricercatori hanno sviluppato per farla valere causali di osservazione dei dati, sia di grande beneficio da grandi insiemi di dati. Mi spiego e illustro questa affermazione in maggiore dettaglio più avanti in questo capitolo quando descrivo strategie di ricerca.
Anche se bigness è generalmente una buona proprietà quando utilizzato correttamente, ho notato che grossezza porta comunemente di un errore concettuale. Per qualche ragione, grandezza sembra portare i ricercatori a ignorare come la loro dati sono stati generati. Mentre bigness riduce la necessità di preoccuparsi per errore casuale, in realtà aumenta la necessità di preoccuparsi di errori sistematici, i tipi di errori che io descrivere più in basso che derivano da pregiudizi nel modo in cui vengono creati e raccolti i dati. In un piccolo insieme di dati, sia errore casuale e l'errore sistematico può essere importante, ma in un grande errore casuale set di dati è può essere una media distanza e domina errore sistematico. I ricercatori che non pensano su errore sistematico finirà con i loro grandi quantità di dati per ottenere una stima precisa della cosa sbagliata; saranno proprio imprecisi (McFarland and McFarland 2015) .