Le grandi fonti di dati sono ovunque, ma utilizzarle per la ricerca sociale può essere complicato. Nella mia esperienza, c'è una regola del tipo "no free lunch" per i dati: se non ci si mette molto lavoro a raccoglierlo, probabilmente si dovrà mettere molto lavoro a pensarci e analizzandolo
Le grandi fonti di dati di oggi - e probabilmente domani - tenderanno ad avere 10 caratteristiche. Tre di questi sono generalmente (ma non sempre) utili per la ricerca: grandi, sempre attivi e non reattivi. Sette sono generalmente (ma non sempre) problematiche per la ricerca: incomplete, inaccessibili, non rappresentative, alla deriva, algoritmicamente confuse, sporche e sensibili. Molte di queste caratteristiche derivano in ultima analisi dal fatto che le grandi fonti di dati non sono state create ai fini della ricerca sociale.
Sulla base delle idee contenute in questo capitolo, penso che ci siano tre modi principali in cui le fonti di big data saranno più preziose per la ricerca sociale. In primo luogo, possono consentire ai ricercatori di decidere tra previsioni teoriche concorrenti. Esempi di questo tipo di lavoro comprendono Farber (2015) (New York Taxi Drivers) e King, Pan, and Roberts (2013) (censura in Cina). In secondo luogo, le grandi fonti di dati possono consentire una migliore misurazione delle politiche attraverso il nowcasting. Un esempio di questo tipo di lavoro è Ginsberg et al. (2009) (Google Trend influenzali). Infine, le grandi fonti di dati possono aiutare i ricercatori a fare stime causali senza eseguire esperimenti. Esempi di questo tipo di lavoro sono Mas and Moretti (2009) (effetti tra pari sulla produttività) e Einav et al. (2015) (effetto del prezzo di partenza sulle aste su eBay). Ognuno di questi approcci, tuttavia, tende a richiedere ai ricercatori di portare molto ai dati, come la definizione di una quantità che è importante stimare o due teorie che fanno previsioni concorrenti. Quindi, penso che il modo migliore per pensare a cosa possano fare le grandi fonti di dati è che possono aiutare i ricercatori che possono porre domande interessanti e importanti.
Prima di concludere, penso che valga la pena considerare che le grandi fonti di dati possono avere un effetto importante sulla relazione tra dati e teoria. Finora, questo capitolo ha preso l'approccio della ricerca empirica guidata dalla teoria. Ma le grandi fonti di dati consentono anche ai ricercatori di fare teorizzazioni empiricamente guidate . Cioè, attraverso l'attenta accumulazione di fatti, schemi e puzzle empirici, i ricercatori possono costruire nuove teorie. Questo approccio alternativo alla teoria, basato sui dati, non è nuovo ed è stato articolato con forza da Barney Glaser e Anselm Strauss (1967) con la loro richiesta di una teoria fondata . Questo approccio basato sui dati, tuttavia, non implica "la fine della teoria", come è stato affermato in alcuni articoli del giornalismo sulla ricerca nell'era digitale (Anderson 2008) . Piuttosto, poiché l'ambiente dei dati cambia, dovremmo aspettarci un riequilibrio nella relazione tra dati e teoria. In un mondo in cui la raccolta dei dati era costosa, era logico raccogliere solo i dati suggeriti dalle teorie più utili. Ma, in un mondo in cui enormi quantità di dati sono già disponibili gratuitamente, è opportuno provare anche un approccio basato sui dati (Goldberg 2015) .
Come ho dimostrato in questo capitolo, i ricercatori possono imparare molto guardando le persone. Nei prossimi tre capitoli descriverò come possiamo imparare più cose diverse se adattiamo la nostra raccolta di dati e interagiamo più direttamente con le persone ponendo loro domande (capitolo 3), eseguendo esperimenti (capitolo 4) e persino coinvolgendoli nel processo di ricerca direttamente (capitolo 5).