Sursele de date mari sunt peste tot, dar utilizarea lor pentru cercetarea socială poate fi dificilă. În experiența mea, este ceva de genul unei reguli "nu se ia masa gratuită" pentru date: dacă nu puneți o mulțime de lucru în colectarea ei, atunci probabil că va trebui să vă puneți o mulțime de lucruri să vă gândiți la ea și analizând-o.
Sursele mari de date de astăzi - și probabil mâine - vor avea tendința de a avea 10 caracteristici. Trei dintre acestea sunt, în general (dar nu întotdeauna) utile pentru cercetare: mare, întotdeauna, și nereactiv. Șapte sunt, în general, (dar nu întotdeauna) problematice pentru cercetare: incomplete, inaccesibile, nereprezentative, drifting, confundate algoritmic, murdare și sensibile. Multe dintre aceste caracteristici apar în cele din urmă deoarece sursele de date mari nu au fost create în scopul cercetării sociale.
Pe baza ideilor din acest capitol, cred că există trei modalități principale în care sursele mari de date vor fi cele mai valoroase pentru cercetarea socială. În primul rând, ele pot permite cercetătorilor să decidă între prezicerile teoretice concurente. Exemple de astfel de activități includ Farber (2015) (șoferi de taxi din New York) și King, Pan, and Roberts (2013) (cenzura în China). În al doilea rând, sursele de date mari pot permite o îmbunătățire a măsurătorilor pentru politică prin intermediul tehnologiei nowcasting. Un exemplu de astfel de lucru este Ginsberg et al. (2009) (Google Flu Trends). În cele din urmă, sursele de date mari pot ajuta cercetătorii să realizeze estimări cauzale fără a efectua experimente. Exemple de astfel de activități sunt Mas and Moretti (2009) (efectele de peer asupra productivității) și Einav et al. (2015) (efectul prețului de pornire asupra licitațiilor la eBay). Cu toate acestea, fiecare dintre aceste abordări tinde să solicite cercetătorilor să aducă o mulțime datelor, cum ar fi definirea unei cantități importante pentru estimare sau două teorii care fac predicții concurente. Astfel, cred că cel mai bun mod de a gândi ce surse mari de date pot face este că pot ajuta cercetătorii care pot pune întrebări interesante și importante.
Înainte de a încheia, cred că merită să considerăm că sursele mari de date pot avea un efect important asupra relației dintre date și teorie. Până în prezent, acest capitol a abordat cercetarea empirică bazată pe teorii. Dar sursele mari de date permit, de asemenea, cercetătorilor să facă teoretizarea empirică . Adică, prin acumularea atentă a faptelor, modelelor și puzzle-urilor empirice, cercetătorii pot construi noi teorii. Această alternativă, prima abordare a teoriei nu este nouă și a fost articulată cu cea mai mare forță de către Barney Glaser și Anselm Strauss (1967) cu cererea lor de teorie fundamentată . Această abordare bazată pe date, însă, nu implică "sfârșitul teoriei", așa cum a fost susținut în unele jurnalism în jurul cercetării în epoca digitală (Anderson 2008) . Mai degrabă, pe măsură ce se schimbă mediul de date, ar trebui să ne așteptăm la o reechilibrare a relației dintre date și teorie. Într-o lume în care colectarea datelor a fost costisitoare, a avut sens să se colecteze doar datele pe care teoriile sugerează că vor fi cele mai utile. Dar, într-o lume în care cantități enorme de date sunt deja disponibile gratuit, este logic să încercați și o abordare bazată pe date (Goldberg 2015) .
Așa cum am arătat în acest capitol, cercetătorii pot învăța mult prin vizionarea oamenilor. În următoarele trei capitole, vom descrie modul în care putem învăța mai multe lucruri diferite dacă ne adaptăm colectarea de date și interacționăm mai direct cu oamenii, punându-le întrebări (capitolul 3), efectuând experimente (capitolul 4) și chiar implicându-le în procesul de cercetare direct (capitolul 5).