Grote databronnen zijn overal, maar het gebruik ervan voor sociaal onderzoek kan lastig zijn. In mijn ervaring is er zoiets als een "geen gratis lunch" -regel voor gegevens: als je niet veel werk doet om het te verzamelen, dan zul je waarschijnlijk heel veel werk moeten doen om erover na te denken en analyseren.
De big data-bronnen van vandaag - en waarschijnlijk morgen - hebben de neiging 10 kenmerken te hebben. Drie hiervan zijn over het algemeen (maar niet altijd) nuttig voor onderzoek: groot, altijd aan en niet-reactief. Zeven zijn over het algemeen (maar niet altijd) problematisch voor onderzoek: onvolledig, ontoegankelijk, niet-representatief, afdrijvend, algoritmisch verward, vies en gevoelig. Veel van deze kenmerken doen zich uiteindelijk voor omdat big data-bronnen niet zijn gemaakt voor sociaal onderzoek.
Op basis van de ideeën in dit hoofdstuk denk ik dat er drie belangrijke manieren zijn waarop big data-bronnen het meest waardevol zijn voor sociaal onderzoek. Ten eerste kunnen ze onderzoekers in staat stellen te kiezen tussen concurrerende theoretische voorspellingen. Voorbeelden van dit soort werk zijn Farber (2015) (taxichauffeurs New York) en King, Pan, and Roberts (2013) (censuur in China). Ten tweede kunnen big data-bronnen een verbeterde meting van het beleid via nowcasting mogelijk maken. Een voorbeeld van dit soort werk is Ginsberg et al. (2009) (Google Grieptrends). Ten slotte kunnen big data-bronnen onderzoekers helpen om causale schattingen te maken zonder experimenten uit te voeren. Voorbeelden van dit soort werk zijn Mas and Moretti (2009) (peer-effecten op productiviteit) en Einav et al. (2015) (effect van startprijs op veilingen bij eBay). Elk van deze benaderingen vereist echter van onderzoekers dat ze veel aan de gegevens toevoegen, zoals de definitie van een hoeveelheid die belangrijk is om te schatten of twee theorieën die concurrerende voorspellingen doen. Daarom denk ik dat de beste manier om na te denken over wat big data-bronnen kunnen doen, is dat ze onderzoekers kunnen helpen die interessante en belangrijke vragen kunnen stellen.
Alvorens te besluiten, denk ik dat het de moeite waard is om te overwegen dat big data-bronnen een belangrijk effect kunnen hebben op de relatie tussen data en theorie. Tot dusverre heeft dit hoofdstuk de benadering van theoretisch gestuurd empirisch onderzoek gevolgd. Maar big data-bronnen stellen onderzoekers ook in staat om empirisch gedreven theorievorming te doen. Dat wil zeggen, door de zorgvuldige verzameling van empirische feiten, patronen en puzzels, kunnen onderzoekers nieuwe theorieën bouwen. Deze alternatieve, data-eerste benadering van de theorie is niet nieuw, en werd het meest krachtig verwoord door Barney Glaser en Anselm Strauss (1967) met hun roep om een gefundeerde theorie . Deze data-eerste benadering impliceert echter niet "het einde van de theorie", zoals werd beweerd in een deel van de journalistiek rond onderzoek in het digitale tijdperk (Anderson 2008) . Integendeel, naarmate de dataomgeving verandert, zouden we een herbalancering in de relatie tussen data en theorie moeten verwachten. In een wereld waar gegevensverzameling duur was, was het logisch om alleen de gegevens te verzamelen die volgens theorie het nuttigst zijn. Maar in een wereld waar enorme hoeveelheden gegevens al gratis beschikbaar zijn, is het logisch om ook een data-first benadering te proberen (Goldberg 2015) .
Zoals ik in dit hoofdstuk heb laten zien, kunnen onderzoekers veel leren door naar mensen te kijken. In de volgende drie hoofdstukken zal ik beschrijven hoe we meer en verschillende dingen kunnen leren als we onze gegevensverzameling afstemmen en directer communiceren met mensen door hen vragen te stellen (hoofdstuk 3), experimenten uit te voeren (hoofdstuk 4) en ze zelfs te betrekken in het onderzoeksproces rechtstreeks (hoofdstuk 5).