Groot data bronne is oral, maar dit kan moeilik wees om sosiale navorsing te gebruik. In my ervaring is daar iets soos 'n "geen gratis middagete" reël vir data: as jy nie baie werk insamel nie, dan sal jy waarskynlik baie werk moet oorweeg en ontleding van dit.
Die groot databronne van vandag - en waarskynlik môre - sal geneig wees om 10 eienskappe te hê. Drie hiervan is oor die algemeen (maar nie altyd nie) nuttig vir navorsing: groot, altyd-aan en nie-reaktief. Sewe is oor die algemeen (maar nie altyd nie) problematies vir navorsing: onvolledig, ontoeganklik, nie verteenwoordigend, dryfend, algoritmies beskaamd, vuil en sensitief. Baie van hierdie eienskappe ontstaan uiteindelik omdat groot databronne nie vir die doel van sosiale navorsing geskep is nie.
Op grond van die idees in hierdie hoofstuk, dink ek dat daar drie hoofwyses is waarop groot databronne die beste vir sosiale navorsing sal wees. Eerstens kan hulle navorsers in staat stel om te besluit tussen mededingende teoretiese voorspellings. Voorbeelde van hierdie soort werk sluit in Farber (2015) (New York Taxi bestuurders) en King, Pan, and Roberts (2013) (sensuur in China). Tweedens, groot data bronne kan verbeterde meting vir beleid deur middel van nucasting in staat stel. 'N Voorbeeld van hierdie soort werk is Ginsberg et al. (2009) (Google grense tendense). Laastens kan groot databronne navorsers help om oorsaaklike ramings te maak sonder lopende eksperimente. Voorbeelde van hierdie soort werk is Mas and Moretti (2009) (eweknieffekte op produktiwiteit) en Einav et al. (2015) (effek van die begin prys op veilings by eBay). Elkeen van hierdie benaderings is egter geneig om van navorsers te vereis om baie te bring aan die data, soos die definisie van 'n hoeveelheid wat belangrik is om te skat of twee teorieë wat mededingende voorspellings maak. Ek dink dus die beste manier om te dink oor wat groot databronne kan doen, is dat hulle navorsers kan help wat interessante en belangrike vrae kan vra.
Voordat ek besluit dat dit belangrik is om te oorweeg dat groot databronne 'n belangrike uitwerking op die verhouding tussen data en teorie het, kan dit baie belangrik wees. Tot dusver het hierdie hoofstuk die benadering van teorie-gedrewe empiriese navorsing geneem. Maar groot databronne stel navorsers ook in staat om empiries gedrewe teoretisering te doen . Dit is deur die versigtige opbou van empiriese feite, patrone en legkaarte, kan navorsers nuwe teorieë bou. Hierdie alternatiewe data-eerste benadering tot die teorie is nie nuut nie, en dit is die mees kragtig geformuleer deur Barney Glaser en Anselm Strauss (1967) met hul oproep vir gegronde teorie . Hierdie data-eerste benadering impliseer egter nie die einde van die teorie nie, soos in sommige van die joernalistiek oor navorsing in die digitale era beweer (Anderson 2008) . Inteendeel, as die data-omgewing verander, moet ons verwag dat die verhouding tussen data en teorie herbalanseer. In 'n wêreld waar data-insameling duur was, was dit sinvol om net die data wat teorieë voorstel, die mees bruikbare te versamel. Maar in 'n wêreld waar enorme hoeveelhede data reeds gratis beskikbaar is, maak dit sin om ook 'n data-eerste benadering (Goldberg 2015) .
Soos ek in hierdie hoofstuk getoon het, kan navorsers baie leer deur mense te kyk. In die volgende drie hoofstukke sal ek beskryf hoe ons meer en verskillende dinge kan leer as ons ons data-versameling op maat maak en direk met mense omgaan met vrae (hoofstuk 3), eksperimente (hoofstuk 4) in die navorsingsproses direk (hoofstuk 5).