Big data geskep en deur regerings ingesamel vir ander doeleindes as navorsing doeleindes. Die gebruik van hierdie data vir navorsing, daarom vereis herb stemmingen.
'N geïdealiseerde siening van sosiale navorsing verbeel 'n wetenskaplike met 'n idee en dan data te versamel om die idee te toets. Hierdie styl van navorsing lei tot 'n stywe pas tussen navorsingsvraag en data, maar dit is beperk omdat 'n individu navorser dikwels nie die hulpbronne wat nodig is om die data wat hulle nodig het, soos 'n groot, ryk en nasionaal-verteenwoordigende data in te samel nie. Dus, 'n baie sosiale navorsing in die verlede gebruik grootskaalse sosiale opnames, soos die algemene sosiale Survey (GSS), die Amerikaanse Nasionale Verkiesing Studie (ANES), en Panel Studie van Inkomste Dynamics (employees). Hierdie grootskaalse opname is oor die algemeen gelei deur 'n span navorsers en hulle is ontwerp om data wat gebruik kan word deur baie navorsers te skep. As gevolg van die doelwitte van hierdie grootskaalse opnames, is met groot sorg in die ontwerp van die data-insameling en die voorbereiding van die gevolglike data vir gebruik deur navorsers sit. Hierdie data is deur navorsers en vir navorsers.
Die meeste sosiale navorsing met behulp van digitale ouderdom bronne is egter fundamenteel verskil. In plaas van die gebruik van data deur navorsers en vir navorsers ingesamel is, is dit gebruik databronne wat geskep is en deur besighede en regerings wat ingesamel is vir hul eie doeleindes soos om 'n wins te maak, die verskaffing van 'n diens of die administrasie van 'n wet. Hierdie besigheid en die regering databronne het gekom om te genoem word groot data. Doen navorsing met 'n groot data is anders as om navorsing te doen met data wat oorspronklik geskep vir navorsing. Vergelyk, byvoorbeeld, 'n sosiale media webwerf, soos Twitter, met 'n tradisionele openbare mening opname soos die algemene sosiale Survey (GSS). hoofdoelwitte Twitter se om 'n diens aan sy gebruikers te voorsien en om wins te maak. In die proses van die bereiking van hierdie doelwitte, Twitter skep data wat nuttig is vir die bestudering van sekere aspekte van die openbare mening kan wees. Maar, in teenstelling met die algemene sosiale Survey (GSS), Twitter is nie in die eerste plek gerig op sosiale navorsing.
Die term groot data is frustrerend vaag, en dit groepe saam baie verskillende dinge. Vir die doeleindes van sosiale navorsing, ek dink dit is nuttig om te onderskei tussen twee soorte groot databronne. Regering administratiewe rekords en besigheid administratiewe rekords Regering administratiewe rekords data wat geskep word deur regerings as deel van hul roetine-aktiwiteite. Hierdie soort rekords is wat gebruik word deur navorsers in die verlede-soos demograwe studeer geboorte, huwelik en dood rekords-maar regerings toenemend versamel en gedetailleerde rekords vrystelling in analyzable vorms. Byvoorbeeld, die regering New York geïnstalleer digitale meter binnekant van elke taxi in die stad. Hierdie meter teken allerhande inligting oor elke taxi rit insluitend die bestuurder, die aanvang van die tyd en plek, die stop tyd en plek, en die prys. In 'n studie wat ek later sal vertel in hierdie hoofstuk, Henry Farber (2015) repurposed hierdie data om 'n fundamentele debat in arbeidsekonomie oor die verhouding tussen uurlikse lone en die aantal ure gewerk aan te spreek.
Die tweede belangrikste soort groot data vir sosiale navorsing is besigheid administratiewe rekords. Dit is data wat besigheid te skep en te versamel as deel van hul roetine-aktiwiteite. Hierdie besigheid administratiewe rekords word dikwels genoem digitale spore, en sluit in dinge soos soektog navraag logs, sosiale media poste, en noem rekords van selfone. Gee 'n kritiese, hierdie besigheid administratiewe rekords is nie net oor die aanlyn gedrag. Byvoorbeeld, winkels wat check-out skandeerders gebruik word skep real-time maatreëls van werkers se produktiwiteit. In 'n studie wat ek jou oor later in hierdie hoofstuk sal vertel, Alexandre Mas en Enrico Moretti (2009) repurposed hierdie supermark check-out data te bestudeer hoe produktiwiteit n werkers se is geraak deur die produktiwiteit van hul eweknieë.
As albei hierdie voorbeelde te illustreer, die idee van herb stemmingen is fundamenteel tot leer uit groot data. In my ervaring, sosiale wetenskaplikes en data wetenskaplikes benadering tot hierdie herb stemmingen heel anders. Sosiale wetenskaplikes, wat gewoond is aan die werk met data wat ontwerp is vir navorsing, is vinnig om te wys op die probleme met repurposed data ignoreer sy sterk punte. Aan die ander kant, data wetenskaplikes is vinnig om te wys op die voordele van repurposed data ignoreer sy swakhede. Natuurlik sou die beste benadering 'n hibriede wees. Dit wil sê, navorsers moet die eienskappe van hierdie nuwe bronne van data-beide goed en sleg-en dan uit te vind hoe om te leer uit hulle verstaan. En dit is die plan vir die res van hierdie hoofstuk. Volgende, sal ek tien algemene kenmerke van die besigheid en die regering administratiewe data beskryf. Daarna sal ek drie navorsingsbenaderings wat gebruik kan word met hierdie inligting, benaderings wat goed is geskik vir die eienskappe van hierdie data te beskryf.