Velike podatke ustvarijo in zbirajo podjetja in vlade za druge namene kot za raziskave. Uporaba teh podatkov za raziskave zato zahteva ponovni zagon.
Prvi način, s katerim se veliko ljudi srečuje s socialnimi raziskavami v digitalni dobi, je tisto, kar se pogosto imenuje velikih podatkov . Kljub široki uporabi tega izraza ni soglasja o tem, kakšni so veliki podatki. Vendar pa je ena najpogostejših opredelitev velikih podatkov osredotočena na "3 Vs": količino, raznolikost in hitrost. Približno je veliko podatkov v različnih oblikah in se stalno ustvarjajo. Nekateri ljubitelji velikih podatkov dodajajo tudi druge "Vs", kot sta Veracity in Value, medtem ko nekateri kritiki dodajo Vs, kot sta Nejasen in Vacuous. Namesto 3 "Vs" (ali 5 "Vs" ali 7 "Vs"), za namene socialnih raziskav, mislim, da je boljše mesto za začetek 5 "Ws": kdo, kaj, kje, kdaj , in zakaj. Pravzaprav menim, da veliko izzivov in priložnosti, ki jih ustvarijo veliki viri podatkov, izhajajo iz samo enega "W": zakaj.
V analogni dobi je bila za raziskovanje ustvarjena večina podatkov, ki so bili uporabljeni za družbene raziskave. Vendar pa v digitalni dobi podjetja in vlade ustvarjajo veliko količino podatkov za druge namene kot za raziskave, kot so zagotavljanje storitev, ustvarjanje dobička in upravljanje zakonov. Kreativni ljudje pa so ugotovili, da lahko podatke o podjetjih in vladah popravite za raziskave. Razmišljajoč se o analogiji umetnosti v 1. poglavju, prav tako kot je Duchamp popravil najdeni predmet za ustvarjanje umetnosti, znanstveniki zdaj lahko popravijo najdene podatke za ustvarjanje raziskav.
Čeprav so nedvomno ogromne priložnosti za preureditev, z uporabo podatkov, ki niso bili ustvarjeni za namene raziskav, so predstavljeni tudi novi izzivi. Primerjajte na primer storitev socialnih medijev, kot je Twitter, s tradicionalno anketo o javnem mnenju, kot je splošna socialna anketa. Glavni cilji Twitterja so zagotavljanje storitev svojim uporabnikom in ustvarjanje dobička. Splošna družbena raziskava pa se osredotoča na oblikovanje splošnih podatkov za socialne raziskave, zlasti za raziskave javnega mnenja. Ta razlika v ciljih pomeni, da podatki, ki jih je ustvaril Twitter in ki jih je ustvaril splošni socialni pregled, imajo različne lastnosti, čeprav se obe uporabljajo za proučevanje javnega mnenja. Twitter deluje v obsegu in hitrosti, ki se sploh ne more ujemati s splošnim družbenim pregledom, vendar v nasprotju s splošnim družbenim pregledom Twitter ne skrbi za vzorce uporabnikov in ne dela trdno, da bi sčasoma ohranjal primerljivost. Ker sta ti dve viri podatkov tako različni, ni smiselno reči, da je splošna raziskava o družbi boljša od Twittera ali obratno. Če želite urne ukrepe globalnega razpoloženja (npr. Golder and Macy (2011) ), je Twitter najboljši. Po drugi strani pa, če želite razumeti dolgoročne spremembe v polarizaciji odnosov v Združenih državah (npr. DiMaggio, Evans, and Bryson (1996) ), je splošna družbena raziskava najboljša izbira. V splošnem namesto tega poskušajo trditi, da so veliki viri podatkov boljši ali slabši od drugih vrst podatkov, bo to poglavje poskušalo pojasniti, za katera vrsta raziskovalnih vprašanj imajo veliki viri podatkov privlačne nepremičnine in za katere vrste vprašanj morda ne bodo idealen.
Pri razmišljanju o velikih virih podatkov se mnogi raziskovalci takoj osredotočajo na spletne podatke, ki jih ustvarijo in zbirajo podjetja, kot so dnevniki iskalnikov in delovna mesta v družabnih omrežjih. Vendar pa ta ožji poudarek izstopa iz dveh drugih pomembnih virov velikih podatkov. Prvič, večji korporativni veliki podatkovni viri prihajajo iz digitalnih naprav v fizičnem svetu. Na primer, v tem poglavju vam bom povedal o študiji, ki je popravila podatke o odjavi v supermarketu, da bi preučila, kako produktivnost delavca vpliva na produktivnost svojih vrstnikov (Mas and Moretti 2009) . Nato v kasnejših poglavjih vam povem o raziskovalcih, ki so uporabili podatke o klicih iz mobilnih telefonov (Blumenstock, Cadamuro, and On 2015) in podatke o obračunu, ki so jih ustvarili električni pripomočki (Allcott 2015) . Kot ti primeri ponazarjajo, velik vir podatkov o podjetjih je več kot le spletno vedenje.
Drugi pomemben vir velikih podatkov, ki ga je z ozkim poudarkom na spletnem vedenju pomagala, so podatki, ki so jih ustvarile vlade. Ti vladni podatki, ki jih raziskovalci imenujejo vladne upravne evidence , vključujejo stvari, kot so davčne evidence, šolske evidence in pomembne statistične evidence (npr. Matične knjige in smrti). Vlade ustvarijo te vrste podatkov za, v nekaterih primerih, več sto let, socialni znanstveniki pa jih izkoriščajo skoraj tako dolgo, kot so bili socialni znanstveniki. Vendar pa se je spremenilo digitalizacija, zaradi česar so vlade lažje zbirali, prenašale, shranjevale in analizirale podatke. Na primer, v tem poglavju vam bom povedal o študiji, ki je popravila podatke iz digitalnih merilnikov taksije v New Yorku, da bi obravnavali temeljno razpravo o ekonomiji dela (Farber 2015) . Nato v kasnejših poglavjih vam povem, kako so bili v anketi (Ansolabehere and Hersh 2012) uporabljeni zapisi glasov, ki so bili zbrani v (Ansolabehere and Hersh 2012) poskus (Bond et al. 2012) .
Mislim, da je ideja o ponovnem urejanju bistvenega pomena za učenje iz velikih virov podatkov, in tako, preden govorim natančneje o lastnostih velikih virov podatkov (razdelek 2.3) in kako jih je mogoče uporabiti v raziskavah (oddelek 2.4), bi rad ponuditi dva dela splošnih nasvetov o ponovnem urejanju. Najprej je morda skušnjava razmišljati o kontrastu, ki sem ga postavil med "najdeno" podatke in "načrtovane" podatke. To je blizu, vendar ni prav. Čeprav so z vidika raziskovalcev veliki viri podatkov "najdeni", ne padejo z neba. Namesto tega viri podatkov, ki jih "najdejo" raziskovalci, oblikuje nekdo za določen namen. Ker je "najdeno" podatke oblikoval nekdo, vedno priporočam, da poskušate čim bolje razumeti ljudi in procese, ki so ustvarili vaše podatke. Drugič, ko ponavljate podatke, je pogosto izjemno koristno predstavljati idealni niz podatkov za vaš problem in nato primerjati to idealno podatkovno bazo s tistim, ki ga uporabljate. Če niste sami zbirali podatkov, obstaja verjetnost, da bodo pomembne razlike med tem, kar želite in kaj imate. Opazovanje teh razlik vam bo pomagalo razjasniti, kaj lahko in se ne morete naučiti iz podatkov, ki jih imate, in morda predlaga nove podatke, ki jih morate zbrati.
Po mojih izkušnjah se znanstveniki s področja znanosti in znanstveniki nagibajo k drugačnemu razmišljanju. Socialni znanstveniki, ki so navajeni delati s podatki, namenjenimi raziskavam, običajno hitro opozorijo na težave z repurzivnimi podatki, pri čemer ne upoštevajo svojih prednosti. Po drugi strani pa znanstveniki, ki se ukvarjajo s podatki, običajno hitro opozorijo na koristi popravljenih podatkov, pri čemer ne upoštevajo svojih pomanjkljivosti. Seveda je najboljši pristop hibrid. To pomeni, da morajo raziskovalci razumeti značilnosti velikih podatkovnih virov - tako dobrih kot slabih - in nato ugotoviti, kako se učiti od njih. In to je načrt za preostanek tega poglavja. V naslednjem poglavju bom opisal deset skupnih značilnosti velikih virov podatkov. Nato v naslednjem poglavju bom opisal tri raziskovalne pristope, ki lahko s takšnimi podatki dobro delujejo.