Velike podatke izrađuju i prikupljaju tvrtke i vlada u druge svrhe osim istraživanja. Upotrebom tih podataka za istraživanje, dakle, zahtijeva ponovnu uspostavu.
Prvi način na koji mnogi ljudi susreću društvena istraživanja u digitalnom dobu su kroz ono što se često naziva velikim podacima . Unatoč širokoj upotrebi ovog pojma, ne postoji konsenzus o tome koji su veliki podaci čak i. Međutim, jedna od najčešćih definicija velikih podataka usredotočuje se na "3 Vs": Volumen, Variety i Velocity. Grubo, postoji mnogo podataka, u različitim formatima, i stalno se stvara. Neki obožavatelji velikih podataka također dodaju i druge "Vs" poput Veracity i Value, dok neki kritičari dodaju Vs poput Nejasne i Vacuous. Umjesto 3 "Vs" (ili 5 "Vs" ili 7 "Vs"), za potrebe društvenih istraživanja, mislim da je bolje mjesto za početak je 5 "Ws": Tko, što, gdje, kada , i zašto. Zapravo, mislim da mnogi izazovi i prilike koje stvaraju veliki izvori podataka slijede samo jedan "W": zašto.
U analognoj dobi, većina podataka koji su korišteni za društvena istraživanja stvorena je radi istraživanja. Međutim, u digitalnom dobu tvrtke i vlada kreiraju ogromnu količinu podataka u druge svrhe osim istraživanja, kao što su pružanje usluga, stvaranje dobiti i administriranje zakona. Kreativni ljudi, međutim, shvatili su da možete ponovno razmotriti ove korporativne i vladine podatke za istraživanje. Razmišljajući o umjetničkoj analogiji u 1. poglavlju, baš kao što je Duchamp ponovno uspostavio pronađeni objekt za stvaranje umjetnosti, znanstvenici sada mogu ponovno pronaći pronađene podatke za stvaranje istraživanja.
Iako postoje nedvojbeno velike mogućnosti za ponovnu razmjenu podataka, korištenje podataka koji nisu stvoreni za potrebe istraživanja također predstavljaju nove izazove. Usporedite, primjerice, uslugu društvenih medija, kao što je Twitter, s tradicionalnim istraživanjem javnog mnijenja, kao što je General Social Survey. Glavni ciljevi Twittera su pružanje usluga svojim korisnicima i ostvarivanje profita. S druge strane, opći socijalni pregled usmjeren je na stvaranje podataka opće namjene za društvena istraživanja, posebno za istraživanje javnog mišljenja. Ova razlika u ciljevima znači da podaci koje je stvorio Twitter i onaj koji je stvorio General Social Survey imaju različite svojstva, iako se oboje mogu koristiti za proučavanje javnog mnijenja. Twitter djeluje u mjerilu i brzini koju Opći socijalni pregled ne može podudarati, ali, za razliku od općeg društvenog istraživanja, Twitter ne pažljivo uzima korisnike i ne trudi se održati usporedivost tijekom vremena. Budući da su ta dva izvora podataka toliko različita, nema smisla reći da je Opći socijalni pregled bolji od Twittera ili obratno. Ako želite satne mjere globalnog raspoloženja (npr. Golder and Macy (2011) ), Twitter je najbolji. S druge strane, ako želite razumjeti dugoročne promjene polarizacije stavova u Sjedinjenim Američkim Državama (npr. DiMaggio, Evans, and Bryson (1996) ), onda je Opći socijalni pregled najbolji izbor. Općenito govoreći, umjesto da pokušavamo tvrditi da su veliki izvori podataka bolji ili lošiji od drugih vrsta podataka, ovo će poglavlje pokušati razjasniti za koje vrste istraživanja pitanja koja veliki izvori podataka imaju atraktivna svojstva i za koje se vrste pitanja ne bi mogli idealan.
Kada razmišljate o velikim izvorima podataka, mnogi se istraživači odmah usredotočuju na internetske podatke koje su stvorili i prikupili tvrtke, kao što su logovi tražilice i postovi društvenih medija. Međutim, taj uski fokus ostavlja još dva važna izvora velikih podataka. Prvo, sve veći korporativni veliki izvori podataka dolaze iz digitalnih uređaja u fizičkom svijetu. Na primjer, u ovom poglavlju, kažem vam o studiji koja je ponavljala podatke o pregledu supermarketa kako bi proučio kako produktivnost radnika utječe produktivnost svojih vršnjaka (Mas and Moretti 2009) . Zatim ću vam u kasnijim poglavljima govoriti o istraživačima koji su koristili pozivne (Blumenstock, Cadamuro, and On 2015) s mobilnih telefona (Blumenstock, Cadamuro, and On 2015) i podatke o naplati koje su stvorili električni komunalije (Allcott 2015) . Kao što navedeni primjeri ilustriraju, veliki korporativni izvori podataka više su od ponašanja na mreži.
Drugi važan izvor velikih podataka propušten uskim fokusom na ponašanje na mreži su podaci koje su stvorile vlade. Ti državni podaci, koje istraživači nazivaju vladinim administrativnim zapisima , uključuju stvari poput poreznih evidencija, školskih evidencija i vitalnih statistika (npr. Registri rođenja i smrti). Vlade stvaraju takve podatke za, u nekim slučajevima, stotinama godina, a društveni znanstvenici ih iskorištavaju gotovo dok god postoje društvene znanstvenici. Ono što se promijenilo, međutim, jest digitalizacija, što je dramatično olakšalo vladi prikupljanje, prijenos, pohranu i analizu podataka. Na primjer, u ovom poglavlju, kažem vam o studiji koja je ponovo podacima iz digitalnih taksijera metropolita New Yorka da bi riješila temeljnu raspravu u ekonomiji rada (Farber 2015) . Zatim, u kasnijim poglavljima, kažem vam kako su se u anketi (Ansolabehere and Hersh 2012) upotrijebili (Ansolabehere and Hersh 2012) evidencija i eksperiment (Bond et al. 2012) .
Mislim da je ideja o ponovnom pronalaženju temeljna za učenje iz velikih izvora podataka, pa prije nego što bih govorio o svojstvima velikih izvora podataka (odjeljak 2.3) i kako se oni mogu koristiti u istraživanju (odjeljak 2.4), volio bih ponuditi dva dijela općenitih savjeta o ponovnom predstavljanju. Prvo, može biti primamljivo razmišljati o kontrastu koji sam postavio kao između pronađenih podataka i "dizajniranih" podataka. To je blizu, ali nije sasvim u redu. Iako, iz perspektive istraživača, "pronađeni veliki izvori podataka", oni ne pada samo s neba. Umjesto toga, izvori podataka koje "pronađu" istraživači osmišljeni su za neku svrhu. Budući da su "pronađeni" podaci osmišljeni od strane nekog, uvijek preporučujem da pokušate što bolje razumjeti ljude i procese koji su izradili vaše podatke. Drugo, kada ponovno prenosite podatke, često je izuzetno korisno zamisliti idealni skup podataka za vaš problem i usporediti taj idealni skup podataka s onim koji koristite. Ako niste prikupili podatke, vjerojatno će vam biti važne razlike između onoga što želite i onoga što imate. Primijetite ove razlike pomoći će pojasniti što možete i ne možete naučiti iz podataka koje imate, a možda će predložiti nove podatke koje biste trebali prikupiti.
U mom iskustvu, društveni znanstvenici i podaci znanstvenici imaju tendenciju da se pristup repurposing vrlo različito. Društvenici koji su navikli raditi s podacima namijenjenim istraživanju, obično brzo ukazuju na probleme s ponovljenim podacima, ignorirajući svoje snage. S druge strane, podaci znanstvenici obično brzo ukazuju na prednosti ponovljenih podataka, ignorirajući njegove slabosti. Naravno, najbolji pristup je hibrid. To jest, istraživači trebaju razumjeti značajke velikih izvora podataka - dobrih i loših - a zatim shvatiti kako ih naučiti. I to je plan za ostatak ovog poglavlja. U sljedećem dijelu opisat ću deset zajedničkih značajki velikih izvora podataka. Zatim ću u sljedećem odjeljku opisati tri istraživačka pristupa koja mogu dobro funkcionirati s takvim podacima.