Veliki podaci kreiraju i prikupljaju kompanije i vlade za druge svrhe osim istraživanja. Korišćenje ovih podataka za istraživanje, stoga, zahtijeva reparaciju.
Prvi način na koji se mnogi ljudi susreću sa društvenim istraživanjima u digitalnom dobu je ono što se često naziva velikim podacima . Uprkos široko rasprostranjenom korišćenju ovog pojma, ne postoji saglasnost o tome koje velike podatke čak i postoji. Međutim, jedna od najčešćih definicija velikih podataka fokusira se na "3 Vs": volumen, varijantu i brzinu. Grubo, ima puno podataka u različitim formatima i stalno se stiče. Neki ljubitelji velikih podataka dodaju i druge "Vs" kao što su Veracity i Value, dok neki kritičari dodaju Vs kao što su Vague and Vacuous. Umjesto 3 "Vs" (ili 5 "Vs" ili 7 "Vs"), u svrhu socijalnog istraživanja, mislim da je bolje mjesto za početak 5 "Ws": ko, šta, gdje, kada , i zašto. U stvari, mislim da mnogi izazovi i mogućnosti koje stvara veliki izvor podataka prate samo jedan "W": zašto.
U analognom dobu, većina podataka koji su korišćeni za društvena istraživanja stvorena su radi istraživanja. Međutim, u digitalnom dobu kompanije i vlada kreiraju ogromnu količinu podataka za druge svrhe osim istraživanja, kao što su pružanje usluga, stvaranje profita i upravljanje zakonima. Kreativni ljudi, međutim, shvatili su da možete korigovati ove korporativne i vladine podatke za istraživanje. Razmišljajući se o umetničkoj analogiji u poglavlju 1, baš kao što je Duchamp popravio pronađeni predmet za stvaranje umetnosti, naučnici sada mogu da se upuste u pronalazene podatke kako bi stvorili istraživanje.
Iako postoje nesumnjivo ogromne mogućnosti za ponovnu upotrebu, korištenje podataka koji nisu stvoreni u svrhu istraživanja predstavljaju i nove izazove. Uporedite, na primer, uslugu socijalnih medija, poput Twittera, sa tradicionalnim istraživanjem javnog mnjenja, kao što je Opšta društvena anketa. Glavni ciljevi Twittera su pružanje usluge svojim korisnicima i ostvarivanje profita. Opšta društvena anketa, sa druge strane, fokusirana je na stvaranje podataka opšte namene za društvena istraživanja, posebno za istraživanje javnog mnjenja. Ova razlika u ciljevima znači da podaci koje je kreirao Twitter i koji su stvorili Opšta društvena istraživanja imaju različita svojstva, iako se oba mogu koristiti za proučavanje javnog mnjenja. Twitter funkcioniše u razmjeri i brzini koju generalno socijalno istraživanje ne može podudarati, ali za razliku od Opšte društvene ankete, Twitter ne pažljivo prikuplja korisnike i ne radi na održavanju uporedivosti tokom vremena. Pošto su ova dva izvora podataka toliko različita, nema smisla reći da je opšta društvena anketa bolja od Twittera i obrnuto. Ako želite satne mere globalnog raspoloženja (npr. Golder and Macy (2011) ), Twitter je najbolji. S druge strane, ako želite da shvatite dugoročne promjene u polarizaciji stavova u Sjedinjenim Državama (npr. DiMaggio, Evans, and Bryson (1996) ), onda je opšta društvena anketa najbolji izbor. Uopšteno govoreći, umjesto pokušaja da se tvrdi da su veliki izvori podataka bolji ili lošiji od drugih vrsta podataka, ovo poglavlje će pokušati da razjasni za koje vrste istraživačkih pitanja veliki izvori podataka imaju atraktivne osobine i za koje vrste pitanja ne mogu biti idealno.
Kada razmišljaju o velikim izvorima podataka, mnogi istraživači odmah se fokusiraju na online podatke koje su kreirale i sakupljale kompanije, kao što su dnevnici pretraživača i postovi društvenih medija. Međutim, ovaj uski fokus ostavlja dva važna izvora velikih podataka. Prvo, sve veći korporativni izvori podataka dolaze iz digitalnih uređaja u fizičkom svetu. Na primer, u ovom poglavlju, reći ću vam o studiji koja je popravila podatke o odjavama supermarketa kako biste proučili kako produktivnost radnika utiče na produktivnost svojih vršnjaka (Mas and Moretti 2009) . Zatim, u kasnijim poglavljima, reći ću vam o istraživačima koji su koristili evidenciju poziva sa mobilnih telefona (Blumenstock, Cadamuro, and On 2015) i podatke o fakturisanju koje su stvorili električni (Allcott 2015) . Kako ti primeri ilustruju, veliki korporativni izvori podataka su više nego samo online ponašanje.
Drugi važan izvor velikih podataka propušten uskom fokusom na online ponašanje su podaci koje su stvorile vlade. Ovi podaci o vladi, koji istraživači nazivaju državnim administrativnim podacima , uključuju stvari kao što su poreska evidencija, školska evidencija i evidencija vitalnih statističkih podataka (npr. Registri rođenja i smrti). Vlade stvaraju ove vrste podataka za, u nekim slučajevima, stotine godina, a društveni naučnici ih eksploatišu gotovo toliko dugo koliko su bili društveni naučnici. Međutim, ono što se promenilo je digitalizacija, što je učinilo dramatično lakšim za vlade da sakupljaju, prenose, čuvaju i analiziraju podatke. Na primer, u ovom poglavlju, reći ću vam o studiji koja je popravila podatke digitalnih taksi metara u vladi Njujorka kako bi se riješila fundamentalna debata u ekonomiji rada (Farber 2015) . Zatim, u kasnijim poglavljima, reći ću vam kako su korišćeni podaci o glasanju u vladi korišćeni u anketi (Ansolabehere and Hersh 2012) i eksperimentom (Bond et al. 2012) .
Mislim da je ideja o ponovnom usavršavanju od suštinskog značaja za učenje iz velikih izvora podataka, i tako, pre nego što detaljnije razgovaramo o osobinama velikih izvora podataka (dio 2.3) i kako se one mogu koristiti u istraživanju (dio 2.4), voleo bih da ponudimo dva dela opštih saveta o ponovnom uspostavljanju. Prvo, može biti iskušenje razmišljati o kontrastu koji sam postavio kao između "pronađenih" podataka i "dizajniranih" podataka. To je blizu, ali to nije sasvim ispravno. Iako, iz perspektive istraživača, veliki izvori podataka se "nalaze", ne padaju samo sa neba. Umjesto toga, izvore podataka koje "pronalaze" istraživači dizajnirao je neko za neku svrhu. Zbog toga što su "pronadjeni" podaci dizajnirani od strane nekog, uvek preporučujem da pokušate da shvatite što je više moguće o ljudima i procesima koji su kreirali vaše podatke. Drugo, kada preimenujete podatke, često je izuzetno korisno zamisliti idealni skup podataka za vaš problem, a zatim uporediti taj idealni skup podataka sa onom koji koristite. Ako niste sakupljali svoje podatke, verovatno će biti važne razlike između onoga što želite i onoga što imate. Uočavajući ove razlike će vam pomoći da razjasnite šta možete i ne možete naučiti iz podataka koje imate, a to može da vam predloži nove podatke koje biste trebali prikupiti.
Po mom iskustvu, sociologi i naučnici podataka imaju tendenciju da se prilagode različito. Socijalistički naučnici koji su navikli da rade sa podacima namenjenim istraživanju, obično brzo ukazuju na probleme sa izmenjenim podacima, a ignorišu njegove snage. S druge strane, naučnici podataka obično brzo ističu prednosti repurganih podataka i ignorišu njegove slabosti. Naravno, najbolji pristup je hibrid. To jest, istraživači moraju razumjeti karakteristike velikih izvora podataka - kako dobre tako i loše - a onda shvatiti kako ih naučiti. I to je plan za ostatak ovog poglavlja. U narednom odeljku ću opisati deset zajedničkih karakteristika velikih izvora podataka. Zatim, u sledećem odeljku opisaću tri istraživanja koja mogu dobro raditi sa takvim podacima.