Big podataka stvaraju se i prikupljaju od strane vlada u druge svrhe osim istraživanja. Koristeći ove podatke za istraživanje, dakle, zahtijeva prenamene.
Idealizovanog pogled društvenih istraživanja zamišlja naučnik ima ideju, a zatim prikupljanje podataka za testiranje tu ideju. Ovaj stil istraživanja dovodi do čvrsto zategnuti između istraživanja pitanja i podataka, ali je ograničen, jer pojedinac istraživač često nemaju sredstva za prikupljanje podataka koji su im potrebni, kao što su velike, bogate i nacionalno-reprezentativne podatke. Dakle, mnogo društvenih istraživanja u prošlosti je koristio velikih društvenih istraživanja, kao što su Social Survey General (GSS), američki Nacionalni Studija izboru (ANES), i Studija vijeće prihod Dynamics (PSID). Ove ankete velikih uglavnom vodi tim istraživača i oni su dizajnirani za stvaranje podataka koji se mogu koristiti od strane mnogih istraživača. Zbog ciljeva tih istraživanja velikih razmjera, velika pažnja se stavlja u osmišljavanju prikupljanja podataka i pripreme rezultat podatke za upotrebu od strane istraživača. Ovi podaci su istraživači i za istraživače.
Većina društvena istraživanja pomoću digitalnih izvora dobu, međutim, je fundamentalno drugačiji. Umjesto korištenja prikupljenih podataka od strane istraživača i za istraživače, koristi izvore podataka koji su stvoreni i prikupljeni od strane kompanije i vlade za svoje potrebe, kao što su ostvarivati profit, pružanja usluge, ili davanje zakon. Ove poslovne i vladine izvore podataka su došli da se zove Big Data. Doing istraživanja s velikim podataka je drugačiji nego radi istraživanja s podacima koje je prvobitno stvoren za istraživanje. Usporedite, na primjer, web stranice na društvenim mrežama, kao što su Twitter, s tradicionalnim istraživanje javnog mnijenja, kao što su Social Survey General (GSS). Glavni ciljevi Twitter su da pružaju usluge svojim korisnicima i napraviti profit. U procesu ostvarivanja tih ciljeva, Twitter stvara podaci koji bi mogli biti korisni za proučavanje određene aspekte javnog mnjenja. Ali, za razliku od Social Survey General (GSS), Twitter nije primarno fokusirana na društvena istraživanja.
Termin Big Data je frustrirajuće nejasan, i to grupe zajedno mnogo različitih stvari. Za potrebe društvenih istraživanja, mislim da je korisno da se napravi razlika između dvije vrste velikih izvora podataka:. Vlada administrativnih evidencija i poslovnih administrativnih evidencija Vlada administrativnih evidencija su podaci koji su stvorili vlade kao dio svoje rutinske aktivnosti. Ovakve evidencije su koristili istraživači u prošlosti, kao što su demografi studiranje rođenja, evidenciju ali brak, i smrt vlade sve više prikupljanje i oslobađanje detaljnu evidenciju u analyzable oblicima. Na primjer, u New Yorku vlada instalira digitalne metara unutar svakog taksi u gradu. Ove metara snimanje svih vrsta podataka o svakom vožnje taksijem, uključujući vozača, vrijeme početka i lokacija, vrijeme zaustavljanja i lokacija, i obroke. U studiji koja Reći ću kasnije u ovom poglavlju, Henry Farber (2015) reprogramirane ovih podataka za rješavanje osnovnih debatu u ekonomiji rada o odnosu između satnica i broj odrađenih sati.
Drugi glavni tip velikih podataka za društvena istraživanja je posao administrativnih evidencija. To su podaci koji poslovni stvoriti i prikupiti kao dio svoje rutinske aktivnosti. Ovi poslovni administrativnih evidencija se često nazivaju digitalne tragove, a uključuje stvari kao što su rezanje upita tražilice, poruke na društvenim mrežama, i poziva zapisa iz mobilne telefone. Kritički, ovih poslovnih administrativnih evidencija se ne radi samo o online ponašanju. Na primjer, prodavnica koje koriste check-out skeneri stvaraju mjere produktivnost radnika u realnom vremenu. U studiji koja ću vam o kasnije u ovom poglavlju reći, Alexandre Mas i Enrico Moretti (2009) reprogramirane ovaj supermarket check-out podatke za proučavanje kako je radnika produktivnost uticajem produktivnost svojih vršnjaka.
Kao oba primjera ilustriraju, ideja prenamene je osnova za učenje velikih podataka. U mom iskustvu, sociolozi i naučnici podataka pristup ovom prenamene vrlo različito. Sociolozi, koji su navikli da rade sa podacima dizajniran za istraživanje, su brzo ukazati na probleme sa reprogramirane podacima zanemarujući svoje prednosti. S druge strane, naučnici podaci su brzo ukazati na prednosti reprogramirane podataka zanemarujući svoje slabosti. Naravno, najbolji pristup bi bio hibrid. To je, istraživači moraju da shvate karakteristike ovih novih izvora podataka i dobre i loše, a onda smisliti kako da uče od njih. A, to je plan za ostatak ovog poglavlja. Zatim ću opisati deset zajedničke karakteristike poslovnih i vladinih administrativnih podataka. Nakon toga, ja ću opisati tri istraživanja pristupa koji se mogu koristiti s ovim podacima, pristupi koji su dobro prilagođen karakteristikama ovih podataka.