Big podataka su stvorili i uzima vlade za druge svrhe osim istraživačke svrhe. Koristeći ove podatke za istraživanja, dakle, zahtijeva izmjena svrhe.
Idealizirana pogled društvenih istraživanja zamišlja znanstvenik ima ideju, a zatim prikupljanje podataka za testiranje tu ideju. Ovaj stil istraživanja vodi čvrstom spoju između istraživačkog pitanja i podataka, ali je ograničen, jer pojedinac istraživač često nemaju sredstva potrebna za prikupljanje podataka koji su im potrebni, kao što su velike, bogate i nacionalno reprezentativnih podataka. Dakle, puno društvenih istraživanja u prošlosti koristila velikih društvenih istraživanja, kao što su General Social Survey (GSS), američkog nacionalnog izbornog studija (Anes) i Studija ploči dobit Dynamics (PSID). To istraživanje velikih razmjera u pravilu vodi tim istraživača i oni su dizajnirani za stvaranje podataka koji se mogu koristiti od strane mnogih istraživača. Budući da je od ciljeva tih istraživanja velikih, velika pažnja je staviti u dizajniranju prikupljanje podataka i priprema dobivene podatke za upotrebu od strane istraživača. Ovi podaci su istraživači i znanstvenici.
Većina društvena istraživanja pomoću digitalnih izvora dobi, međutim, bitno se razlikuje. Umjesto da iz podataka prikupljenih od strane istraživača i znanstvenika, koristi izvora podataka koji su stvoreni i prikupljeni od strane tvrtke i vlade za svoje potrebe kao što su stvaranje profita, pružanje usluga ili davanje zakon. Ovi poslovni i službeni izvori podataka su došli da se zove velika podatke. Radi istraživanja s velikim podataka je različit nego radi istraživanja s podacima koje je izvorno kreirana za istraživanje. Usporedite, primjerice, web stranica društvenih medija, kao što su Twitter, s tradicionalnim istraživanju javnog mnijenja kao što su General Social Survey (GSS). Glavni ciljevi Twitter-a je pružiti uslugu svojim korisnicima i napraviti profit. U procesu postizanja tih ciljeva, Twitter stvara podatke koji bi mogli biti korisni za proučavanje određene aspekte javnog mnijenja. No, za razliku od General Social Survey (GSS), Twitter nije prvenstveno usmjerena na društvenim istraživanjima.
Pojam veliki podataka je frustrirajuće nejasne, i IT grupira različite stvari. Za potrebe društvenih istraživanja, mislim da je korisno razlikovati dvije vrste velikih izvora podataka. Državnih administrativnih evidencija i poslovnih administrativnih evidencija Vlada administrativni podaci su podaci koje su stvorene od strane vlada kao dio svoje rutinske aktivnosti. Ove vrste zapisa su koristili istraživači u prošlosti-kao što su demografi studiraju rođenje, brak i smrt evidencija-no vlade su sve prikupljanju i objavljivanju detaljne zapise u analizabilnih oblicima. Na primjer, New York City vlada instalira digitalne metara unutar svakog taksi u gradu. Ove metara snimanje svih vrsta podataka o svakom vožnje taksijem, uključujući vozača, vrijeme početka i mjesto, stop vrijeme i mjesto, a vozarina. U studiji koja ću reći kasnije u ovom poglavlju, Henry Farber (2015) prenamijeniti te podatke na adresu temeljnu raspravu u ekonomike rada o povezanosti po satu plaća i broja radnih sati.
Drugi glavni tip velikog podataka za društvena istraživanja su poslovni administrativni registri. To su podaci koji poslovni izradi i prikupljanju kao dio svoje rutinske aktivnosti. Te administrativne zapise poslovnim često nazivaju digitalne tragove, a uključuje stvari kao što su tražilice upita dnevnika, društvenih medija postove, i poziva zapisa s mobilnih telefona. Kritički, ti administrativni registri poslovnih nisu samo o online ponašanju. Na primjer, trgovinama koje koriste odjava skeneri stvaraju u realnom vremenu mjere produktivnost radnika. U studiji koja ću vam reći o tome kasnije u ovom poglavlju, Alexandre Mas Enrico Moretti (2009) prenamijeniti ovaj supermarket check-out podatke za proučavanje kako radničko produktivnost utjecati na produktivnost svojih vršnjaka.
Kako oba ova primjera ilustriraju, ideja izmjena svrhe je od temeljne važnosti za učenje od velikih podataka. U mom iskustvu, sociolozi i podataka znanstvenici pristup ovom izmjena svrhe vrlo različito. Socijalni znanstvenici, koji su navikli na rad s podacima namijenjenih istraživanju su brzo ukazati na probleme s prenamijeniti podataka ignorirajući svoje prednosti. S druge strane, podaci su znanstvenici brzo ukazati na prednosti prenamijeniti podataka ignorirajući svoje slabosti. Naravno, najbolji pristup bi bio hibrid. To je, znanstvenici moraju razumjeti karakteristike tih novih izvora podataka i dobre i loše a onda shvatiti kako učiti od njih. A, to je plan za ostatak ovog poglavlja. Dalje, ja ću opisati deset zajedničkih obilježja poslovne i državne upravne podataka. Nakon toga ću opisati tri istraživačkih pristupa koji se mogu koristiti s ovim podacima, pristupima koji su dobro prilagođene za karakteristikama te podatke.