Didelės duomenys sukūrė ir vyriausybių surinkti kitais nei mokslinių tyrimų tikslais. Naudojant šiuos duomenis tyrimams, todėl reikalauja repurposing.
Idealizuotas požiūris į socialinių tyrimų įsivaizduoja mokslininkas, turintis idėją ir tada rinkti duomenis išbandyti šią idėją. Ši tyrimų stilius veda į standžiai priglundantis tarp mokslinių tyrimų klausimą ir duomenų, tačiau ji yra ribota, nes individualus tyrėjas dažnai neturi išteklių, reikalingų duomenų rinkimo jiems reikia, pavyzdžiui, didelių, turtingų, ir nacionaliniu mastu reprezentatyvius duomenis. Todėl, Socialinių tyrimų praeityje Daug naudojami didelio masto socialiniai tyrimai, pavyzdžiui, bendrojo socialinio tyrimo (GSS), Amerikos Nacionalinės rinkimų studijos (Anes) ir skydas studija pajamų dinamika (PSID). Tai didelio masto tyrimas paprastai valdo mokslininkų komanda, ir jie yra skirtos sukurti duomenis, kurie gali būti naudojami daug mokslininkų. Dėl šių didelio masto tyrimų tikslų, labai atsargiai įdėti į Projektuojant duomenų rinkimą ir rengti gautus duomenis naudoti mokslininkai. Šie duomenys yra mokslininkai ir tyrėjai.
Dauguma socialinių tyrimų naudojant skaitmeninio amžiaus šaltinių, tačiau iš esmės skiriasi. Vietoj to, naudojant tyrėjų ir mokslininkų surinktus duomenis, ji naudoja duomenų šaltinius, kurie buvo sukurti ir įmonių ir vyriausybių surinkti savo tikslams, pavyzdžiui, pelno, teikia paslaugas, arba įstatymą administravimą. Šie verslo ir valdžios duomenų šaltiniai atėjau vadinti didelis duomenis. Daro tyrimus su didele duomenų yra kitoks, nei daro tyrimus su duomenimis, kurie iš pradžių buvo sukurtas mokslinių tyrimų. Palyginkite, pavyzdžiui, socialinės žiniasklaidos svetainės, pavyzdžiui, "Twitter", su tradicine viešosios nuomonės apklausos pavyzdžiui, bendrojo socialinio tyrimo (GSS). "Twitter" pagrindiniai tikslai yra teikti paslaugą savo vartotojams ir gauti pelno. Atsižvelgiant pasiekti šiuos tikslus procese, "Twitter" sukuria duomenų, kad gali būti naudinga tiriant tam tikrus visuomenės nuomonės aspektus. Tačiau, skirtingai nuo bendrojo socialinio tyrimo (GSS), "Twitter" nėra daugiausia dėmesio skiriama socialinių tyrimų.
Terminas didelis duomenys yra beviltiškai neaiški, ir tai vienija daug skirtingų dalykų. Socialinės tyrimų tikslais, aš manau, kad tai yra naudinga atskirti dviejų rūšių didelių duomenų šaltinių:. Vyriausybės administracinių įrašų ir verslo administraciniais dokumentais Vyriausybės administraciniai įrašai duomenys, kurie buvo sukurti vyriausybės, kaip dalį savo įprastinei veiklai. Šie įrašai rūšių buvo naudojamas tyrėjų praeityje-pvz demografai studijuojančių gimimas, vedybos, ir mirties įrašų-bet vyriausybės vis dažniau rinkti ir atleidžiantis išsamias įrašus Susigundžiau tyrimais formų. Pavyzdžiui, Niujorko valdžia įdiegta skaitmeninių metrų viduje kiekvieno taksi mieste. Šie metrų registruoja visus duomenų rūšių apie kiekvieną taksi įskaitant vairuotoją, pradžios laiką ir vietą, sustojimo laikas ir vieta, ir kainos. Atliekant tyrimą, kad aš jums pasakysiu vėliau šiame skyriuje, Henris Farber (2015) repurposed šiuos duomenis spręsti esminį diskusijas darbo ekonomiką apie tarp valandinių darbo užmokesčio ir darbo valandų skaičiaus santykį.
Antrasis pagrindinis tipas didelis duomenų socialinių tyrimų yra verslo administraciniais dokumentais. Tai yra duomenys, kad verslas kurti ir rinkti, kaip dalį savo įprastinei veiklai. Šios verslo administravimo įrašai dažnai vadinamas skaitmeninius pėdsakus, ir apima tokius dalykus kaip paieškos užklausos rąstų, socialinės žiniasklaidos pranešimų ir skambučių įrašus iš mobiliųjų telefonų. Kritiškai, šie verslo administravimo įrašai ne tik apie elgesio internete. Pavyzdžiui, parduotuvių, kurios naudoja išsiregistravimo skaitytuvai sukurti realaus laiko priemonių darbuotojų produktyvumą. Atliekant tyrimą, kad aš jums papasakoti apie vėliau šiame skyriuje Alexandre mas Enrico Moretti (2009) repurposed šį prekybos centrų išsiregistravimo duomenis studijuoti, kaip darbuotojų produktyvumas trenkiasi į savo bendraamžių produktyvumą.
Kadangi abu šie pavyzdžiai rodo, kad repurposing idėja yra esminė mokymosi iš didelių duomenų. Iš savo patirties, socialinių mokslų ir duomenų mokslininkai požiūris į šią repurposing labai skirtingai. Socialiniai mokslininkai, kurie įpratę dirbti su duomenų, skirtų mokslinių tyrimų, yra greitai atkreipti dėmesį į problemas, susijusias su repurposed duomenų ignoruodami savo stipriąsias puses. Kita vertus, duomenų mokslininkai greitai atkreipti dėmesį į repurposed duomenų naudą ignoruodami savo trūkumus. Žinoma, geriausias būdas būtų hibridas. Tai reiškia, kad mokslininkai turi suprasti šių naujų šaltinių duomenų ir geras ir blogas-ir tada išsiaiškinti, kaip iš jų pasimokyti savybes. Ir tai yra šio skyriaus likusiam planas. Be to, aš aprašyti dešimt bendrų savybių verslo ir vyriausybės administracinius duomenis. Po to, aš aprašyti trys mokslinių tyrimų metodus, gali būti naudojamas su šiais duomenimis, požiūrių, kurie gerai tinka prie šios duomenų charakteristikos.