Big dati tiek veidotas un valdībām vākti izņemot pētniecības nolūkos. Izmantojot šos datus pētniecībai, tāpēc prasa Repurposing.
Idealizēts skats sociālo pētījumu iztēlojas zinātnieks, kam ideja un tad datu vākšanas, lai pārbaudītu šo ideju. Šis stils pētījumi izraisa saspringts fit starp pētījuma jautājumu un datus, bet tā ir ierobežota, jo individuāls pētnieks bieži nav resursu, kas nepieciešami, lai apkopotu datus, kas vajadzīga, piemēram, lieliem, bagātiem un nacionāli reprezentatīvi dati. Tāpēc daudz sociālo pētījumu pagātnē ir izmantoti liela mēroga sociālie apsekojumi, piemēram, vispārējo sociālo apsekojuma (GSS), Amerikas Nacionālo vēlēšanu Study (Anes), un Panel Study ienākumu dinamika (PSID). Tie liela mēroga aptaujas parasti vada pētnieku grupa, un tie ir paredzēti, lai radītu datus, kurus var izmantot daudzi pētnieki. Sakarā mērķiem šo liela mēroga aptaujām, ļoti rūpīgi tiek nodots projektēšana datu vākšanu un sagatavot iegūto datu izmantošanai pētniekiem. Šie dati ir pētnieki un pētniekiem.
Lielākā daļa sociālo pētījumu izmantojot digitālo vecuma avotus, tomēr būtiski atšķiras. Tā vietā, izmantojot datus, pētnieki un pētnieku savākti, tā izmanto datu avotus, kas tika izveidota, un uzņēmumiem un valdībām, kas savākti par savām vajadzībām, piemēram, gūt peļņu, kas sniedz pakalpojumus, vai likumu administrēšanu. Šie biznesa un valsts datu avoti ir pienācis saukt lielie dati. Veicot pētījumus ar lielu datiem ir atšķirīgs nekā veicot pētījumus ar datiem, kas sākotnēji tika radīts pētniecībai. Salīdziniet, piemēram, sociālo mediju tīmekļa vietnes, piemēram, čivināt, ar tradicionālo sabiedriskās domas aptaujas, piemēram, par vispārējo sociālo apsekojuma (GSS). Twitter ir galvenie mērķi ir sniegt pakalpojumus tās lietotājiem un gūt peļņu. Šajā procesā šos mērķus sasniegtu, Twitter rada datus, kas var būt noderīga, lai pētītu konkrētus aspektus sabiedrības viedokli. Bet, atšķirībā no vispārējo sociālo apsekojuma (GSS), Twitter nav galvenokārt vērsta uz sociālo pētījumu.
Termins lielie dati ir frustratingly neskaidrs, un tajā sagrupē daudz dažādas lietas. Lai sociālo pētījumu vajadzībām, es domāju, ka tas ir noderīgi atšķirt divu veidu lielo datu avotiem:. Valdības administratīvajiem reģistriem un darījumu administratīvo uzskaites pārvaldības administratīvie ieraksti ir dati, kas ir izveidotas ar valdībām, kā daļu no savas ikdienas darbības. Šie ieraksti veidiem, ko pētnieki ir izmantota pagātnē, piemēram, demogrāfi studē piedzimšana, laulības, un nāve ieraksti-bet valdības arvien vācot un atbrīvojot detalizētus ierakstus analizējamā formās. Piemēram, New York City valdība uzstādītas digitālās metrus iekšpusē katra taksometra pilsētā. Šie skaitītāji ierakstīt visu veidu datus par katru taksometru ieskaitot vadītāju, sākuma laiku un vietu, beigu laiku un atrašanās vietu, un biļetes. Pētījumā, ka es jums saku vēlāk šajā nodaļā, Henry Farbers (2015) repurposed šos datus, lai risinātu fundamentālas debates darba ekonomikā par attiecībām starp vienas stundas algas un nostrādāto stundu skaitu.
Otrs galvenais veids lielā datu sociālo pētījumu ir uzņēmējdarbības administratīvā uzskaite. Tie ir dati, ka bizness rada un vāc kā daļu no viņu ikdienas darbību. Šie biznesa administratīvie ieraksti bieži sauc par digitālo pēdas, un ietver lietas, piemēram meklētājprogrammu vaicājumu baļķiem, sociālo mediju amatu, un zvanu ierakstus no mobilajiem telefoniem. Kritiski šie biznesa administratīvie ieraksti ir ne tikai par tiešsaistes uzvedību. Piemēram, veikali, kas izmanto izrakstīšanās skenerus radām reāllaika pasākumus darbinieku produktivitāti. Pētījumā, ko es jums pastāstīt par vēlāk šajā nodaļā, Alexandre Mas un Enrico Moretti (2009) repurposed šo lielveikalu izrakstīšanās datus, lai izpētītu, kā darbinieku produktivitāti ietekmē produktivitāti saviem vienaudžiem.
Tā kā abi šie piemēri ilustrē, ideja repurposing ir būtiska, lai mācīties no lielajiem datiem. Pēc manas pieredzes, sociālie zinātnieki un datu zinātniekiem pieeju šim repurposing ļoti atšķirīgi. Sociālie zinātnieki, kuri ir pieraduši strādāt ar datiem, kas paredzēti pētniecībai, ir ātri norādīt uz problēmām ar repurposed datiem, ignorējot savas stiprās puses. No otras puses, datu zinātnieki ir ātri norādīt priekšrocības repurposed datiem, ignorējot savas vājās puses. Protams, labākais risinājums būtu hibrīds. Tas ir, pētniekiem jāizprot īpašības šo jauno avotu dati-gan labs un slikts, un tad izdomāt, kā mācīties no viņiem. Un, tas ir plāns uz atlikušo šīs nodaļas. Tālāk, es aprakstīšu desmit kopīgas iezīmes uzņēmējdarbības un valsts administratīvajiem datiem. Pēc tam, es aprakstīšu trīs pētniecības pieejas, ko var izmantot ar šiem datiem, pieejas, kas ir labi piemērotas īpašībām šiem datiem.