Големи податоци се создадени и собрани од страна на владите за други цели освен истражувања. Користејќи ги овие податоци за истражување, според тоа, бара repurposing.
Идеализиран поглед на социјални истражувања замислува научник имаат идеја, а потоа собирање на податоци за тестирање на таа идеја. Овој стил на истражување доведува до цврста вклопи помеѓу истражувачко прашање и податоци, но тоа е ограничена само затоа што еден поединец истражувач често немаат потребните ресурси за да се соберат податоци кои им се потребни, како што се големи, богати и национално репрезентативни податоци. Затоа, многу социјални истражувања во минатото го користи големи социјални истражувања, како што се на Генералното социјална Истражување (GSS), Државната изборна студијата на американскиот (Anes), и панел проучување на доход динамика (PSID). Овие анкета големи обично се кандидира од страна на тим на истражувачи и тие се дизајнирани да се создаде податоци кои може да се користи од страна на многу научници. Поради цели на овие големи анкети, големо внимание се става во дизајнирање на прибирање на податоците и подготовка на добиените податоци за употреба од страна на истражувачите. Овие податоци се од страна на истражувачите и научниците.
Повеќето социјални истражувања со користење на дигитални извори возраст, сепак, е фундаментално различно. Наместо да се користи податоците собрани од страна на истражувачите и научниците, го користи извори на податоци, кои беа креирани и собрани од страна на претпријатијата и владите за свои цели, како што се прави профит, обезбедување на услуги, или спроведување на законот. Овие деловни и владини извори на податоци се дојдени да се нарече големи податоци. Прават истражувања со големи податоци е различно од тоа истражување со податоци што беше првично замислен за истражување. Споредба, на пример, веб-сајт на социјалните медиуми, како што се Твитер, со традиционалните истражување на јавното мислење, како што се на Генералното социјална Истражување (GSS). Главните цели на Twitter за да се обезбеди услуга за своите корисници и да се направи профит. Во процесот на постигнување на овие цели, Твитер создава податоци кои би можеле да бидат корисни за проучување на одредени аспекти на јавното мислење. Но, за разлика од општата социјална Истражување (GSS), Твитер не е првенствено фокусирани на социјални истражувања.
Терминот голем податоци е фрустрирачки нејасни, а тоа се групираат заедно во многу различни нешта. За целите на социјални истражувања, мислам дека тоа е корисно да се направи разлика помеѓу два вида на големите извори на податоци:. Владините административни записи и бизнис административни записи Владата административни евиденции се податоци кои се креирани од страна на владите како дел од нивните рутински активности. Овие видови на евиденција се користат од страна на истражувачите во минатото, како што се демографите студирање раѓање, брак и смрт евиденција, но владите се повеќе се собираат и ослободување на детална евиденција во analyzable форми. На пример, Владата Њујорк инсталирани дигитални метри во внатрешноста на секое такси во градот. Овие метри евиденција на сите видови на податоци за секој такси вклучувајќи го и возачот на проектот време и локацијата, времето на гости и локација, и цената. Во една студија која јас ќе кажам подоцна во ова поглавје, Хенри Farber (2015) repurposed овие податоци за решавање на основните дебата во труд, економија за односот помеѓу платите на час, а бројот на часови.
Втората главна тип на големи податоци за социјални истражувања е бизнис административни записи. Тоа се податоци дека бизнис се создаде и да се соберат, како дел од нивните рутински активности. Овие бизнис административни евиденции, често се нарекува дигиталните траги, и вклучува работи како пребарување логовите пребарувач, социјални медиуми мислења, и повик записи од мобилни телефони. Критички, овие бизнис административни евиденции не се само за онлајн однесување. На пример, продавници кои користат одјавување скенери се создавање мерки во реално време на продуктивноста на работникот. Во една студија која јас ќе ви кажам за подоцна во ова поглавје, Александар Мас и Енрико Морети (2009) repurposed овој супермаркет одјавување податоци да учат како продуктивноста на работниците е под влијание на продуктивноста на нивните врсници.
Како и двете од овие примери илустрираат, идејата за repurposing е од фундаментално значење за учење од големи податоци. Во моето искуство, социолози и податоци научниците им пријде на ова реуотребување многу поинаку. Социјални научници, кои се навикнати да работат со податоци наменети за истражување, се брза да се укаже на проблемите со repurposed податоци и да го игнорира неговите предности. Од друга страна, научниците податоци брзо да се истакне предностите на repurposed податоци и да го игнорира своите слабости. Се разбира, најдобар пристап ќе биде хибрид. Тоа е, истражувачите треба да се разбере карактеристиките на овие нови извори на податоци, и добри и лоши, а потоа и да дознаам како да се учи од нив. И, тоа е планот за остатокот од ова поглавје. Напред, јас ќе се опише десет заеднички карактеристики на бизнисот и владата административни податоци. После тоа, јас ќе се опише три истражувачки пристапи кои може да се користи со овие податоци, пристапи кои се добро прилагодени на карактеристиките на овие податоци.