Големите данни са създадени и събрани от правителствата за цели, различни от научните изследвания. Използвайки тези данни за научни изследвания, следователно, изисква Repurposing.
Идеализиран оглед на социални изследвания въобразява, учен, който има идея и след това събиране на данни, за да се тества тази идея. Този стил на изследвания води до плътно прилепване между изследователски въпрос и данни, но тя е ограничена, тъй като индивидуален изследовател често не разполагат с необходимите ресурси, за да се съберат данните, от които се нуждаят, като например големи, богати и национално-представителни данни. Ето защо, много социални изследвания в миналото е използвал мащабни социални изследвания, като например General Social Survey (GSS), Националната избирателна изследване на американски (АНЕС), и панел изследване на дохода Dynamics (PSID). Това проучване мащабна обикновено се ръководи от екип от изследователи и те са предназначени да създадат данни, които могат да се използват от много изследователи. Защото от целите на тези мащабни проучвания, много внимателно се поставя в проектирането на събирането на данни и изготвяне на получените данни за използване от изследователите. Тези данни са от изследователи и за изследователите.
Най-социални изследвания с помощта на цифрови източници възрастови, обаче, е коренно различна. Вместо да се използват данни, събрани от изследователи и за изследователите, тя използва източници на данни, които са създадени и събрани от бизнеса и правителствата за собствените си цели, като например получаването на печалба, предоставяне на услуга, или прилагане на закона. Тези бизнес и правителствени източници на данни и как да се нарече големи данни. Правене на изследвания с голяма данни е различна, отколкото правите изследвания с данни, че първоначално е бил създаден за научни изследвания. Сравнете, например, уеб сайт, социални медии, като например Twitter, с традиционното проучване на общественото мнение, като General Social Survey (GSS). Основните цели на Twitter са да предоставят услуга на своите потребители и да се реализира печалба. В процеса на постигане на тези цели, Twitter създава данни, които биха могли да бъдат полезни за изучаване на някои аспекти на общественото мнение. Но, за разлика от Общото социално изследване (GSS), Twitter не е основно фокусиран върху социални изследвания.
Терминът голям данни е отчайващо неясна, и то обединява много различни неща. За целите на социални изследвания, мисля, че е полезно да се направи разграничение между два вида големи източници на данни:. Държавни административни регистри и бизнес административни записи правителствени административни записи са данни, които са създадени от правителствата като част от рутинните им дейности. Тези видове записи са били използвани от изследователи в миналото, като демографи, изучаващи раждане, брак и смърт записи, но правителствата все по събиране и освобождаване на подробни записи в анилизи форми. Например, правителството New York City инсталирани цифрови метра вътре на всеки таксиметров в града. Тези метра записват всички видове данни за всеки път с такси, включително водача, началния час и мястото, времето за спиране и местоположението, и цената на билета. В едно изследване, което ще кажа по-късно в тази глава, Хенри Фарбър (2015) променяно предназначението на тези данни за справяне с основен дебат в икономиката на труда за връзката между почасово заплащане и броя на отработените часове.
Вторият основен тип на голяма данни за социални изследвания е бизнес административни записи. Това са данни, че бизнес създават и събират като част от рутинните им дейности. Тези бизнес административни записи често се наричат цифрови следи, и включват неща като заявките трупи търсачката, социални медийни публикации, и наричат записи от мобилни телефони. Критично, тези бизнес административни записи не са само за онлайн поведение. Например, магазините, които използват напускане скенери са създаването на мерки в реално време на производителността на труда. В едно проучване, че аз ще ви разкажа за по-късно в тази глава, Alexandre Mas и Енрико Морети (2009) променяно предназначението на този супермаркет напускане на данни, за да проучи как производителността на работниците се влияе от производителността на своите връстници.
Тъй като тези примери илюстрират идеята за Repurposing е от основно значение, за да се учим от големите данни. В моя опит, социални учени и учени данни подход към този Repurposing много по-различно. Социални учени, които са свикнали да работят с данни, предназначени за научни изследвания, бързат да се отбележи, проблемите с променяно предназначението на данни, пренебрегвайки своите силни страни. От друга страна, учените данни са бързи, за да се изтъкнат ползите от променяно предназначението на данни, пренебрегвайки своите слабости. Разбира се, най-добрият подход ще бъде хибрид. Това означава, че учените трябва да разберат характеристиките на тези нови източници на данни-добри и лоши, и след това да разбера как да се учим от тях. И, че е планът за останалата част от тази глава. На следващо място, аз ще опиша десет общи характеристики на бизнес и държавни административни данни. След това ще опиша три изследователски подходи, които могат да бъдат използвани с тези данни, подходи, които са добре адаптирани към особеностите на тези данни.