De date mari sunt create și colectate de către guverne în alte scopuri decât cercetarea. Prin utilizarea acestor date pentru cercetare, prin urmare, necesită repurposing.
O viziune idealizată a cercetării sociale imaginează un om de știință care are o idee și apoi colectarea de date pentru a testa această idee. Acest stil de cercetare conduce la o potrivire strânsă între întrebarea de cercetare și de date, dar este limitată, deoarece un cercetător individual de multe ori nu dispun de resursele necesare pentru a colecta datele de care au nevoie, cum ar fi date de mari dimensiuni, bogate și reprezentative la nivel național. anchete Prin urmare, o mulțime de cercetare socială, în trecut, a folosit pe scară largă sociale, cum ar fi Ancheta sociale generale (GSS), Studiul American National Electoral (ANES), și Studiul grupului de Dynamics venit (PSID). Acestea sondaj pe scară largă sunt, în general, condusă de o echipă de cercetători și sunt concepute pentru a crea date care pot fi utilizate de mulți cercetători. Din cauza obiectivelor acestor anchete pe scară largă, mare grijă este pus în proiectarea colectarea datelor și pregătirea datelor rezultate pentru utilizarea de către cercetători. Aceste date sunt de cercetători și pentru cercetători.
Cele mai multe cercetari sociale care folosesc surse digitale de vârstă, cu toate acestea, este fundamental diferită. În loc de a folosi datele colectate de către cercetători și pentru cercetători, folosește surse de date care au fost create și colectate de către întreprinderi și guverne pentru propriile lor scopuri, cum ar fi realizarea unui profit, oferind un serviciu, sau administrarea unei legi. Aceste surse de date de afaceri și de guvern au ajuns să fie numit de date mari. Mediul de cercetare cu date de mare este diferită de a face cercetare cu date care a fost creat inițial pentru cercetare. A compara, de exemplu, un site de social media, cum ar fi Twitter, cu un studiu tradițional opiniei publice, cum ar fi General Social Survey (GSS). Principalele obiective Twitter sunt de a oferi un serviciu pentru utilizatorii săi și pentru a face un profit. În procesul de realizare a acestor obiective, Twitter creează date care ar putea fi utile pentru studierea anumitor aspecte ale opiniei publice. Dar, spre deosebire de General Social Survey (GSS), Twitter nu este concentrat în principal pe cercetarea socială.
Termenul de date de mare este frustrant vag, și el grupează mai multe lucruri diferite. În scopul cercetării sociale, cred că este util să se facă distincția între două tipuri de surse de date mari:. Înregistrări administrative guvernamentale și înregistrări administrative pentru afaceri guvernamentale înregistrările administrative sunt date care sunt create de guverne , ca parte a activităților lor de rutină. Aceste tipuri de înregistrări au fost utilizate de către cercetători în trecut, cum ar fi demografi care studiază nașterea, înregistrările dar căsătoria și moartea guvernele sunt din ce în ce colectarea și eliberarea înregistrărilor detaliate în forme analizabile. De exemplu, guvernul din New York City instalate contoare digitale în interiorul fiecărui taxi din oraș. Aceste contoare înregistrează toate tipurile de date despre fiecare plimbare de taxi, inclusiv șoferul, ora de începere și locul, timpul de oprire și locația, și tariful. Intr - un studiu pe care îi voi spune mai târziu în acest capitol, Henry Farber (2015) repurposed aceste date pentru a aborda o dezbatere fundamentală în economia muncii cu privire la relația dintre salarii pe oră și numărul de ore lucrate.
Al doilea tip principal de date de mare pentru cercetarea socială este registrele administrative de afaceri. Acestea sunt date care creează de afaceri și să colecteze ca parte a activităților lor de rutină. Aceste înregistrări administrative de afaceri sunt adesea numite urme digitale, și includ lucruri cum ar fi busteni de interogare de motor de căutare, posturi de social media și ale apelurilor de la telefoanele mobile. Critically, aceste documente administrative de afaceri nu sunt doar despre comportamentul online. De exemplu, magazinele care utilizează scanere de check-out sunt crearea de măsuri în timp real ale productivității muncii. Intr - un studiu pe care am să - ți spun despre mai târziu în acest capitol, Alexandre Mas și Enrico Moretti (2009) reconvertite acest supermarket date de check-out pentru a studia modul în care productivitatea lucrătorilor este afectat de productivitatea colegii lor.
Deoarece aceste două exemple ilustrează, ideea este fundamental pentru repurposing de învățare de la date mari. Din experiența mea, oamenii de știință sociale și oameni de știință de date abordare a acestui repurposing foarte diferit. Oamenii de stiinta sociale, care sunt obișnuiți să lucreze cu datele concepute pentru cercetare, sunt rapid pentru a sublinia problemele cu datele repurposed în timp ce ignorând punctele sale forte. Pe de altă parte, oamenii de știință de date sunt rapid pentru a sublinia avantajele datelor repurposed în timp ce ignoră punctele slabe ale acestuia. În mod natural, cea mai bună abordare ar fi un hibrid. Aceasta este, cercetătorii trebuie să înțeleagă caracteristicile acestor noi surse de date, atât bune și rele și apoi dau seama cum să învețe de la ei. Și, acesta este planul pentru restul acestui capitol. În continuare, voi descrie zece caracteristici comune ale datelor administrative de afaceri și guvern. După aceea, voi descrie trei abordări de cercetare, care pot fi utilizate cu aceste date, abordări, care sunt bine adaptate la caracteristicile acestor date.