Datele mari sunt create și colectate de companii și guverne în alte scopuri decât cercetarea. Prin urmare, utilizarea acestor date pentru cercetare necesită repopulare.
Primul mod în care mulți oameni se confruntă cu cercetarea socială în era digitală este prin ceea ce se numește deseori date mari . În ciuda utilizării pe scară largă a acestui termen, nu există niciun consens cu privire la ce date mari sunt chiar. Cu toate acestea, una dintre cele mai comune definiții ale datelor mari se concentrează pe "3 Vs": volum, varietate și viteză. Aproximativ, există o mulțime de date, într-o varietate de formate, și este creată în mod constant. Unii fani ai datelor mari adaugă și alte "Vs" cum ar fi Veracity și Value, în timp ce unii critici adaugă Vs cum ar fi Vague și Vacuous. Mai degrabă decât cele 3 "Vs" (sau cele 5 "Vs" sau "Vs"), în scopul cercetării sociale, cred că un loc mai bun pentru a începe este "Ws": Cine, , și de ce. De fapt, cred că multe dintre provocările și oportunitățile create de sursele de date mari rezultă dintr-un singur "W": De ce.
În epoca analogică, majoritatea datelor care au fost utilizate pentru cercetarea socială au fost create pentru a face cercetări. În era digitală, însă, companii și guverne creează o cantitate imensă de date în alte scopuri decât cele de cercetare, cum ar fi furnizarea de servicii, generarea de profit și administrarea legilor. Oamenii creativi totuși și-au dat seama că puteți reutiliza aceste date corporative și guvernamentale pentru cercetare. Gândindu-se la analogia artei din capitolul 1, la fel cum Duchamp a refăcut un obiect găsit pentru a crea artă, oamenii de știință pot reproșa acum datele găsite pentru a crea cercetare.
Deși există fără îndoială oportunități enorme de repopulare, utilizarea datelor care nu au fost create în scopul cercetării prezintă, de asemenea, noi provocări. Comparați, de exemplu, un serviciu media social, cum ar fi Twitter, cu un sondaj tradițional de opinie publică, cum ar fi Ancheta Socială Generală. Scopurile principale ale Twitter sunt furnizarea unui serviciu utilizatorilor săi și realizarea unui profit. Analiza socială generală, pe de altă parte, se axează pe crearea de date cu scop general pentru cercetarea socială, în special pentru cercetarea opiniei publice. Această diferență de obiective înseamnă că datele create de Twitter și cele create de Ancheta Socială Generală au proprietăți diferite, chiar dacă ambele pot fi folosite pentru studierea opiniei publice. Twitter funcționează la o scară și la o viteză pe care Social Survey Social nu se poate compara, dar, spre deosebire de Ancheta Socială Generală, Twitter nu eșantionează cu atenție utilizatorii și nu muncește din greu pentru a menține comparabilitatea în timp. Deoarece aceste două surse de date sunt atât de diferite, nu are sens să spunem că Studiul Social General este mai bun decât Twitter sau invers. Dacă doriți măsurări orare ale dispoziției globale (de exemplu, Golder and Macy (2011) ), Twitter este cel mai bun. Pe de altă parte, dacă doriți să înțelegeți schimbările pe termen lung în polarizarea atitudinilor în Statele Unite (de exemplu, DiMaggio, Evans, and Bryson (1996) ), atunci Ancheta Socială Generală este cea mai bună alegere. În general, mai degrabă decât încercarea de a susține că sursele mari de date sunt mai bune sau mai rele decât alte tipuri de date, acest capitol va încerca să clarifice pentru ce tipuri de întrebări de cercetare mari surse de date au proprietăți atractive și pentru care tipuri de întrebări ar putea să nu fie ideal.
Atunci când se gândesc la mari surse de date, mulți cercetători se concentrează imediat pe datele online create și colectate de companii, cum ar fi jurnalele motorului de căutare și postările sociale. Cu toate acestea, această concentrare îngustă lasă în evidență alte două surse importante de date importante. În primul rând, din ce în ce mai mari surse de date corporative provin de la dispozitivele digitale din lumea fizică. De exemplu, în acest capitol, vă voi spune despre un studiu care a reluat datele de check-out ale supermarketurilor pentru a studia modul în care productivitatea muncitorului este afectată de productivitatea colegilor ei (Mas and Moretti 2009) . Apoi, în capitolele următoare, vă voi spune despre cercetătorii care au folosit înregistrările apelurilor de pe telefoanele mobile (Blumenstock, Cadamuro, and On 2015) și datele de facturare create de utilitățile electrice (Allcott 2015) . Așa cum exemplifică aceste exemple, sursele mari de date corporative sunt mai mult decât comportament online.
Cea de-a doua sursă importantă de date mari, ratată de o atenție îngustă asupra comportamentului online, este datele create de guverne. Aceste date guvernamentale, pe care cercetătorii le numesc înregistrări administrative guvernamentale , includ lucruri cum ar fi înregistrările fiscale, înregistrările școlare și înregistrările statistice vitale (de exemplu, registrele nașterilor și deceselor). Guvernele au creat astfel de date pentru, în unele cazuri, sute de ani, iar oamenii de știință socială le exploatează aproape atât timp cât au existat cercetători sociali. Ceea ce sa schimbat însă este digitizarea, ceea ce a făcut dramatic mai ușor pentru guverne să colecteze, să transmită, să stocheze și să analizeze date. De exemplu, în acest capitol, vă voi spune despre un studiu care a reprofilat datele de la taxiurile digitale ale guvernului din New York, pentru a aborda o dezbatere fundamentală în economia forței de muncă (Farber 2015) . Apoi, în capitolele ulterioare, vă voi spune cum au fost folosite înregistrările de vot colectate de guvern într-un sondaj (Ansolabehere and Hersh 2012) și un experiment (Bond et al. 2012) .
Cred că ideea repopulării este fundamentală pentru a învăța din surse mari de date și, înainte de a vorbi mai specific despre proprietățile marilor surse de date (secțiunea 2.3) și cum pot fi folosite în cercetare (secțiunea 2.4), aș dori pentru a oferi două sfaturi generale despre repopulare. În primul rând, poate fi tentant să mă gândesc la contrastul pe care l-am configurat ca fiind între datele "găsite" și datele "proiectate". Asta e aproape, dar nu este corect. Chiar dacă, din perspectiva cercetătorilor, surse mari de date sunt "găsite", ele nu cad doar din cer. În schimb, sursele de date "găsite" de către cercetători sunt proiectate de cineva pentru un anumit scop. Dat fiind că datele "găsite" sunt concepute de cineva, recomand că întotdeauna să încercați să înțelegeți cât mai mult posibil persoanele și procesele care au creat datele dvs. În al doilea rând, atunci când reprofilați date, este adesea extrem de util să vă imaginați setul de date ideal pentru problema dvs. și apoi să comparați setul de date ideal cu cel pe care îl utilizați. Dacă nu v-ați colectat datele dvs., este posibil să existe diferențe importante între ceea ce doriți și ceea ce aveți. Observând aceste diferențe, veți putea clarifica ceea ce puteți și nu puteți învăța din datele pe care le aveți și ar putea sugera date noi pe care ar trebui să le colectați.
Din experiența mea, oamenii de știință sociali și oamenii de știință de date tind să se apropie reproșând foarte diferit. Oamenii de știință socială, care sunt obișnuiți să lucreze cu datele destinate cercetării, sunt în mod obișnuit rapid să sublinieze problemele cu datele reproduse în timp ce ignoră punctele sale forte. Pe de altă parte, oamenii de știință de date sunt, de obicei, rapizi să sublinieze avantajele datelor reproduse, ignorând în același timp slăbiciunile sale. Firește, cea mai bună abordare este un hibrid. Adică, cercetătorii trebuie să înțeleagă caracteristicile unor mari surse de date - atât bune cât și rele - și apoi să-și dea seama cum să învețe de la ei. Și acesta este planul pentru restul acestui capitol. În următoarea secțiune, voi descrie zece caracteristici comune ale surselor mari de date. Apoi, în următoarea secțiune, voi descrie trei abordări de cercetare care pot funcționa bine cu astfel de date.