Indiferent cât de mari sunt datele dvs. mari, probabil că nu au informațiile pe care le doriți.
Cele mai mari surse de date sunt incomplete , în sensul că nu au informațiile pe care le veți dori pentru cercetarea dvs. Aceasta este o caracteristică comună a datelor create în alte scopuri decât cercetarea. Mulți oameni de știință socială au avut deja experiența de a face față incompletenței, cum ar fi un sondaj existent care nu a pus întrebarea necesară. Din păcate, problemele incompletenței tind să fie mai extreme în datele mari. Din experiența mea, datele mari au tendința să lipsească trei tipuri de informații utile pentru cercetarea socială: informații demografice despre participanți, comportament pe alte platforme și date pentru a operaționaliza construcțiile teoretice.
Dintre cele trei tipuri de incompletențe, problema datelor incomplete pentru a operaționaliza construcțiile teoretice este cea mai greu de rezolvat. Și din experiența mea, este adesea trecută cu vederea accidental. Structurile teoretice aproximativ sunt idei abstracte pe care oamenii de știință socială studiază și operează o construcție teoretică, sugerând o modalitate de a captura acest construct cu date observabile. Din păcate, acest proces simplu sondaj se dovedește adesea dificil. De exemplu, să ne imaginăm încercarea empirică de a testa afirmația simplă despre faptul că oamenii care sunt mai inteligenți câștigă mai mulți bani. Pentru a testa această afirmație, ar trebui să măsurați "inteligența". Dar ce este inteligența? Gardner (2011) susținut că există de fapt opt forme diferite de inteligență. Și există proceduri care ar putea măsura cu exactitate oricare dintre aceste forme de inteligență? În ciuda unor cantități enorme de lucru de către psihologi, aceste întrebări încă nu au răspunsuri clare.
Astfel, chiar și o revendicare relativ simplă - oamenii care sunt mai inteligenți câștigă mai mulți bani - poate fi greu de evaluat empiric, deoarece poate fi greu să operăm constructe teoretice în date. Alte exemple de construcții teoretice, care sunt importante dar greu de pus în operare, includ "normele", "capitalul social" și "democrația". Cercetătorii sociali numesc potrivirea dintre constructurile teoretice și validitatea constructului de date (Cronbach and Meehl 1955) . Așa cum sugerează această listă scurtă de constructe, construirea valabilității este o problemă cu care oamenii de știință socială s-au luptat de foarte mult timp. Dar, din experiența mea, problemele de validitate a constructului sunt și mai mari atunci când se lucrează cu date care nu au fost create pentru scopuri de cercetare (Lazer 2015) .
Atunci când evaluezi un rezultat al cercetării, o modalitate rapidă și utilă de a evalua validitatea constructului este de a lua rezultatul, care este de obicei exprimat în termeni de constructe, și să-l reexprimă din punct de vedere al datelor utilizate. De exemplu, luați în considerare două studii ipotetice care pretind că arată că persoanele mai inteligente câștigă mai mulți bani. În primul studiu, cercetătorul a descoperit că persoanele care au rezultate bune pe testul matricelor progresive Raven - un test bine studiat al inteligenței analitice (Carpenter, Just, and Shell 1990) - au venituri mai mari raportate la declarațiile lor fiscale. În cel de-al doilea studiu, cercetătorul a constatat că persoanele de pe Twitter care au folosit cuvinte mai lungi sunt mai predispuse să menționeze mărcile de lux. În ambele cazuri, acești cercetători ar putea susține că au arătat că persoanele mai inteligente câștigă mai mulți bani. Cu toate acestea, în primul studiu, construcțiile teoretice sunt bine operaționalizate de date, în timp ce în al doilea nu sunt. Mai mult, după cum ilustrează acest exemplu, mai multe date nu rezolvă în mod automat problemele cu validitatea constructului. Trebuie să vă îndoiți de rezultatele celui de-al doilea studiu dacă a implicat un milion de tweet-uri, un miliard de tweets sau un miliard de tweet-uri. Pentru cercetătorii care nu sunt familiarizați cu ideea de valabilitate a constructului, tabelul 2.2 oferă câteva exemple de studii care au operaționalizat constructe teoretice folosind date de urmărire digitală.
Sursă de date | Construcție teoretică | Referințe |
---|---|---|
E-mailuri de e-mail de la o universitate (numai meta-date) | Relații sociale | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Postări sociale în Weibo | Angajament civic | Zhang (2016) |
E-mailuri de e-mail de la o firmă (metadate și text complet) | Adaptarea culturală într-o organizație | Srivastava et al. (2017) |
Deși problema datelor incomplete pentru capturarea construcțiilor teoretice este destul de greu de rezolvat, există soluții comune pentru celelalte tipuri de incompletențe comune: informații demografice incomplete și informații incomplete privind comportamentul pe alte platforme. Prima soluție este de a colecta de fapt datele de care aveți nevoie; Îți voi spune despre asta în capitolul 3 când îți spun despre sondaje. A doua solutie principala este de a face ceea ce oamenii de stiinta de date numesc atribute de utilizator-atribut si oamenii de stiinta sociali numesc imputare . În această abordare, cercetătorii folosesc informațiile pe care le au asupra unor oameni pentru a deduce atribute ale altor persoane. O a treia soluție posibilă este combinarea mai multor surse de date. Acest proces este uneori numit legare record . Metafora mea preferată pentru acest proces a fost scrisă de Dunn (1946) în primul paragraf al primei lucrări scrise vreodată pe legătura record:
"Fiecare persoană din lume creează o carte a vieții. Această carte începe odată cu nașterea și se termină cu moartea. Paginile sale sunt alcătuite din înregistrări ale evenimentelor principale din viață. Legătura înregistrării este numele dat procesului de asamblare a paginilor din această carte într-un volum. "
Când Dunn a scris acel pasaj, își închipuia că Cartea Vieții ar putea include evenimente majore de viață, cum ar fi nașterea, căsătoria, divorțul și moartea. Cu toate acestea, acum că atât de multe informații despre oameni sunt înregistrate, Cartea Vieții ar putea fi un portret incredibil de detaliat, dacă acele pagini diferite (de exemplu, urmele noastre digitale) pot fi legate împreună. Această carte a vieții ar putea fi o resursă excelentă pentru cercetători. Dar, ar putea fi numită și o bază de date de ruină (Ohm 2010) , care ar putea fi folosită pentru tot felul de scopuri neetice, după cum o voi descrie în capitolul 6 (Etică).