2.3.2.1 incompletă

Nu contează cât de "mare" , "date mari" dvs. probabil nu are informațiile dorite.

Cele mai multe surse de date mari sunt incomplete, în sensul că acestea nu au informațiile pe care le va dori pentru cercetare. Aceasta este o trăsătură comună a datelor care au fost create în alte scopuri decât cercetarea. Mulți oameni de știință sociale au avut deja experiența de a face cu neîmplinirii, cum ar fi un sondaj existent, care nu a cerut întrebarea pe care a dorit. Din păcate, problemele incompletitudinii tind să fie mai extreme în date mari. În experiența mea, date de mare tinde să lipsească trei tipuri de informații utile pentru cercetarea socială: demografice, comportamentul pe alte platforme și date pentru a operaționaliza constructii teoretice.

Toate cele trei dintre aceste forme de incompletitudine sunt ilustrate într - un studiu realizat de Gueorgi Kossinets și Duncan Watts (2006) despre evoluția rețelei sociale la o universitate. Kossinets și Watts a început cu jurnalele de e-mail de la universitate, care aveau informații precise despre care a trimis e-mailuri pe care la ce moment (cercetatorii nu au avut acces la conținutul e-mailurilor). Aceste înregistrări de e-mail suna ca un set de date uimitoare, dar, ele sunt în ciuda mărimii lor și granularitate-fundamental incomplet. De exemplu, jurnalele de e-mail nu includ date cu privire la caracteristicile demografice ale studenților, cum ar fi sexul și vârsta. În plus, jurnalele de e-mail nu includ informații despre comunicarea prin alte mijloace, cum ar fi apeluri telefonice, mesaje text sau față-în-față conversații. În cele din urmă, jurnalele de e-mail nu includ în mod direct informații despre relații, constructele teoretice în multe teorii existente. Mai târziu, în capitolul, când vorbesc despre strategii de cercetare, veți vedea cum Kossinets și Watts a rezolvat aceste probleme.

De trei tipuri de incompletitudine, problema de date incomplete pentru a operaționaliza constructe teoretice este cel mai greu de rezolvat, și în experiența mea, este adesea trecute cu vederea în mod accidental de către oamenii de știință de date. În mare, construcțiile teoretice sunt idei abstracte , care studiază oamenii de știință sociale, dar, din păcate, aceste construcții nu pot fi întotdeauna definite fără ambiguitate și măsurate. De exemplu, să ne imaginăm încercarea de a testa empiric afirmația aparent simplu, ca oamenii care sunt mai inteligenți câștiga mai mulți bani. Pentru a testa această afirmație va trebui să măsoare "inteligență". Dar, ce este inteligența? De exemplu, Gardner (2011) a susținut că există de fapt opt forme diferite de inteligență. Și sunt acolo proceduri care ar putea masura cu exactitate oricare dintre aceste forme de inteligență? În ciuda cantități enorme de muncă de către psihologi, aceste întrebări încă nu au răspuns fără echivoc. Astfel, chiar și un mijloc relativ simplu de cerere-oameni care sunt mai inteligenți câștiga mai mulți bani poate fi greu pentru a evalua empiric , deoarece poate fi greu de a operaționaliza constructe teoretice în date. Alte exemple de constructe teoretice care sunt importante , dar greu de operaŃionaliza includ "norme", "capital social" și "democrație". Sociologii numesc meciul dintre constructe teoretice și validitatea de construct de date (Cronbach and Meehl 1955) . Și, așa cum această listă a constructelor sugerează, validitatea de construct este o problemă pe care oamenii de știință sociale s-au luptat cu un timp foarte lung, chiar și atunci când acestea au fost de lucru cu datele care au fost colectate în scopul cercetării. Atunci când se lucrează cu datele colectate în alte scopuri decât cercetarea, problemele de validitate de construct sunt mai dificil de atins (Lazer 2015) .

Atunci când citiți o lucrare de cercetare, o modalitate rapidă și utilă pentru a evalua preocupările cu privire la validitatea de construct este de a lua cererea principală în hârtie, care este de obicei exprimat în termeni de constructe și reexprimăm-l în ceea ce privește datele utilizate. De exemplu, ia în considerare două studii ipotetice care pretind să demonstreze că oamenii mai inteligenți câștiga mai mulți bani:

  • Studiul 1: persoanele care au un punctaj bun la testul Raven Progressive testul Matrici bine studiat al inteligenței analitice (Carpenter, Just, and Shell 1990) -sunt venituri mai mari raportate la declaratiile fiscale
  • Studiul 2: oameni pe Twitter care au folosit cuvinte mai lungi sunt mai susceptibile de a menționa branduri de lux

In ambele cazuri, cercetatorii ar putea afirma că ei au arătat că oamenii mai inteligenți câștiga mai mulți bani. Dar, în primul studiu constructele teoretice sunt bine operaționalizate de date, iar în al doilea ei nu sunt. În plus, deoarece acest exemplu ilustrează, mai multe date nu rezolvă automat problemele cu validitatea de construct. Ar trebui să se îndoiască rezultatele studiului 2 dacă este implicat un milion de tweet-uri, un miliard de tweet-uri, sau un trilion de tweet-uri. Pentru cercetătorii care nu sunt familiarizați cu ideea validității de construct, Tabelul 2.2 oferă câteva exemple de studii care au operaționalizat constructii teoretice folosind date de urme digitale.

Tabelul 2.2: Exemple de urme digitale care sunt utilizate ca măsuri ale unor concepte teoretice mai abstracte. Oamenii de stiinta sociale numesc acest meci validitate de construct și este o provocare majoră cu utilizarea surselor de date mari pentru cercetare socială (Lazer 2015) .
urme digitale construct teoretic Citare
busteni de e-mail de la o universitate (numai meta-date) relaţii sociale Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
posturi de social media de pe Weibo Angajament civic Zhang (2016)
busteni de e-mail de la o firmă (meta-date și de text complet) se potrivesc culturale într-o organizație Goldberg et al. (2015)

Deși problema de date incomplete pentru constructii teoretice operaționalizarea este destul de greu de rezolvat, există trei soluții comune la problema informațiilor demografice incomplete și informații incomplete privind comportamentul pe alte platforme. Primul este de a colecta de fapt, datele de care aveți nevoie; O să-ți spun despre un exemplu de faptul că, în capitolul 3 când vă spun despre sondaje. Din păcate, acest tip de colectare a datelor nu este întotdeauna posibil. A doua soluție principală este de a face ceea ce oamenii de știință de date numesc inferență utilizator-atribut și ceea ce oamenii de știință numesc sociale imputare. În această abordare, cercetătorii folosesc informațiile pe care le au asupra unor oameni de a deduce atribute ale altor persoane. Cea de a treia soluție posibila cea utilizată de Kossinets și-Watts a fost de a combina mai multe surse de date. Acest proces este numit uneori absorbit sau o înregistrare de legătură. Metafora mea preferată pentru acest proces a fost propus în primul paragraf din prima lucrarea scrisă vreodată pe înregistrare de legătură (Dunn 1946) :

"Fiecare persoană din lume creează o carte de viață. Aceasta carte începe cu nașterea și se termină cu moartea. Paginile sale sunt formate din înregistrări ale principiului evenimentelor din viață. Înregistrare de legătură este numele dat procesului de asamblare paginile acestei cărți într-un volum. "

Acest pasaj a fost scris în 1946, și în acel moment, oamenii se gândeau că Cartea Vieții ar putea include evenimente de viață majore, cum ar fi nașterea, căsătoria, divorțul, și moarte. Cu toate acestea, acum că se înregistrează atât de multe informații despre oameni, Cartea Vieții ar putea fi un portret incredibil de detaliate, în cazul în care aceste pagini diferite (de exemplu, urme noastre digitale), pot fi legate între ele. Cartea aceasta a Vieții ar putea fi o mare resursa pentru cercetători. Însă, Cartea Vieții poate fi numită o bază de date de ruină (Ohm 2010) , care ar putea fi utilizate pentru toate tipurile de scopuri ne - etice, așa cum s-a descris mai jos , atunci când vorbesc despre natura sensibilă a informațiilor colectate de către surse de date mari de mai jos și în capitolul 6 (etică).