Bez obzira koliko su veliki vaš veliki podaci, vjerojatno nema informacija koje želite.
Većina velikih izvora podataka nepotpuna je u smislu da nemaju potrebne informacije za vaše istraživanje. To je uobičajena značajka podataka stvorenih za svrhe koje nisu istraživanja. Mnogi društveni znanstvenici već su imali iskustva u suočavanju s nepotpunostom, kao što je postojeća anketa koja nije postavila pitanje koje je bilo potrebno. Nažalost, problemi nepotpunosti obično su ekstremniji u velikim podacima. Prema mojem iskustvu, veliki podaci imaju tendenciju da nedostaju tri vrste informacija korisnih za društvena istraživanja: demografske informacije o sudionicima, ponašanje na drugim platformama i podaci za operacionalizaciju teorijskih konstrukata.
Od tri vrste nepotpunosti, problem nepotpunih podataka za operacionalizaciju teorijskih konstrukata je najteže riješiti. I u mom iskustvu, često se slučajno previdi. Teorijski konstrukti su apstraktne ideje koje socijalni znanstvenici proučavaju i operacionaliziraju teorijski konstrukt znači predlagati neki način za hvatanje tog konstrukta s vidljivim podacima. Nažalost, ovaj jednostavan zvuk proces često se ispostavlja da je vrlo teško. Na primjer, zamislimo da pokušavamo empirijski testirati naizgled jednostavnu tvrdnju da ljudi koji su inteligentniji zarađuju više novca. Da biste testirali ovu tvrdnju, morat ćete izmjeriti "inteligenciju". Ali što je inteligencija? Gardner (2011) tvrdi da postoje zapravo osam različitih oblika inteligencije. I postoje li postupci koji bi mogli točno mjeriti bilo koji od ovih oblika inteligencije? Unatoč ogromnim količinama rada psihologa, ta pitanja i dalje nemaju jasne odgovore.
Dakle, čak i relativno jednostavna tvrdnja - ljudi koji su inteligentniji zarađuju više novca - može biti teško procijeniti empirijski jer može biti teško operirati teorijske konstrukcije u podacima. Drugi primjeri teorijskih konstrukata koji su važni, ali teško operacionalizirani uključuju "norme", "društveni kapital" i "demokraciju". Društveni znanstvenici nazivaju utakmicu između teorijskih konstrukata i valjanosti konstrukcije podataka (Cronbach and Meehl 1955) . Kao što ovaj kratki popis konstrukata sugerira, konstruiranje valjanosti problem je koji se društvenim znanstvenicima već jako dugo bore. No, u mom iskustvu, problemi konstrukcijske valjanosti još su veći kada rade s podacima koji nisu stvoreni za potrebe istraživanja (Lazer 2015) .
Kada procjenjujete rezultat istraživanja, jedan brz i koristan način za procjenu valjanosti konstrukcije je uzeti rezultat, koji se obično izražava u terminima konstrukta i ponovno izraziti u odnosu na upotrijebljene podatke. Na primjer, razmotrite dvije hipotetske studije koje tvrde da pokazuju da ljudi koji su inteligentniji zarađuju više novca. U prvoj studiji, istraživač je utvrdio da ljudi koji dobro svladavaju Ravenove Progresivne matrice test - dobro proučavani test analitičke inteligencije (Carpenter, Just, and Shell 1990) - imaju veće zabilježene prihode na njihovu poreznu prijavu. U drugoj studiji, istraživač je utvrdio da su ljudi na Twitteru koji koriste dulje riječi vjerojatnije spomenuti luksuzne marke. U oba slučaja, ti istraživači mogu tvrditi da su pokazali da ljudi koji su inteligentniji zarađuju više novca. Međutim, u prvoj studiji teorijski konstrukti su dobro operacionalizirani podacima, dok u drugom nisu. Nadalje, kao što ovaj primjer ilustrira, više podataka ne automatski rješava probleme s konstrukcijom valjanosti. Trebali biste sumnjati u rezultate druge studije da li su uključeni milijuni tweetova, milijardu tweetova ili trilijuna tweetova. Za istraživače koji nisu upoznati s idejom konstrukcijske valjanosti, tablica 2.2 daje primjere studija koje su operacionalizirale teorijske konstrukcije pomoću digitalnih podataka o tragovima.
Izvor podataka | Teorijski konstrukt | Reference |
---|---|---|
Zapisnici e-pošte s sveučilišta (samo meta-podaci) | Društveni odnosi | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Postovi društvenih medija na Weibou | Građanski angažman | Zhang (2016) |
Zapisnici e-pošte tvrtke (meta-podaci i potpuni tekst) | Kulturno uklapanje u organizaciju | Srivastava et al. (2017) |
Iako je problem nepotpunih podataka za hvatanje teorijskih konstrukata prilično teško riješiti, postoje zajednička rješenja za druge uobičajene vrste nepotpunosti: nepotpune demografske informacije i nepotpune informacije o ponašanju na drugim platformama. Prvo rješenje je zapravo prikupljanje podataka koje trebate; O tome ću vam reći u 3. poglavlju kad vam kažem o anketama. Drugo je glavno rješenje učiniti ono što podaci znanstvenici nazivaju korisničkim atributom i socijalni znanstvenici nazivaju imputiranje . U ovom pristupu, istraživači koriste informacije koje imaju na nekim ljudima da zaključe atribute drugih ljudi. Treće rješenje je kombiniranje višestrukih izvora podataka. Ovaj se proces ponekad naziva rekordnim povezivanjem . Moja omiljena metafora za ovaj proces napisao je Dunn (1946) u prvom paragrafu prvog papira ikad napisanog na rekordnom vezivanju:
"Svaka osoba na svijetu stvara Knjigu života. Ova knjiga počinje s rođenjem i završava smrću. Njegove su stranice sastavljene od zapisa o glavnim događajima u životu. Snimanje poveznica je naziv koji se daje procesu sastavljanja stranica ove knjige u volumen. "
Kad je Dunn napisao taj odlomak, zamislio je da Knjiga života može uključivati velike životne događaje poput rođenja, braka, razvoda i smrti. Međutim, sada kada je zabilježeno toliko informacija o ljudima, knjiga života mogla bi biti nevjerojatno detaljan portret, ako se te različite stranice (tj., Naši digitalni tragovi) mogu povezati. Ova knjiga života mogla bi biti odličan izvor za istraživače. Ali, također se može nazvati bazom podataka o uništenju (Ohm 2010) , koja bi se mogla koristiti za sve vrste neetičnih svrha, kao što ću opisati u 6. poglavlju (Etika).