Ne glede na velikost vaših velikih podatkov, verjetno nima informacij, ki jih želite.
Večina velikih podatkovnih virov je nepopolna , v smislu, da nimajo informacij, ki jih želite za vaše raziskave. To je skupna značilnost podatkov, ki so bili ustvarjeni za druge namene kot za raziskave. Mnogi socialni znanstveniki so že imeli izkušnje z obravnavanjem nepopolnosti, na primer z obstoječo raziskavo, ki ni postavila potrebnega vprašanja. Na žalost so problemi nepopolnosti večji pri velikih podatkih. Po mojem mnenju velikim podatkom manjkajo trije podatki, koristni za socialne raziskave: demografske podatke o udeležencih, vedenje na drugih platformah in podatki za operacionalizacijo teoretičnih konstruktov.
Od treh vrst nepopolnosti je najtežje rešiti problem nepopolnih podatkov za operacionalizacijo teoretičnih konstruktov. In po mojih izkušnjah se pogosto pomotoma spregleda. Približno teoretični konstrukti so abstraktne ideje, ki jih družboslovci preučujejo in operacionalizirajo teoretične konstruktne načine, ki predlagajo nek način za zajemanje tega konstrukta z opaznimi podatki. Žal se ta preprost zvonec pogosto izkaže za precej težko. Na primer, predstavljamo si, da skušamo empirično preizkusiti navidezno preprosto trditev, da ljudje, ki so bolj inteligentni, zaslužijo več denarja. Da bi preizkusili to trditev, bi morali izmeriti "inteligenco". Toda kaj je inteligenca? Gardner (2011) trdil, da obstaja dejansko osem različnih oblik obveščevalnih podatkov. In ali obstajajo postopki, ki bi lahko natančno izmerili katero koli od teh oblik obveščevalnih podatkov? Kljub ogromnim količinam dela psihologov ta vprašanja še vedno nimajo nedvoumnih odgovorov.
Tako lahko celo sorazmerno preprosto trditev - ljudje, ki so bolj inteligentni zaslužijo več denarja - težko oceniti empirično, ker je težko operacionalizirati teoretične konstrukte v podatkih. Drugi primeri teoretičnih konstruktov, ki so pomembni, vendar težko operacionalizirani, vključujejo "norme", "socialni kapital" in "demokracijo". Socialni znanstveniki pokličejo tekmo med teoretičnimi konstrukti in veljavnostjo podatkovnih konstruktov (Cronbach and Meehl 1955) . Kot predlaga ta kratek seznam konstruktov, je gradnja veljavnosti problem, s katerim se socialni znanstveniki že dolgo borijo. Toda po mojih izkušnjah so težave s konstrukcijo veljavnosti še večje pri obdelavi podatkov, ki niso bili ustvarjeni za namene raziskav (Lazer 2015) .
Ko ocenjujete rezultat raziskave, je hiter in uporaben način ocenjevanja konstruktne veljavnosti rezultat, ki je ponavadi izražen v smislu konstruktov in ga ponovno izrazite v smislu uporabljenih podatkov. Na primer, upoštevajte dve hipotetični študiji, ki trdijo, da ljudje, ki so bolj inteligentni, zaslužijo več denarja. V prvi študiji je raziskovalec ugotovil, da imajo ljudje, ki so dobro ocenjeni na testu Raven Progressive Matrices Test, dobro preučeni preizkus analitične inteligence (Carpenter, Just, and Shell 1990) večji prijavljeni dohodki pri svojih davčnih napovedih. V drugi študiji je raziskovalec ugotovil, da ljudje na Cvrkutati, ki uporabljajo daljše besede, bolj verjetno omenjajo luksuzne blagovne znamke. V obeh primerih bi ti raziskovalci lahko trdili, da so pokazali, da ljudje, ki so bolj inteligentni, zaslužijo več denarja. Vendar pa v prvi študiji teoretični konstrukti dobro operirajo s podatki, medtem ko v drugem niso. Nadalje, kot prikazuje ta primer, več podatkov samodejno ne rešuje težav s konstrukcijo veljavnosti. Dvomite v rezultate druge študije, ali je vključevalo milijon tweetov, milijardo tweetov ali trilijon tweetov. Za raziskovalce, ki niso seznanjeni z idejo o gradnji veljavnosti, tabela 2.2 vsebuje nekaj primerov študij, ki so operacionalizirali teoretične konstrukte z uporabo digitalnih podatkov o sledovih.
Vir podatkov | Teoretični konstrukt | Reference |
---|---|---|
E-poštni dnevniki z univerze (samo meta podatki) | Družbeni odnosi | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Objave socialnih medijev na Weibo | Civilno angažiranje | Zhang (2016) |
E-poštni dnevniki podjetja (metapodatki in celotno besedilo) | Kulturno prilegajo se v organizacijo | Srivastava et al. (2017) |
Čeprav je problem nepopolnih podatkov za zajemanje teoretičnih konstruktov težko rešiti, obstajajo skupne rešitve za druge običajne vrste nepopolnosti: nepopolne demografske informacije in nepopolne informacije o vedenju na drugih platformah. Prva rešitev je dejansko zbiranje podatkov, ki jih potrebujete; Povedal vam bom o tem v 3. poglavju, ko vam povem o raziskavah. Druga glavna rešitev je, da storijo tisto, kar znanstveniki kličejo sklepanje o uporabniškem atributu in socialni znanstveniki kličejo imputacijo . Pri tem pristopu raziskovalci uporabljajo informacije, ki jih imajo na nekaterih ljudeh, da sklepajo atribute drugih ljudi. Tretja možna rešitev je kombinacija več virov podatkov. Ta proces se včasih imenuje povezava z zapisi . Moja najljubša metafora za ta proces je napisal Dunn (1946) v prvem odstavku prvega dela, ki je bil kdaj zapisan na zvočni povezavi:
Vsaka oseba na svetu ustvarja knjigo življenja. Ta knjiga se začne z rojstvom in konča s smrtjo. Njene strani sestavljajo zapisi glavnih dogodkov v življenju. Snemanje povezave je ime, ki se doda procesu sestavljanja strani te knjige v obseg. "
Ko je Dunn napisal ta odlomek, si je predstavljal, da lahko Knjiga Življenja vključuje velike življenjske dogodke, kot so rojstvo, poroka, ločitev in smrt. Zdaj pa, ko je zabeleženih toliko informacij o ljudeh, je knjiga knjige lahko izjemno podroben portret, če je mogoče te različne strani (tj. Naše digitalne sledi) povezati skupaj. Ta knjiga življenja je lahko odličen vir za raziskovalce. Toda to bi lahko imenovali tudi zbirka uničenja (Ohm 2010) , ki bi jo lahko uporabili za vse neetične namene, kot sem opisal v poglavju 6 (etika).