Ne glede na to, kako "velike" svoje "velike podatki" verjetno nima želene informacije.
Večina velikih viri podatkov so nepopolni, v smislu, da nimajo informacij, ki jih boste želeli za svoje raziskave. To je skupna značilnost podatkov, ki so bile ustvarjene za druge raziskave namene. Mnogi družboslovci so že imeli izkušnje, ki se ukvarjajo z nepopolnosti, kot so obstoječe raziskave, ki ne zaprosi vprašanje, ki ste želeli. Na žalost so problemi nepopolnosti so bolj skrajno v velikih podatkov. Po mojih izkušnjah, veliko podatkov kaže, da je manjkajoče tri vrste informacij, koristnih za socialne raziskave: demografijo, obnašanje na drugih platformah, in podatke operacionalizirati teoretičnih konstruktov.
Vse tri od teh oblik nepopolnosti so prikazane v študiji Gueorgi Kossinets in Duncan Watts (2006) o razvoju socialne mreže na univerzi. Kossinets in Watts začeli z e-pošto hlodov iz univerze, ki so imeli natančne podatke o tem, kdo je poslal e-pošto, na katere ob katerem času (raziskovalci niso imeli dostopa do vsebine e-pošte). Ta e-poštni evidence sliši neverjetno nabor podatkov, vendar pa so, ne glede na njihovo velikost in razdrobljenost-bistveno nepopolna. Na primer, e-pošta dnevniki ne vključujejo podatke o demografskih značilnostih študentov, kot sta spol in starost. Poleg tega e-poštni dnevniki ne vključujejo informacij o komunikaciji z drugimi mediji, kot so telefonski klici, sporočila SMS ali face-to-face pogovore. Končno, e-poštni dnevniki neposredno ne vključujejo informacije o razmerjih, teoretičnih konstruktov v številnih obstoječih teorij. Kasneje v poglavju, ko govorim o raziskovalnih strategij, boste videli, kako Kossinets in Watts rešiti te probleme.
Tri vrste nepopolnosti, problem nepopolnih podatkov operacionalizirati teoretičnih konstruktov je najtežje rešiti, in po mojih izkušnjah, je pogosto nehote spregledali podatkov znanstveniki. Približno, teoretični konstrukti so abstraktne ideje, ki študirajo družboslovci, vendar, žal, ti konstrukti ni vedno mogoče nedvoumno opredeliti in izmeriti. Na primer, si predstavljajmo skuša empirično testiranje na videz preprosto trditev, da ljudje, ki so bolj inteligentni zaslužili več denarja. Da bi preverili to trditev bi morali meriti "inteligenco". Toda, kaj je inteligenca? Na primer, Gardner (2011) je trdil, da je dejansko osem različnih oblik inteligence. In, ali obstajajo postopki, ki bi natančno merijo koli od teh oblik inteligence? Kljub velike količine dela, ki jih psihologi, ta vprašanja še vedno nimajo nedvoumne odgovore. Tako je tudi relativno enostavni zahtevek-ljudje, ki so bolj inteligentni zaslužili več denarja, je lahko težko oceniti, empirično, saj je težko operacionalizirati teoretičnih konstruktov v podatkih. Drugi primeri teoretičnih konstruktov, ki so pomembni, vendar je težko operacionalizirati vključujejo "norme", "socialnega kapitala" in "demokracijo". Družboslovci pokličite tekma med teoretičnimi konstrukti in veljavnost podatkov konstrukt (Cronbach and Meehl 1955) . In, as ta seznam konstruktov predlaga, izgradnjo veljavnost je problem, ki ga sociologi boril z za zelo dolgo časa, tudi ko so bili zaposleni pri podatke, ki so zbrane za namen raziskave. Pri delu s podatki, zbranimi za druge raziskave namene, problemi veljavnosti konstrukta, so še toliko bolj zahtevna (Lazer 2015) .
Ko berete raziskovalno nalogo, en hiter in koristen način za ocenjevanje pomisleki o veljavnosti konstrukta je, da glavni zahtevek v časopisu, ki je običajno izraženo v konstrukte, in jo ponovno izraziti v smislu uporabljenih podatkov. Za primer vzemimo dva hipotetične študije, ki trdijo, da kažejo, da bolj inteligentni ljudje zaslužijo več denarja:
V obeh primerih bi raziskovalci trdijo, da so pokazale, da bolj inteligentni ljudje zaslužijo več denarja. Vendar v prvi študiji so teoretični konstrukti so dobro operacionalizirani s podatki, v drugem pa ne. Poleg tega, kot je to primer ponazarja, več podatkov samodejno ne rešujejo težav z veljavnostjo konstrukta. Moral bi dvomili o rezultatih študije 2, ali je šlo za milijon tweets, milijarde tweets, ali bilijon tweets. Za raziskovalce, ki niso seznanjena z idejo veljavnosti konstrukta, Tabela 2.2 vsebuje nekaj primerov študij, ki so udejanjen teoretične konstrukte z uporabo digitalnih podatkov o sledovih.
Digitalni sled | teoretični konstrukt | Navedba |
---|---|---|
e-poštni dnevniki iz univerze (samo meta-podatkov) | socialni odnosi | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
objav socialnih medijev na Weibo | Civic sodelovanje | Zhang (2016) |
e-poštni dnevniki podjetju (meta-podatkov in popolno besedilo) | Kulturni fit v organizaciji | Goldberg et al. (2015) |
Čeprav je problem nepopolnih podatkov za operacijskih zmogljivosti teoretičnih konstruktov je zelo težko rešiti, obstajajo tri skupne rešitve za problem nepopolnih demografskih podatkov in nepopolnih podatkov o obnašanju na drugih platformah. Prva je, da se dejansko zbira podatke, ki jih potrebujejo; Jaz ti bom povedal primer, ki v poglavju 3, ko sem ti povedal o raziskavah. Na žalost je ta vrsta zbiranja podatkov ni vedno mogoče. Druga glavna rešitev je, da to, kar podatkovnih znanstveniki klic uporabniku atribut sklepanja in kaj družboslovci klic pripisa. Pri tem pristopu, raziskovalci uporabljajo informacije, ki jih imajo na nekatere ljudi sklepati lastnosti drugih ljudi. Tretja možna rešitev, tista, ki jo Kossinets in uporablja Watts, je bil za združevanje več virov podatkov. Ta postopek se včasih imenuje združevanje ali zapis povezava. Moja najljubša metafora za ta proces je bilo predlagano v prvem odstavku prvega papirja kdaj napisana v rekordnem povezave (Dunn 1946) :
"Vsak človek na svetu ustvarja Book of Life. Ta knjiga se začne z rojstvom in konča s smrtjo. Njegove strani so sestavljene iz evidence poglavitnih dogodkov v življenju. Record povezava je ime za proces sestavljanja strani te knjige, v prostornino. "
Ta prehod je bil napisan leta 1946, in takrat so ljudje mislili, da bi knjiga življenja vključuje pomembne življenjske dogodke, kot so rojstvo, poroka, ločitev in smrti. Vendar pa je zdaj, da se zabeleži toliko informacij o ljudeh, knjiga življenja je lahko neverjetno podroben portret, če se te različne strani (tj naši digitalni sledovi), lahko veže skupaj. Ta knjiga življenja je lahko odličen vir za raziskovalce. Ampak, bi knjiga življenja se imenuje tudi bazo propada (Ohm 2010) , ki se lahko uporablja za vse vrste neetičnega namene, kot je opisano bolj spodaj, ko govorim o občutljivosti informacij, ki jih velikih podatkovnih virov pod zbranih in v poglavju 6 (etiko).