2.3.2.1 Nepotpune

Bez obzira na to koliko "veliki" svoj ​​"veliki podatke" vjerojatno nema informaciju koju želite.

Većina velikih izvora podataka su nepotpune, u smislu da oni nemaju informacije da ćete želite za istraživanje. To je zajednička karakteristika podataka koji su stvoreni za druge svrhe osim istraživanja. Mnogi sociolozi su već imali iskustvo koje se bave nepotpunost, kao što su postojeći istraživanje koje nije tražio pitanje želiš. Nažalost, problemi nepotpunosti imaju tendenciju da budu ekstremno u velikim podataka. U mom iskustvu, velike količine podataka ima tendenciju da bude nedostaju tri vrste informacija korisnih za društvena istraživanja: demografija, ponašanje na drugim platformama, a podaci za operacionalizaciju teorijskih konstrukcija.

Sva tri od ovih oblika nepotpunosti su prikazani u studiji Gueorgi Kossinets i Duncan Watts (2006) o evoluciji društvene mreže na univerzitetu. Kossinets i Watts počeo sa rezanje-mail od univerziteta, koja je imala precizne informacije o tome ko je poslao e-mailove u kojima u ono vrijeme (istraživači nisu imali pristup sadržaju e-pošte). Ovi zapisi email zvuči kao sjajan skup, ali, oni su uprkos njihovoj veličini i granularnost-fundamentalno nepotpuna. Na primjer, u e-mail za rezanje ne uključuju podatke o demografskim karakteristikama studenata, kao što su pol i starost. Nadalje, e-mail za rezanje ne sadrže podatke o komunikaciji putem drugih medija, kao što su telefonski pozivi, tekstualne poruke, ili licem u lice razgovore. Na kraju, e-mail za rezanje direktno ne sadrže informacije o odnosima, teorijski konstrukti u mnogim postojećim teorijama. Kasnije u poglavlju, kad govorimo o istraživanju strategija, vidjet ćete kako Kossinets i Watts riješiti ove probleme.

Od tri vrste nepotpunosti, problem nepotpunih podataka za operacionalizaciju teorijskih konstrukata je najteže riješiti, i po mom iskustvu, često se slučajno previdi naučnici podataka. Grubo, teorijski konstrukti su apstraktne ideje koje studiraju sociolozi, ali, na žalost, ovi konstrukti ne mogu uvijek biti nedvosmisleno definirane i mjeriti. Na primjer, zamislimo pokušava da empirijski testirati naizgled jednostavna tvrdnja da su ljudi koji su inteligentniji zaraditi više novca. Da bi testirali ovu tvrdnju će vam biti potrebno za mjerenje "inteligencije." Ali, ono što je inteligencija? Na primjer, Gardner (2011) tvrdi da postoje zapravo osam različitih oblika inteligencije. I, da li postoje procedure koje mogu precizno mjeriti bilo koji od ovih oblika inteligencije? Uprkos ogromne količine rada psihologa, ova pitanja još uvijek nemaju nedvosmislene odgovore. Stoga, čak i relativno jednostavna tvrdnja-ljudi koji su inteligentniji zaraditi više novca može biti teško procijeniti empirijski, jer to može biti teško za operacionalizaciju teorijskih konstrukata u podacima. Drugi primjeri teorijskih konstrukata koje su važne, ali teško operacionalizirati uključuju "norme", "društveni kapital" i "demokratije". Sociolozi pozvati na utakmici između teorijske konstrukte i valjanost podataka konstrukt (Cronbach and Meehl 1955) . I, kao ova lista konstrukata sugerira, izgradnja valjanost je problem koji sociolozi su se borili sa veoma dugo vremena, čak i kada su radili sa podacima koji su prikupljeni za potrebe istraživanja. Kada se radi sa podacima prikupljenim u druge svrhe osim istraživanja, problemi valjanosti konstrukta su još veći izazov (Lazer 2015) .

Kada čitate istraživački rad, jedan brz i koristan način za procjenu zabrinutosti u vezi valjanosti konstrukta je da se glavni zahtjev u radu, koji se obično izražava u smislu konstrukata, i ponovno izraziti ga u smislu podataka koji se koriste. Na primjer, razmislite dva hipotetička studije koje tvrde da se pokaže da inteligentniji ljudi zarađuju više novca:

  • Studija 1: ljudi koji dobro rezultat na Raven progresivne matrice Test-a i studirao test analitičke inteligencije (Carpenter, Just, and Shell 1990) Jesi viši prijavio prihode na svoje porezne prijave
  • Studija 2: ljudi na Twitteru koji su koristili više riječi imaju veće šanse da spomenuti luksuznih brendova

U oba slučaja, istraživači su mogli tvrditi da su pokazala da inteligentniji ljudi zarađuju više novca. Ali, u prvoj studiji teorijski konstrukti su dobro operacionalizovana podataka, au drugom nisu. Nadalje, kao što ovaj primjer pokazuje, više podataka ne automatski riješiti probleme sa rokom konstrukt. Trebalo bi da sumnjaju u rezultate studije 2 da li su uključeni milion tweetova, milijardu tweetova, ili triliona tvitova. Za istraživače nije upoznat sa idejom valjanosti konstrukta, Tabela 2.2 daje neke primjere studija koje su operacionalizovana teorijski konstrukti pomoću podataka digitalne trag.

Tabela 2.2: Primjeri digitalnih tragova koje se koriste kao mjera više apstraktnih teorijskih koncepata. Sociolozi zovu validnost meču konstrukt i to je veliki izazov s pomoću velikih izvora podataka za društvena istraživanja (Lazer 2015) .
digitalni trag teoretski konstrukt citiranje
e-mail za rezanje sa univerziteta (samo meta-podataka) socijalnih odnosa Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
poruke na društvenim mrežama na Weibo građanski angažman Zhang (2016)
e-mail za rezanje od firme (meta-podataka i kompletan tekst) Kulturni fit u organizaciji Goldberg et al. (2015)

Iako je problem nepotpunih podataka za operacionalizaciju teorijskih konstrukata je prilično teško riješiti, postoje tri zajednička rješenja za problem nepotpune demografske informacije i nepotpune informacije o ponašanju na drugim platformama. Prvi je da se zapravo prikupiti podatke koji su vam potrebni; Ja ću vam reći o primjer da se u poglavlju 3, kada sam ti rekao o istraživanjima. Na žalost, ova vrsta prikupljanja podataka nije uvijek moguće. Drugi glavni rješenje je da se uradi ono što naučnici podataka zovu korisnički atribut zaključivanja i ono što sociolozi zovu imputacije. U ovom pristupu, istraživači koriste informacije koje oni imaju na neke ljude da zaključi atribute drugih ljudi. Treći moguće rješenje-onaj koji koriste Kossinets i Watts-je kombinirati više izvora podataka. Ovaj proces se ponekad naziva spajanje ili zapis povezanosti. Moja omiljena metafora za ovaj proces je predloženo u samom prvom stavu prvog papira ikada napisanih na zapisnik povezanosti (Dunn 1946) :

"Svaka osoba na svijetu stvara Book of Life. Ova Knjiga počinje rođenja i završava sa smrću. Njene stranice se sastoje od evidencije principa događaja u životu. Rekord povezanost je naziv za proces montaže stranicama ove knjige u volumen. "

Ovaj odlomak je napisan 1946. godine, a u to vrijeme, ljudi su mislili da je Knjiga života može uključiti veliki događaji u životu kao što su rođenje, brak, razvod, i smrt. Međutim, sada kada toliko informacija o ljudima se snima, Knjiga života može biti nevjerojatno detaljan portret, ako te različitim stranicama (tj, naš digitalni tragovi), mogu biti povezani. Ova Knjiga Život bi mogao biti veliki resurs za istraživače. Ali, Knjiga Života takođe može nazvati baze propasti (Ohm 2010) , koji se mogu koristiti za sve vrste neetičkog svrhe, kao što je opisano više u nastavku kada govorim o osjetljive prirode informacija prikupljenih od strane velikih izvora podataka ispod i u poglavlju 6 (etike).