Bez obzira na to koliko su vaši veliki podaci verovatno nemaju informacije koje želite.
Većina velikih izvora podataka je nepotpuna , u smislu da nemaju informacije koje želite za vaše istraživanje. Ovo je zajednička karakteristika podataka koji su stvoreni za druge svrhe osim istraživanja. Mnogi sociološki naučnici već imaju iskustva da se bave nepotpunom, kao što je postojeća anketa koja nije postavljala pitanje koje je bilo potrebno. Nažalost, problemi nepotpunosti su u velikim podacima ekstremniji. Po mom iskustvu, velikim podacima nedostaje tri vrste informacija korisnih za socijalno istraživanje: demografske informacije o učesnicima, ponašanje na drugim platformama i podaci za operacionalizaciju teorijskih konstrukcija.
Od tri vrste nepotpunosti, najteži je riješiti problem nepotpunih podataka za operacionalizaciju teorijskih konstrukcija. I po mom iskustvu, često se slučajno zanemaruje. Približno, teorijski konstrukti su apstraktne ideje koje istraživači društvenih nauka proučavaju i operacionalizuju teorijski konstruktni načini koji predlažu neki način za zauzimanje tog konstrukta sa posmatranim podacima. Nažalost, ovaj jednostavan proces često se ispostavlja da je prilično teško. Na primer, pretpostavimo da pokušavamo empirijski testirati očigledno jednostavnu tvrdnju da ljudi koji su inteligentniji zarađuju više novca. Da biste testirali ovu tvrdnju, morali biste da izmerite "inteligenciju". Ali šta je inteligencija? Gardner (2011) tvrdi da zapravo postoje osam različitih oblika obavještajnih podataka. Da li postoje procedure koje mogu precizno da izmere bilo koji od ovih oblika obavještajnih podataka? Uprkos ogromnim količinama rada psihologa, ova pitanja i dalje nemaju nedvosmislene odgovore.
Stoga, čak i relativno jednostavna tvrdnja - ljudi koji su inteligentniji zarađuju više novca - teško je procijeniti empirijski, jer je teško operacionalizovati teorijske konstrukcije u podatke. Drugi primeri teorijskih konstrukcija koji su važni ali teško operacionalizuju uključuju "norme", "društveni kapital" i "demokratiju". Socijalni naučnici nazivaju meč između teorijskih konstrukcija i validnosti konstruktora podataka (Cronbach and Meehl 1955) . Kako ova kratka lista konstrukcija ukazuje, izgradnja valjanosti je problem sa kojim su se sociologi već dugo borili. Ali, po mom iskustvu, problemi konstruisanja valjanosti su još veći kada rade sa podacima koji nisu stvoreni u svrhu istraživanja (Lazer 2015) .
Kada ocjenjujete rezultat istraživanja, jedan brz i koristan način procjene konstruktivne validnosti jeste da uzmete rezultat, koji se obično izražava u smislu konstrukcija i ponovo izražava u smislu korištenih podataka. Na primer, razmotrite dve hipotetičke studije koje tvrde da pokazuju da ljudi koji su inteligentniji zarađuju više novca. U prvoj studiji, istraživač je otkrio da ljudi koji dobro uspijevaju na testu Raven Progressive Matrices Test - dobro proučavan test analitičke inteligencije (Carpenter, Just, and Shell 1990) imaju veće prijavljene prihode na poreske prijave. U drugoj studiji istraživač je otkrio da će ljudi na Twitter-u koji koriste duže reči više verovatno da pominju luksuzne brendove. U oba slučaja, ovi istraživači mogu tvrditi da su pokazali da ljudi koji su inteligentniji zarađuju više novca. Međutim, u prvoj studiji teoretski konstrukti dobro operacionalizuju podaci, dok u drugom to nisu. Nadalje, kako ovaj primer ilustruje, više podataka ne rešava automatski probleme s konstrukcijom validnosti. Treba sumnjati u rezultate druge studije da li je obuhvaćeno milion tweetova, milijardu tweetova ili trilion tweetova. Za istraživače koji nisu upoznati sa idejom konstruisanja validnosti, tabela 2.2 pruža nekoliko primjera studija koje su operacionalizovale teorijske konstrukcije koristeći podatke o digitalnom tragovu.
Izvor podataka | Teorijski konstrukt | Reference |
---|---|---|
Evidencija evidencije sa univerziteta (samo meta-podaci) | Društveni odnosi | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Postovi društvenih medija na Weibo | Građanski angažman | Zhang (2016) |
Evidencija evidencije firme (meta-podataka i kompletan tekst) | Kulturno uklapanje u organizaciju | Srivastava et al. (2017) |
Iako je problem nepotpunih podataka za hvatanje teorijskih konstrukcija prilično teško rešiti, postoje zajednička rješenja za druge uobičajene vrste nepotpunosti: nepotpune demografske informacije i nepotpune informacije o ponašanju na drugim platformama. Prvo rešenje je zapravo prikupljanje podataka koje su vam potrebne; Reći ću vam o tome u 3. poglavlju kada vam kažem o istraživanjima. Drugo glavno rešenje je da uradi ono što naučnici podataka nazivaju zaključivanjem atributa korisnika, a društveni naučnici nazivaju imputaciju . U ovom pristupu istraživači koriste informacije koje imaju na nekim ljudima da zaključe atribute drugih ljudi. Treće moguće rješenje je kombinacija više izvora podataka. Ovaj proces se ponekad naziva rekordnim vezama . Moju omiljenu metaforu za ovaj proces napisao je Dunn (1946) u prvom paragrafu prvog prvog rada ikada napisanog o rekordnoj povezanosti:
"Svaka osoba na svetu stvara knjigu života. Ova knjiga počinje rođenjem i završava se smrću. Njene stranice čine zapisi o glavnim događajima u životu. Rekordna veza je naziv dat procesu sastavljanja stranica ove knjige u knjigu. "
Kada je Dunn napisao taj pasus, zamišljao je da Knjiga života može uključiti velike životne događaje poput rođenja, braka, razvoda i smrti. Međutim, sada kada je zabeleženo toliko informacija o ljudima, Knjiga života može biti neverovatno detaljan portret, ako se te različite stranice (tj. Naši digitalni tragovi) mogu povezati zajedno. Ova knjiga života može biti odličan izvor za istraživače. Ali, to se takođe može nazvati baza uništenja (Ohm 2010) , koja bi se mogla koristiti za sve vrste neetičkih ciljeva, kao što ću opisati u poglavlju 6 (Etika).