2.3.2.1 Nepotpuna

Bez obzira koliko je "velik" vaš "veliki podatke" vjerojatno nema informacije koje želite.

Većina velikih izvori podataka su nepotpune, u smislu da oni nemaju informacije koje će vam želite za svoje istraživanje. To je zajednička značajka podataka koje su stvorene za druge svrhe osim istraživačke svrhe. Mnogi sociolozi već su imali iskustvo suočavanja s nepotpunost, kao što su postojeći istraživanju koje nisu postaviti pitanje što je želio. Nažalost, problemi nepotpunosti imaju tendenciju da bude više u velikim podataka. U mom iskustvu, veliki podaci tendira da nedostaje tri vrste informacija korisnih za društvena istraživanja: demografske, ponašanje na drugim platformama i podatke za operacionalizaciju teorijskih konstrukata.

Sva tri od ovih oblika nepotpunosti prikazane su u studiji Gueorgi Kossinets i Duncan Watts (2006) o evoluciji društvene mreže na sveučilištu. Kossinets i Watts započeo trupaca e-mail sa sveučilišta, koja je imala precizne informacije o tome tko je poslao e-mail u kome u koje vrijeme (istraživači nisu imali pristup sadržaju e-pošte). Ovi e-mail zapisi zvučati iznenađujuće skupa podataka, ali, oni su-bez obzira na njihovu veličinu i zrnatost-bitno nepotpuna. Na primjer, dnevnici e ne sadrže podatke o demografskim obilježjima studenata, kao što su spol i dob. Nadalje, dnevnici e ne sadrže podatke o komunikaciji putem drugih medija, kao što su telefonski pozivi, tekstualne poruke ili licem u lice razgovore. Konačno, dnevnici e-mail izravno ne uključuju informacije o odnosima, teorijskih konstrukata u mnogim postojećim teorijama. Kasnije u poglavlju kada govorim o istraživačkim strategijama, vidjet ćete kako Kossinets i Watts riješiti ove probleme.

Od tri vrste nepotpunosti, problem nepotpunih podataka za operacionalizaciju teorijskih konstrukata je najteže riješiti, a po mom iskustvu, često se slučajno previdi od strane znanstvenika podataka. Otprilike, teorijski konstrukti su apstraktne ideje koje sociolozi proučavaju, ali, nažalost, ovi konstrukti ne mogu uvijek jednoznačno definirati i izmjeriti. Na primjer, zamislimo pokušava empirijski testirati naizgled jednostavnu tvrdnju da ljudi koji su inteligentniji zaraditi više novca. Kako bi provjerili ovu tvrdnju da bi trebao izmjeriti "inteligencija". No, ono što je inteligencija? Na primjer, Gardner (2011) tvrdi da postoje zapravo osam različitih oblika inteligencije. A, postoje postupci koji bi mogli točno izmjeriti bilo koji od ovih oblika inteligencije? Unatoč ogromnim količinama posla od strane psihologa, ta pitanja još uvijek nemaju nedvosmislene odgovore. Dakle, čak i relativno jednostavan tvrde, ljudi koji su inteligentniji zaraditi više novca može biti teško procijeniti empirijski, jer to može biti teško za operacionalizaciju teorijskih konstrukata u podacima. Drugi primjeri teorijskih konstrukata koji su važni, ali teško operacionalizirati uključiti "norme", "društveni kapital" i "demokracije". Socijalni znanstvenici nazivaju utakmicu između teorijskih konstrukata i valjanosti podataka konstruktu (Cronbach and Meehl 1955) . I, kao što je ovaj popis konstrukata sugerira, konstruirati valjanost je problem da su društveni znanstvenici borili s vrlo dugo vremena, čak i kad su radili s podacima koji su prikupljeni za potrebe istraživanja. Prilikom rada s podacima prikupljenim iz drugih razloga osim istraživačke svrhe, problemi valjanosti konstrukta su još veći izazov (Lazer 2015) .

Kada čitate znanstveni rad, jedan brz i koristan način za procjenu zabrinutosti oko valjanosti konstrukta je da se glavni zahtjev u novinama, koja se obično izražava u smislu konstrukata, i ponovno izraziti ga u pogledu podataka koji se koriste. Na primjer, razmislite dva hipotetska studije koje tvrde da pokazuju da je više inteligentni ljudi zaraditi više novca:

  • Studija 1: ljudi koji su rezultat dobro na Raven progresivnim matricama Test-dobro studirao test analitičke inteligencije (Carpenter, Just, and Shell 1990) -Jeste veća je prijavio prihode na svojim poreznim prijavama
  • Studija 2: ljudi na Twitter koji se koriste duže riječi su više vjerojatno da će spomenuti luksuzne brendove

U oba slučaja, istraživači su mogli tvrditi da su pokazali da je više inteligentni ljudi zaraditi više novca. No, u prvoj studiji teorijski konstrukti dobro operacionaliziran podacima, au drugoj nisu. Nadalje, kao što ovaj primjer pokazuje, više podataka automatski ne riješi probleme s valjanosti konstrukta. Te bi trebao sumnjati u rezultate studije 2. da li se radi milijun tweetova, milijardu tweetove ili bilijuna tweetove. Za istraživače koji nisu upoznati s idejom valjanosti konstrukta, Tablica 2.2 daje neke primjere istraživanja koja su operacionalizirati teorijskih konstrukata korištenjem digitalnih podataka u tragovima.

Tablica 2.2: Primjeri digitalnih tragova koje se koriste kao mjera apstraktne teorijskih koncepata. Socijalni znanstvenici nazivaju ovo valjanost utakmici konstrukt i to je veliki izazov s pomoću velikih izvora podataka za društvena istraživanja (Lazer 2015) .
Digitalni trag Teorijski konstrukt Citat
e-zapisa iz sveučilišta (samo meta-podataka) društveni odnosi Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
društvenih medija postove na Weibo Građanski angažman Zhang (2016)
e-zapisa iz firme (meta-podataka i potpuni tekst) Kulturna stane u organizaciji Goldberg et al. (2015)

Iako je problem nepotpunih podataka za operacionaliziciji teorijskih konstrukata je prilično teško riješiti, postoje tri zajednička rješenja za problem nepotpunih demografske informacije i nepotpune informacije o ponašanju na drugim platformama. Prvi je da se zapravo prikupljati podatke koje je potrebno; Ja ću vam reći o primjeru koji u poglavlju 3, kad ti kažem o anketama. Na žalost, ova vrsta prikupljanja podataka nije uvijek moguće. Drugi glavni rješenje je da učine ono što znanstvenici nazivaju podataka korisnički atribut zaključak i ono što sociolozi nazivaju imputacije. U ovom pristupu, istraživači koriste informacije koje imaju na neke ljude na pomisao atribute drugih ljudi. Treći moguće rješenje-ona koristi Kossinets i Watts-je kombinirati više izvora podataka. Ovaj proces ponekad naziva spajanju ili snimiti veza. Moja omiljena metafora za ovaj proces je predloženo u prvom paragrafu prvi papiru ikad napisana o rekordnom povezanosti (Dunn 1946) :

"Svaka osoba na svijetu stvara knjiga života. Ova knjiga počinje s rođenjem i završava smrću. Njegove stranice su sastavljene od evidencije glavnih događaja u životu. Snimanje veza je naziv za proces montaže na stranicama ove knjige u volumen. "

Ovaj odlomak je napisan 1946. godine, te je u to doba, ljudi su mislili da je Knjiga života može uključivati ​​velike životne događaje kao što su rođenje, brak, razvod i smrt. Međutim, sada kada je toliko informacija o ljudima se snima, knjiga života može biti nevjerojatno detaljan portret, ako te različite stranice (tj naši digitalne tragove), mogu biti povezani. Ova knjiga života bi mogao biti velik izvor za istraživače. No, knjiga života mogla bi se nazvati bazu podataka o propasti (Ohm 2010) , koji se može koristiti za sve vrste neetične svrhe, kao što je opisano niže, kad govorimo o osjetljivoj prirodi informacija prikupljenih od velikih izvora podataka ispod te u poglavlju 6 (etike).