2.3.2.1 Ufullstendig

Uansett hvor "store" dine "store data" det trolig ikke har den informasjonen du ønsker.

De fleste store datakilder er ufullstendig, i den forstand at de ikke har informasjon som du vil ønske for din forskning. Dette er et felles trekk ved data som ble opprettet for andre enn forskning formål. Mange samfunnsforskere har allerede hatt erfaring med å håndtere den ufullstendigheter, for eksempel en eksisterende undersøkelse som ikke stiller spørsmålet du ville. Dessverre, problemene med ufullstendigheter tendens til å være mer ekstrem i store data. I min erfaring, har en tendens big data til å mangle tre typer informasjon som er nyttige for samfunnsforskning: demografi, atferd på andre plattformer, og data for å operasjonalisere teoretiske utlegninger.

Alle disse tre formene for ufullstendighet er illustrert i en studie av Gueorgi Kossinets og Duncan Watts (2006) om utviklingen av det sosiale nettverket ved et universitet. Kossinets og Watts i gang med e-postlogger fra universitetet, som hadde presis informasjon om hvem som sendte e-post til hvem på hvilket tidspunkt (forskerne ikke har tilgang til innholdet i e-post). Disse e-post poster høres ut som en utrolig datasettet, men, de er-til tross for sin størrelse og detalj-fundamentalt ufullstendig. For eksempel, e-postlogger inkluderer ikke data om demografiske kjennetegn ved elevene, som kjønn og alder. Videre har e-postlogger ikke inneholder informasjon om kommunikasjon gjennom andre medier, som for eksempel telefonsamtaler, tekstmeldinger, eller ansikt-til-ansikt samtaler. Til slutt, e-postlogger ikke direkte inkludere informasjon om relasjoner, de teoretiske utlegninger i mange eksisterende teorier. Senere i kapitlet, når jeg snakker om forskningsstrategier, vil du se hvordan Kossinets og Watts løst disse problemene.

Av tre typer ufullstendigheter, er problemet med ufullstendige data for å operasjonalisere teoretiske utlegninger den vanskeligste å løse, og i min erfaring, er det ofte uhell oversett av data forskere. Grovt, teoretiske utlegninger er abstrakte ideer som samfunnsvitere studere, men, dessverre, disse konstruerer kan ikke alltid være entydig definert og målt. For eksempel, la oss forestille prøver å empirisk teste tilsynelatende enkle påstanden om at folk som er mer intelligente tjene mer penger. For å teste denne påstanden ville du trenger å måle "intelligens". Men, hva er intelligens? For eksempel, Gardner (2011) hevdet at det faktisk finnes åtte forskjellige former for intelligens. Og, er det prosedyrer som kan nøyaktig måle noen av disse formene for intelligens? Til tross for enorme mengder arbeid med psykologer, disse spørsmålene fortsatt ikke har entydige svar. Dermed, selv en relativt enkel påstand-folk som er mer intelligente tjene mer penger kan være vanskelig å vurdere empirisk fordi det kan være vanskelig å operasjonalisere teoretiske utlegninger i data. Andre eksempler på teoretiske utlegninger som er viktig, men vanskelig å operasjonalisere inkludere "normer", "sosial kapital" og "demokrati". Samfunnsforskere kaller kampen mellom teoretiske utlegninger og data begrepsvaliditet (Cronbach and Meehl 1955) . Og som denne listen over konstruerer antyder, begrepsvaliditet er et problem at samfunnsvitere har slitt med i lang tid, selv når de jobber med data som ble samlet inn i den hensikt forskning. Når du arbeider med data samlet inn av andre grunner enn forskningsformål, problemene med begrepsvaliditet er enda mer utfordrende (Lazer 2015) .

Når du leser en forskning papir, til en rask og nyttig måte å vurdere bekymringer om begrepsvaliditet er å ta hovedkravet i avisen, som vanligvis er uttrykt i form av konstruksjoner, og re-uttrykke det i form av dataene som brukes. For eksempel vurdere to hypotetiske studier som hevder å vise at mer intelligente mennesker tjene mer penger:

  • Studie 1: folk som skårer godt på Raven Progressive Matriser Test-en godt studert test av analytisk intelligens (Carpenter, Just, and Shell 1990) -Ha høyere rapporterte inntekter på sin selvangivelse
  • Studie 2: folk på Twitter som brukte lengre ord er mer sannsynlig å nevne luksusmerker

I begge tilfeller kan forskere hevder at de har vist at mer intelligente mennesker tjene mer penger. Men, i den første studien de teoretiske konstruksjoner er godt operasjon av dataene, og i den andre er de ikke. Videre, da dette eksemplet viser, flere data ikke automatisk å løse problemer med konstruksjonen gyldighet. Du bør tvile resultatene av studie 2 om det involvert en million tweets, en milliard tweets, eller en trillion tweets. For forskere som ikke er kjent med ideen om begrepsvaliditet, Tabell 2.2 gir noen eksempler på studier som har operasjonalisert teoretiske utlegninger ved hjelp av digitale spor data.

Tabell 2.2: Eksempler på digitale spor som brukes som mål på mer abstrakte teoretiske begreper. Samfunnsvitere kaller denne kampen begrepsvaliditet, og det er en stor utfordring med å bruke store datakilder for samfunnsforskning (Lazer 2015) .
Digital spor teoretisk konstruksjon Sitering
e-logger fra et universitet (meta-data only) sosiale relasjoner Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
sosiale medier innlegg på Weibo Samfunnsengasjement Zhang (2016)
e-logger fra et firma (meta-data og fullstendig tekst) Kulturell tilpasning i en organisasjon Goldberg et al. (2015)

Selv om problemet med ufullstendige data for å operasjonalisere teoretiske utlegninger er ganske vanskelig å løse, er det tre felles løsninger på problemet med ufullstendig demografisk informasjon og ufullstendige opplysninger om atferd på andre plattformer. Den første er å faktisk samle dataene du trenger; Jeg skal fortelle deg om et eksempel på det i kapittel 3 når jeg forteller deg om undersøkelser. Dessverre er denne typen datainnsamling ikke alltid mulig. Den andre viktigste løsningen er å gjøre hva data forskere kaller bruker attributtet slutning og hva samfunnsvitere kaller imputering. I denne tilnærmingen, forskere bruker den informasjonen de har på enkelte mennesker til å antyde attributter av andre mennesker. Den tredje mulige løsnings den som brukes av Kossinets og Watts-var å kombinere flere datakilder. Denne prosessen kalles sammenslåing eller posten kobling. Min favoritt metafor for denne prosessen ble foreslått i den aller første ledd første papiret noensinne er skrevet på posten kobling (Dunn 1946) :

"Hver person i verden skaper en livets bok. Denne boken starter med fødselen og slutter med døden. Sine sider består av registreringer av de fremste hendelser i livet. Record sammenhengen er navnet gitt til prosessen med å sette sammen sidene i denne boken til et volum. "

Denne passasjen ble skrevet i 1946, og på den tiden, var folk tenker at livets bok kan omfatte store hendelser i livet som fødsel, ekteskap, skilsmisse og død. Men nå som så mye informasjon om personer er registrert, livets bok kan være en utrolig detaljert portrett, hvis disse forskjellige sider (dvs. våre digitale spor), kan bindes sammen. Dette Book of Life kan være en stor ressurs for forskere. Men, livets bok kan også kalles en database med ruin (Ohm 2010) , som kan brukes til alle typer uetiske formål, slik det er beskrevet mer nedenfor når jeg snakker om den følsomme natur informasjonen som samles inn av store datakilder nedenfor og i kapittel 6 (Etikk).