Uansett hvor stor de store dataene dine er, har den sannsynligvis ikke den informasjonen du vil ha.
De fleste store datakilder er ufullstendige , i den forstand at de ikke har den informasjonen du vil ha for din forskning. Dette er et vanlig trekk ved data som ble opprettet for andre formål enn forskning. Mange samfunnsvitenskapsmenn har allerede hatt erfaring med å håndtere ufullstendighet, for eksempel en eksisterende undersøkelse som ikke spurte spørsmålet som var nødvendig. Dessverre har problemer med ufullstendighet tendens til å være mer ekstreme i store data. I min erfaring har store data tendens til å mangle tre typer informasjon som er nyttig for sosial forskning: demografisk informasjon om deltakere, oppførsel på andre plattformer og data for å operere teoretiske konstruksjoner.
Av de tre typer ufullstendighet er problemet med ufullstendige data for å operere teoretiske konstruksjoner det vanskeligste å løse. Og i min erfaring blir det ofte ved et uhell oversett. Grovt er teoretiske konstruksjoner abstrakte ideer som samfunnsvitenskapsfolk studerer og opererer i en teoretisk konstruksjon, betyr å foreslå en måte å fange opp den konstruksjonen med observerbare data. Dessverre viser denne enkle lydprosessen seg ofte å være ganske vanskelig. For eksempel, tenk å prøve å empirisk teste det tilsynelatende enkle påstanden om at folk som er mer intelligente tjener mer penger. For å teste dette kravet, må du måle "intelligens". Men hva er intelligens? Gardner (2011) hevdet at det faktisk er åtte forskjellige former for intelligens. Og er det prosedyrer som nøyaktig kan måle noen av disse former for intelligens? Til tross for enorme mengder arbeid av psykologer, har disse spørsmålene fortsatt ikke utvetydige svar.
Selv en relativt enkel påstand - folk som er mer intelligente tjener mer penger - kan være vanskelig å vurdere empirisk fordi det kan være vanskelig å operasjonalisere teoretiske konstruksjoner i data. Andre eksempler på teoretiske konstruksjoner som er viktig, men vanskelig å operasjonalisere inkludere “normer”, “sosial kapital” og “demokrati”. Samfunnsforskere kaller kampen mellom teoretiske konstruksjoner og data begrepsvaliditet (Cronbach and Meehl 1955) . Som denne korte listen over konstruksjoner antyder, er konstruktiv validitet et problem som samfunnsvitenskapsmenn har slitt med i svært lang tid. Men etter min erfaring er problemene med konstruktiv validitet enda større når man arbeider med data som ikke ble opprettet for forskningens formål (Lazer 2015) .
Når du vurderer et forskningsresultat, er en rask og nyttig måte å vurdere konstruktiv validitet å ta resultatet, som vanligvis uttrykkes når det gjelder konstruksjoner, og uttrykke det på nytt når det gjelder dataene som brukes. For eksempel vurdere to hypotetiske studier som hevder å vise at folk som er mer intelligente tjener mer penger. I den første studien fant forskeren at folk som skårer godt på Raven Progressive Matrices Test-en godt undersøkt test av analytisk intelligens (Carpenter, Just, and Shell 1990) -har høyere rapporterte inntekter på sine selvangivelser. I den andre studien fant forskeren at folk på Twitter som brukte lengre ord, er mer sannsynlig å nevne luksusmerkene. I begge tilfeller kan disse forskerne hevde at de har vist at folk som er mer intelligente tjener mer penger. Men i den første studien er de teoretiske konstruksjonene godt operasjonert av dataene, mens de i andre ikke er det. Videre, som dette eksemplet illustrerer, løser flere data ikke automatisk problemer med konstruktiv validitet. Du bør tvile på resultatene fra den andre studien om det innebar en million tweets, en milliard tweets eller en biljon tweets. For forskere som ikke er kjent med ideen om konstruktiv validitet, gir tabell 2.2 noen eksempler på studier som har operasjonelle teoretiske konstruksjoner ved hjelp av digitale spordata.
Datakilde | Teoretisk konstruksjon | referanser |
---|---|---|
E-postlogger fra et universitet (kun metadata) | Sosialt forhold | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sosiale medier innlegg på Weibo | Samfunnsengasjement | Zhang (2016) |
E-postlogger fra et firma (metadata og fullstendig tekst) | Kulturell passform i en organisasjon | Srivastava et al. (2017) |
Selv om problemet med ufullstendige data for å ta opp teoretiske konstruksjoner er ganske vanskelig å løse, er det vanlige løsninger på de andre vanlige typer ufullstendighet: ufullstendig demografisk informasjon og ufullstendig informasjon om atferd på andre plattformer. Den første løsningen er å faktisk samle inn dataene du trenger; Jeg forteller deg om det i kapittel 3 når jeg forteller deg om undersøkelser. Den andre hovedløsningen er å gjøre hvilke datavitenskapere kaller brukerattributtens inferens og sosialforskere kaller imputation . I denne tilnærmingen bruker forskere informasjonen de har om noen mennesker til å utlede attributter fra andre mennesker. En tredje mulig løsning er å kombinere flere datakilder. Denne prosessen kalles noen ganger rekordkobling . Min favoritt metafor for denne prosessen ble skrevet av Dunn (1946) i det aller første avsnittet av det aller første papiret som noensinne er skrevet på rekordbinding:
"Hver person i verden skaper en bok av livet. Denne boken begynner med fødsel og ender med døden. Dens sider består av oppføringer av de viktigste hendelsene i livet. Opptakslinkering er navnet på prosessen med å sette sammen sidene i denne boken i et volum. "
Da Dunn skrev denne passasjen, fant han seg på at Livets bok kunne inkludere store livshendelser som fødsel, ekteskap, skilsmisse og død. Men nå som så mye informasjon om mennesker er registrert, kan Livets bok være et utrolig detaljert portrett, hvis de forskjellige sidene (dvs. våre digitale spor) kan bindes sammen. Denne boken av livet kan være en stor ressurs for forskere. Men det kan også kalles en database med ruin (Ohm 2010) , som kan brukes til alle slags uetiske formål, som jeg vil beskrive i kapittel 6 (Etikk).