Ligegyldigt hvor stor din store data, det har sandsynligvis ikke de oplysninger, du ønsker.
De fleste store datakilder er ufuldstændige , i den forstand, at de ikke har de oplysninger, du vil have til din forskning. Dette er et fælles træk ved data, der blev oprettet til andre formål end forskning. Mange socialforskere har allerede haft erfaring med at beskæftige sig med ufuldstændighed, såsom en eksisterende undersøgelse, der ikke stillede spørgsmålet, der var nødvendigt. Desværre har problemerne med ufuldstændighed tendens til at være mere ekstreme i store data. Efter min erfaring har store data tendens til at mangle tre typer af informationer, der er nyttige til social forskning: demografiske oplysninger om deltagere, adfærd på andre platforme og data til operationelle teoretiske konstruktioner.
Af de tre slags ufuldstændighed er problemet med ufuldstændige data til operationelle teoretiske konstruktioner det sværeste at løse. Og i min erfaring er det ofte ved et uheld overset. Omfattende teoretiske konstruktioner er abstrakte ideer, som socialforskere studerer og opererer en teoretisk konstruktion indebærer at foreslå en måde at fange den konstruktion med observerbare data på. Desværre viser denne enkle lydproces ofte sig at være ret vanskelig. Lad os for eksempel forestille os at prøve empirisk at teste det tilsyneladende simple påstand om, at folk, der er mere intelligente, tjener flere penge. For at teste dette krav skal du måle "intelligens". Men hvad er intelligens? Gardner (2011) argumenterede for, at der faktisk er otte forskellige former for intelligens. Og er der procedurer, som nøjagtigt kunne måle nogen af disse former for intelligens? Trods enorme mængder arbejde hos psykologer har disse spørgsmål stadig ikke entydige svar.
Således kan selv en relativt enkel påstand - folk der er mere intelligente tjener flere penge - være svært at vurdere empirisk, fordi det kan være svært at operationalisere teoretiske konstruktioner i data. Andre eksempler på teoretiske konstruktioner, der er vigtige, men svære at operere, omfatter "normer", "social kapital" og "demokrati". Socialforskere kalder kampen mellem teoretiske konstruktioner (Cronbach and Meehl 1955) gyldighed (Cronbach and Meehl 1955) . Som denne korte liste over konstruktioner antyder, er konstruktiv validitet et problem, som socialforskere har kæmpet med i meget lang tid. Men i min erfaring er problemerne med konstruktiv validitet endnu større, når der arbejdes med data, der ikke blev oprettet til forskning (Lazer 2015) .
Når du vurderer et forskningsresultat, er en hurtig og nyttig metode til at vurdere konstruktiv validitet at tage resultatet, som normalt udtrykkes i form af konstruktioner, og udtrykke det igen med hensyn til de anvendte data. For eksempel overveje to hypotetiske undersøgelser, der hævder at vise, at folk, der er mere intelligente, tjener flere penge. I den første undersøgelse fandt forskeren, at folk, der scorer godt på Raven Progressive Matrices Test-en veldokumenteret test af analytisk intelligens (Carpenter, Just, and Shell 1990) -har højere rapporterede indkomster på deres selvangivelser. I den anden undersøgelse fandt forskeren, at folk på Twitter, der brugte længere ord, mere tilbøjelige til at nævne luksusmærker. I begge tilfælde kan disse forskere hævde, at de har vist, at folk, der er mere intelligente, tjener flere penge. I den første undersøgelse er de teoretiske konstruktioner imidlertid velopererede af dataene, mens de i anden halvdel ikke er det. Som dette eksempel illustrerer, løser flere data ikke automatisk problemer med konstruktiv validitet. Du bør tvivle på resultatet af den anden undersøgelse, om det involverede en million tweets, en milliard tweets eller en billioner tweets. For forskere, der ikke er bekendt med ideen om konstruktiv validitet, indeholder tabel 2.2 nogle eksempler på undersøgelser, der har operationelle teoretiske konstruktioner ved hjælp af digitale spordata.
Datakilde | Teoretisk konstruktion | Referencer |
---|---|---|
Email logs fra et universitet (kun metadata) | Sociale forhold | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Sociale medier indlæg på Weibo | Civilt engagement | Zhang (2016) |
E-mail-logfiler fra et firma (metadata og komplet tekst) | Kulturlig pasform i en organisation | Srivastava et al. (2017) |
Selvom problemet med ufuldstændige data til indfangning af teoretiske konstruktioner er ret vanskeligt at løse, er der fælles løsninger på de andre almindelige typer ufuldstændighed: ufuldstændige demografiske oplysninger og ufuldstændige oplysninger om adfærd på andre platforme. Den første løsning er faktisk at indsamle de data, du har brug for; Jeg vil fortælle dig det i kapitel 3, når jeg fortæller dig om undersøgelser. Den anden vigtigste løsning er at gøre, hvad datavidenskabsmænd kalder brugerattributets inference, og socialforskere kalder imputation . I denne tilgang bruger forskere de oplysninger, de har om nogle mennesker, til at aflede attributter fra andre mennesker. En tredje løsning er at kombinere flere datakilder. Denne proces kaldes undertiden rekordforbindelse . Min foretrukne metafor for denne proces blev skrevet af Dunn (1946) i det allerførste afsnit af det allerførste papir, der nogensinde er skrevet på record linkage:
"Hver person i verden skaber en livsbog. Denne bog begynder med fødslen og slutter med døden. Dens sider består af optegnelser over de vigtigste begivenheder i livet. Record link er navnet på processen med at samle siderne i denne bog i et volumen. "
Da Dunn skrev denne passage, forestillede han sig, at Livets Bog kunne omfatte store livshændelser som fødsel, ægteskab, skilsmisse og død. Men nu, hvor meget information om mennesker er optaget, kan Livets Bog være et utroligt detaljeret portræt, hvis de forskellige sider (dvs. vores digitale spor) kan bindes sammen. Denne bog af livet kunne være en stor ressource for forskere. Men det kan også kaldes en database om ruin (Ohm 2010) , som kunne bruges til alle former for uetiske formål, som jeg vil beskrive i kapitel 6 (Etik).