2.3.2.1 Ufuldstændig

Uanset hvor "store" dine "store data" det sandsynligvis ikke har de oplysninger, du ønsker.

De fleste store datakilder er ufuldstændige, i den forstand, at de ikke har de oplysninger, du ønsker for din forskning. Dette er et fælles træk ved data, der blev lavet på andre end forskning formål. Mange samfundsforskere har allerede haft erfaring med ufuldstændighed, såsom en eksisterende undersøgelse, der ikke stille spørgsmål, du ønskede. Desværre er problemerne med ufuldstændige tendens til at være mere ekstrem i store data. I min erfaring, big data har tendens til at mangle tre typer af information nyttige for social forskning: demografi, adfærd på andre platforme, og data til at operationalisere teoretiske konstruktioner.

Alle tre af disse former for ufuldstændighed er illustreret i en undersøgelse af Gueorgi Kossinets og Duncan Watts (2006) om udviklingen af det sociale netværk på et universitet. Kossinets og Watts startede med e-mail-logfiler fra universitetet, som havde præcise oplysninger om, hvem der har sendt e-mails til hvem på hvilket tidspunkt (forskerne ikke har adgang til indholdet af e-mails). Disse e-mail optegnelser lyde som en fantastisk datasæt, men de er-på trods af deres størrelse og granularitet-fundamentalt ufuldstændig. For eksempel har e-mail-logfiler indeholder ikke oplysninger om demografiske karakteristika for de studerende, såsom køn og alder. Endvidere har de e-mail-logfiler ikke oplysninger om kommunikation via andre medier, såsom telefonopkald, sms, eller ansigt-til-ansigt samtaler. Endelig har de e-mail-logfiler ikke direkte indeholde oplysninger om forhold, de teoretiske konstruktioner i mange eksisterende teorier. Senere i kapitlet, når jeg taler om forskningsstrategier, vil du se, hvordan Kossinets og Watts løst disse problemer.

Af tre slags ufuldstændige, problemet med ufuldstændige data at operationalisere teoretiske konstruktioner er den sværeste at løse, og i min erfaring, er det ofte et uheld overset af data videnskabsfolk. Groft, teoretiske konstruktioner er abstrakte ideer, som samfundsforskere studerer, men desværre disse konstruktioner kan ikke altid entydigt defineres og måles. For eksempel, lad os forestille os at forsøge at empirisk teste tilsyneladende simple påstand om, at folk, der er mere intelligent tjene flere penge. For at teste denne påstand ville du nødt til at måle "intelligens". Men, hvad er intelligens? For eksempel, Gardner (2011) hævdede, at der faktisk er otte forskellige former for intelligens. Og, er der procedurer, der præcist kunne måle nogen af ​​disse former for intelligens? Trods enorme mængder af arbejde med psykologer, disse spørgsmål stadig ikke entydige svar. Selv en forholdsvis enkel påstand-folk, der er mere intelligent tjene flere penge-kan være svært at vurdere empirisk, fordi det kan være svært at operationalisere teoretiske konstruktioner i data. Andre eksempler på teoretiske konstruktioner, som er vigtige, men svært at operationalisere omfatte "normer", "social kapital" og "demokrati." Sociale forskerne kalder kampen mellem teoretiske konstruktioner og data konstruktion gyldighed (Cronbach and Meehl 1955) . Og som denne liste over konstruktioner antyder, konstruere gyldighed er et problem, at samfundsforskere har kæmpet med i meget lang tid, selv når de arbejdede med data, der blev indsamlet i forbindelse med forskning. Når du arbejder med data indsamlet til andre formål end forskning formål, problemerne med konstruktion gyldighed er endnu mere udfordrende (Lazer 2015) .

Når du læser et forsknings-papir, til en hurtig og nyttig måde vurdere bekymringer om konstruktion gyldighed er at tage den principale påstand i papiret, som normalt udtrykkes i konstruktioner, og re-udtrykke det i form af de anvendte data. For eksempel overveje to hypotetiske undersøgelser, der hævder at vise, at mere intelligente mennesker tjene flere penge:

  • Undersøgelse 1: folk der scorer godt på Raven Progressive Matricer Test-en velundersøgt test af analytisk intelligens (Carpenter, Just, and Shell 1990) -have højere indberettede indkomst på deres selvangivelser
  • Studie 2: folk på Twitter, der brugte længere ord er mere tilbøjelige til at nævne luksusmærker

I begge tilfælde kunne forskerne hævde, at de har vist, at mere intelligente mennesker tjene flere penge. Men, i den første undersøgelse de teoretiske konstruktioner er godt værk af de data, og i det andet er de ikke. Endvidere, som dette eksempel illustrerer, flere data ikke automatisk løse problemer med konstruktion gyldighed. Du bør tvivle resultaterne af Studie 2, om det involverede en million tweets, en milliard tweets eller en billion tweets. For forskere ikke er bekendt med tanken om konstruktion gyldighed, tabel 2.2 giver nogle eksempler på undersøgelser, der har operationaliseres teoretiske konstruktioner ved hjælp af digitale spor data.

Tabel 2.2: Eksempler på digitale spor, der anvendes som mål for mere abstrakte teoretiske begreber. Sociale forskerne kalder denne kamp konstruktion gyldighed, og det er en stor udfordring med at bruge store datakilder for social forskning (Lazer 2015) .
Digital spor Teoretisk konstruktion Citation
e-mail-logfiler fra et universitet (meta-data kun) Sociale relationer Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
sociale medier stillinger på Weibo Civic engagement Zhang (2016)
e-mail-logfiler fra et firma (meta-data og komplet tekst) Kulturel pasform i en organisation Goldberg et al. (2015)

Selv om problemet med ufuldstændige data for operationalisere teoretiske konstruktioner er temmelig svært at løse, er der tre fælles løsninger på problemet med ufuldstændig demografiske oplysninger og ufuldstændige oplysninger om adfærd på andre platforme. Den første er at faktisk indsamle de data, du har brug for; Jeg vil fortælle dig om et eksempel på, at der i kapitel 3, når jeg fortæller dig om undersøgelser. Desværre, denne form for dataindsamling er ikke altid muligt. Den anden vigtigste løsning er at gøre, hvad data forskerne kalder brugerdreven attribut inferens og hvad samfundsforskere kalder imputering. I denne tilgang, forskerne bruge de oplysninger, de har på nogle mennesker til at udlede egenskaber af andre mennesker. Den tredje mulige løsning-den, der anvendes af Kossinets og Watts-var at kombinere flere datakilder. Denne proces kaldes undertiden sammenlægning eller optage kobling. Min favorit metafor for denne proces blev foreslået i den allerførste afsnit i den allerførste papir nogensinde er skrevet på rekord kobling (Dunn 1946) :

"Hver person i verden skaber en Livets Bog. Denne bog starter med fødsel og slutter med døden. Dens sider består af optegnelser over de vigtigste begivenheder i livet. Optag kobling er navnet givet til processen med at samle siderne i denne bog til et volumen. "

Denne passage blev skrevet i 1946, og på det tidspunkt var folk tænker, at Livets Bog kunne omfatte større begivenheder i livet som fødsel, ægteskab, skilsmisse og død. Men nu der er optaget så mange oplysninger om folk, kunne Livets Bog være en utrolig detaljeret portræt, hvis de forskellige sider (dvs. vores digitale spor), kan bindes sammen. Denne Livets Bog kunne være en stor ressource for forskere. Men, Livets Bog kunne også kaldes en database over ruin (Ohm 2010) , der kunne anvendes til alle former for uetiske formål, som beskrevet mere nedenfor, når jeg taler om indsamlet af store datakilder under den følsomme karakter af de oplysninger, og i kapitel 6 (Etik).