Vi kan tilnærme eksperimenter at vi ikke kan gjøre. To tilnærminger som særlig nytte av den digitale tidsalder er samsvarende og naturlige eksperimenter.
Mange viktige vitenskapelige og politiske spørsmål er kausal. La oss vurdere, for eksempel følgende spørsmål: Hva er effekten av en jobb opplæringsprogram om lønn? En måte å svare på dette spørsmålet ville være med en randomisert kontrollert forsøk hvor arbeiderne ble randomisert til enten å motta trening eller ikke får opplæring. Deretter kunne forskerne beregne effekten av trening for disse deltakerne ved ganske enkelt å sammenligne lønn av mennesker som fikk opplæring til de som ikke fikk det.
Den enkle sammenligningen er gyldig på grunn av noe som skjer før dataene ble samlet selv: randomisering. Uten randomisering, er problemet mye vanskeligere. En forsker kan sammenligne lønn folk som frivillig registrert for opplæring til de som ikke registrere seg. Det sammenligning vil trolig vise at folk som fikk opplæring tjent mer, men hvor mye av dette er på grunn av trening og hvor mye av dette er fordi folk som registrerer seg for trening er forskjellige fra de som ikke melde deg på trening? Med andre ord, er det rimelig å sammenligne lønn disse to gruppene av mennesker?
Denne bekymringen om rettferdige sammenligninger fører noen forskere til å tro at det er umulig å gjøre årsaks estimater uten å kjøre et eksperiment. Denne påstanden går for langt. Mens det er sant at eksperimenter gi den sterkeste bevis for årsaks effekter, det er andre strategier som kan gi verdifulle årsaks estimater. I stedet for å tenke at årsaks anslag er enten lett (i tilfelle av forsøk) eller umulig (i tilfelle av passivt observerte data), er det bedre å tenke på strategier for å gjøre årsaks estimatene som ligger langs et kontinuum fra sterkest til svakest (figur 2,4). Ved den sterkeste enden av kontinuum er randomiserte kontrollerte eksperimenter. Men disse er ofte vanskelig å gjøre i samfunnsforskningen fordi mange behandlinger krever urealistiske mengder samarbeid fra regjeringer eller selskaper; ganske enkelt er det mange eksperimenter som vi ikke kan gjøre. Jeg vil vie all kapittel 4 til både styrker og svakheter ved randomiserte kontrollerte forsøk, og jeg vil hevde at i noen tilfeller, er det sterke etiske grunner til å foretobservasjons til eksperimentelle metoder.
Flytte langs kontinuum, er det situasjoner der forskere ikke har eksplisitt randomiserte. Det vil si, er forskere forsøker å lære eksperiment-aktig kunnskap uten å faktisk gjøre et eksperiment; naturlig, dette kommer til å bli vanskelig, men store data forbedrer vår evne til å gjøre årsaks estimater i disse situasjonene.
Noen ganger er det miljøer hvor tilfeldigheten i verden skjer for å skape noe som et eksperiment for forskere. Disse designene kalles naturlige eksperimenter, og de vil bli vurdert nærmere i punkt 2.4.3.1. To trekk ved store datakilder-sin alltid-på naturen og deres størrelse-forbedrer vår evne til å lære av naturlige eksperimenter når de oppstår.
Flytte lenger bort fra randomiserte kontrollerte forsøk, noen ganger er det ikke engang en hendelse i naturen som vi kan bruke til å tilnærme en naturlig eksperiment. I disse innstillingene, kan vi nøye konstruere sammenligninger innenfor ikke-eksperimentelle data i et forsøk på å tilnærme et eksperiment. Disse designene kalles matching, og de vil bli vurdert nærmere i punkt 2.4.3.2. Som naturlige eksperimenter, er samsvarende et design som også drar nytte av store datakilder. Spesielt den massive størrelsen, både når det gjelder antall saker og type informasjon per sak i stor grad forenkler matching. Den største forskjellen mellom naturlige eksperimenter og matching er at i naturlige eksperimenter forskeren kjenner prosessen der behandlingen ble tildelt, og mener det å være tilfeldig.
Konseptet med rettferdige sammenligninger som motiverte ønskene å gjøre eksperimenter ligger til grunn også de to alternative tilnærminger: naturlige eksperimenter og matching. Disse metodene vil gjøre deg i stand til å estimere kausale effekter fra passivt observerte data ved å oppdage rettferdige sammenligninger sitter innsiden av data som du allerede har.