Vi kan tilnærme eksperimenter, som vi ikke kan gøre. To tilgange, der især nyder godt af den digitale tidsalder er matching og naturlige eksperimenter.
Mange vigtige videnskabelige og politiske spørgsmål er kausal. Lad os overveje, for eksempel følgende spørgsmål: Hvad er effekten af et job træningsprogram på lønningerne? En måde at besvare dette spørgsmål ville være med et randomiseret kontrolleret forsøg, hvor arbejdstagere blev randomiseret til enten at modtage uddannelse eller ikke modtage undervisning. Derefter kunne forskerne estimere effekten af uddannelse for disse deltagere blot ved at sammenligne lønnen for folk, der har modtaget uddannelse til dem, der ikke modtager den.
Den enkle sammenligning er gyldig på grund af noget, der sker, før data blev endda indsamlet: randomiseringen. Uden randomisering, problemet er langt vanskeligere. En forsker kunne sammenligne lønnen for folk, der frivilligt tilmeldt uddannelse til dem, der ikke tilmelde dig. Denne sammenligning ville nok viser, at folk, der har modtaget uddannelse tjente mere, men hvor meget af dette er på grund af uddannelse og hvor meget af det er fordi folk, at tilmelde dig træning er forskellige fra dem, der ikke tilmelde dig træning? Med andre ord, er det rimeligt at sammenligne lønnen for disse to grupper af mennesker?
Denne bekymring retfærdige sammenligninger fører nogle forskere til at tro, at det er umuligt at gøre kausale skøn uden at køre et eksperiment. Denne påstand går for vidt. Selv om det er rigtigt, at eksperimenter giver det stærkeste bevis for kausale effekter, er der andre strategier, der kan give værdifulde kausale skøn. I stedet for at tænke, at kausale skøn er enten let (i tilfælde af forsøg) eller umuligt (i tilfælde af passivt observerede data), er det bedre at tænke på de strategier for at gøre kausale estimater ligger langs et kontinuum fra stærkeste til svageste (figur 2.4). Ved den stærkeste ende af kontinuumet er randomiserede kontrollerede eksperimenter. Men, det er ofte vanskeligt at gøre i social forskning, fordi mange behandlinger kræver urealistiske mængder af samarbejde fra regeringer eller virksomheder; ganske enkelt er der mange eksperimenter, som vi ikke kan gøre. Jeg vil bruge al kapitel 4 til både styrker og svagheder ved randomiserede kontrollerede eksperimenter, og jeg vil argumentere for, at i nogle tilfælde er der stærke etiske grunde til at foretrække observationelle til eksperimentelle metoder.
Bevæger sig langs et kontinuum, der situationer, hvor forskere har ikke udtrykkeligt randomiserede. Det vil sige, forskerne forsøger at lære eksperiment-lignende viden uden at gøre et forsøg; naturligt, vil dette være en vanskelig opgave, men big data i høj grad forbedrer vores evne til at gøre kausale skøn i disse situationer.
Nogle gange er der indstillinger, hvor tilfældighed i verden sker for at skabe noget som et eksperiment for forskere. Disse designs kaldes naturlige eksperimenter, og de vil blive behandlet i detaljer i afsnit 2.4.3.1. To funktioner i store datakilder-deres altid-på naturen og deres størrelse, i høj grad øger vores evne til at lære af naturlige eksperimenter, når de opstår.
Flytning længere væk fra randomiserede kontrollerede eksperimenter, nogle gange er der ikke engang en begivenhed i naturen, som vi kan bruge til at tilnærme en naturlig eksperiment. I disse indstillinger, kan vi nøje konstruere sammenligninger inden for ikke-eksperimentelle data i et forsøg på at tilnærme et eksperiment. Disse designs kaldes matching, og de vil blive behandlet i detaljer i afsnit 2.4.3.2. Ligesom naturlige eksperimenter, matchning er et design, der også nyder godt af store datakilder. Især den massive størrelse, både med hensyn til antallet af sager, og typen af information per sag i høj grad letter matchning. Den afgørende forskel mellem naturlige eksperimenter og matchning er at forskeren i naturlige eksperimenter kender den proces, hvorigennem behandlingen blev tildelt, og mener, at det at være tilfældig.
Begrebet rimelige sammenligninger, der motiverede de ønsker at gøre eksperimenter ligger til grund også de to alternative metoder: naturlige eksperimenter og matchning. Disse tilgange vil gøre dig til at estimere kausale effekter fra passivt observerede data ved at opdage retfærdige sammenligninger sidder inde i de data, du allerede har.