Vi kan närma experiment som vi inte kan göra. Två metoder som särskilt gynnas av den digitala tidsåldern är att matcha och naturliga experiment.
Många viktiga vetenskapliga och politiska frågor är kausala. Låt oss betrakta, till exempel, följande fråga: vad är effekten av ett jobb utbildningsprogram om löner? Ett sätt att besvara denna fråga skulle vara med en randomiserad kontrollerad experiment där arbetstagare randomiserades till antingen få utbildning eller inte får utbildning. Sedan kan forskarna uppskatta effekten av utbildning för dessa deltagare genom att helt enkelt jämföra lönerna för personer som fått utbildning för dem som inte fick det.
Den enkla jämförelsen är giltig på grund av något som händer innan data även juveler: randomisering. Utan randomisering, är problemet mycket svårare. En forskare kan jämföra lönerna för människor som frivilligt anmält sig till utbildning för dem som inte registrerar dig. Denna jämförelse skulle förmodligen visa att människor som fått utbildning tjänade mer, men hur mycket av detta beror på träning och hur mycket av detta beror på att människor som registrerar sig för utbildning skiljer sig från dem som inte registrerar dig för utbildning? Med andra ord, är det rimligt att jämföra lönerna för dessa två grupper av människor?
Denna oro rättvisa jämförelser leder några forskare att tro att det är omöjligt att göra kausala uppskattningar utan att köra ett experiment. Detta påstående går för långt. Även om det är sant att experiment ger de starkaste bevisen för kausala effekter, det finns andra strategier som kan ge värdefulla orsaks uppskattningar. Istället för att tänka att orsaks uppskattningar är antingen lätt (i fallet med experiment) eller omöjligt (i fallet med passivt observerade data), är det bättre att tänka på strategier för att göra orsaks beräkningar som ligger längs ett kontinuum från starkaste till den svagaste (Figur 2,4). Vid den starkaste änden av kontinuum randomiseras kontrollerade experiment. Men, det är ofta svårt att göra i social forskning eftersom många behandlingar kräver orealistiska mängder samarbete från regeringar eller företag; helt enkelt det finns många experiment som vi inte kan göra. Jag kommer att ägna hela kapitel 4 till både styrkor och svagheter i randomiserade kontrollerade experiment, och jag hävdar att i vissa fall, det finns starka etiska skäl att föredra observational till experimentella metoder.
Rör sig längs kontinuum, finns det situationer där forskarna inte uttryckligen har randomiserade. Det vill säga, forskare försöker lära experiment liknande kunskap utan att verkligen göra ett experiment; Naturligtvis kommer detta att vara svårt, men stora uppgifter förbättrar avsevärt vår förmåga att göra kausala uppskattningar i dessa situationer.
Ibland finns det miljöer där slumpmässighet i världen händer att skapa något som ett experiment för forskare. Dessa mönster kallas naturliga experiment, och de kommer att övervägas i detalj i avsnitt 2.4.3.1. Två inslag i stora datakällor-deras alltid-på natur och deras storleks avsevärt förbättrar vår förmåga att lära av naturliga experiment när de uppstår.
Flytta längre bort från randomiserade kontrollerade experiment, ibland finns det inte ens en händelse i naturen som vi kan använda för att approximera en naturlig experiment. I dessa inställningar kan vi noggrant konstruera jämförelser inom icke-experimentella data i ett försök att närma ett experiment. Dessa mönster kallas matchning, och de kommer att övervägas i detalj i avsnitt 2.4.3.2. Som naturliga experiment, är matcha en design som också drar nytta av stora datakällor. I synnerhet den massiva storlek, både vad gäller antal fall och typen av information per fall avsevärt underlättar matchningen. Den huvudsakliga skillnaden mellan naturliga experiment och matchning är att i naturliga experiment forskaren vet den process genom vilken behandling tilldelades och anser att det är slumpmässigt.
Begreppet rättvisa jämförelser som motiverade önskemål att göra experiment ligger bakom även de två alternativa metoder: naturliga experiment och matchning. Dessa metoder gör det möjligt för dig att uppskatta kausala effekter från passivt observerade data genom att upptäcka rättvisa jämförelser sitter inne i de data som du redan har.