2.4.3 benaderen experimenten

We kunnen experimenten die we niet kunnen doen benaderen. Twee benaderingen die vooral profiteren van de digitale tijdperk komen te passen en de natuurlijke experimenten.

Veel belangrijke wetenschappelijke en beleidsmatige vragen zijn causaal. Laten we eens kijken, bijvoorbeeld, de volgende vraag: wat is het effect van een job training programma op de lonen? Een manier om deze vraag te beantwoorden zou zijn met een gerandomiseerd gecontroleerd experiment waarbij werknemers werden willekeurig toegewezen aan een opleiding of training niet ontvangen. Dan, onderzoekers kunnen het effect van de opleiding voor deze deelnemers schatten door simpelweg vergelijken van de lonen van de mensen die de opleiding tot degenen die het niet heeft ontvangen ontvangen.

De eenvoudige vergelijking is geldig als gevolg van iets dat gebeurt voordat de gegevens nog werd verzameld: de randomisatie. Zonder randomisatie, het probleem veel lastiger. Een onderzoeker zou het loon van mensen die vrijwillig tot de mensen die niet aanmelden aangemeld voor de opleiding te vergelijken. Die vergelijking zou waarschijnlijk blijkt dat mensen die getraind verdiende meer, maar hoeveel van dit is omdat van de opleiding en hoeveel van dit is omdat mensen die zich aanmeldt voor de opleiding verschillen van die die niet aanmelden voor de opleiding? Met andere woorden, is het eerlijk om het loon van deze twee groepen mensen met elkaar vergelijken?

Deze bezorgdheid over eerlijke vergelijkingen leidt sommige onderzoekers geloven dat het onmogelijk is om causale schattingen te maken, zonder het uitvoeren van een experiment. Dit argument gaat te ver. Hoewel het waar is dat experimenten worden de sterkste bewijs voor causale effecten, zijn er andere strategieën die waardevolle causale schattingen geven. In plaats van het denken dat causale schattingen hetzij gemakkelijk (bij proeven) of onmogelijk (in het geval van passief waargenomen gegevens), is het beter te denken aan de strategieën om causale schattingen liggend langs een continuüm van sterkste tot zwakste (fig 2,4). Aan de sterkste einde van het continuüm zijn gerandomiseerde gecontroleerde experimenten. Maar deze zijn vaak moeilijk te doen in sociaal onderzoek, omdat veel behandelingen nodig onrealistische bedragen van de medewerking van overheden of bedrijven; eenvoudigweg zijn er vele experimenten die we niet kunnen doen. Ik zal al van hoofdstuk 4 te besteden aan zowel de sterke en zwakke punten van gerandomiseerde gecontroleerde experimenten, en ik zal betogen dat in sommige gevallen, zijn er sterke ethische redenen observationele de voorkeur te geven aan experimentele methoden.

Figuur 2.4: Continuum van het onderzoek strategieën voor geschatte causale effecten.

Figuur 2.4: Continuum van het onderzoek strategieën voor geschatte causale effecten.

Bewegen langs het continuüm er situaties waarin onderzoekers niet expliciet willekeurig. Dat wil zeggen, de onderzoekers proberen experiment-achtige kennis te leren zonder daadwerkelijk bezig met een experiment; natuurlijk, dit gaat lastig worden, maar big data sterk verbetert ons vermogen om causale schattingen te maken in deze situaties.

Soms zijn er instellingen waar de willekeur in de wereld gebeurt er zoiets als een experiment voor onderzoekers te creëren. Deze ontwerpen worden genoemd natuurlijke experimenten, en zij zullen in detail worden beschouwd in paragraaf 2.4.3.1. Twee kenmerken van big data-bronnen hun always-on karakter en hun grootte-verbetert ons vermogen om te leren van natuurlijke experimenten wanneer ze zich voordoen.

Steeds verder weg van gerandomiseerde gecontroleerde experimenten, soms is er niet eens een evenement in de natuur die we kunnen gebruiken om een ​​natuurlijk experiment te benaderen. In deze instellingen kunnen we zorgvuldig construeren vergelijkingen in niet-experimentele gegevens in een poging om een ​​experiment te benaderen. Deze ontwerpen worden genoemd matching, en zij zullen in detail worden beschouwd in paragraaf 2.4.3.2. Als natuurlijke experimenten, matching is een ontwerp dat profiteert ook van big data bronnen. Met name de enorme omvang, zowel in termen van het aantal gevallen en het soort informatie per geval aanzienlijk vergemakkelijkt matching. Het belangrijkste verschil tussen natuurlijke experimenten en matching is dat in de natuurlijke experimenten de onderzoeker kent het proces waarbij de behandeling werd toegewezen en is van mening dat het willekeurig.

Het concept van eerlijke vergelijkingen dat de verlangens gemotiveerd om experimenten te doen ten grondslag ligt ook de twee alternatieve benaderingen: natuurlijke experimenten en matching. Deze aanpak zal u toelaten om causale effecten schatten van passief waargenomen gegevens die door eerlijke vergelijkingen zit binnenkant van de gegevens die je al hebt ontdekt.