2.4.3.1 Natuurlijke experimenten

Natuurlijke experimenten profiteren van willekeurige gebeurtenissen in de wereld. random event + always-on data systeem = natuurlijk experiment

De sleutel tot het gerandomiseerde gecontroleerde experimenten waardoor eerlijke vergelijking is de randomisatie. Echter, zo nu en dan gebeurt er iets in de wereld die in wezen toekent mensen willekeurig of bijna willekeurig aan verschillende behandelingen. Een van duidelijkste voorbeeld van de strategie om natuurlijke experimenten afkomstig uit het onderzoek van Angrist (1990) dat het effect van militaire diensten op de winst meet.

Tijdens de oorlog in Vietnam, de Verenigde Staten steeg de omvang van de krijgsmacht door middel van een ontwerp. Om te bepalen welke de burgers opgeroepen zou worden in dienst, de Amerikaanse regering hield een loterij. Elk geboortedatum was vertegenwoordigd op een stuk papier, en deze papieren werden in een grote glazen pot geplaatst. Zoals getoond in figuur 2.5 zijn deze stukjes papier afkomstig uit de pot een voor een naar de volgorde waarin jongens worden opgeroepen (jonge vrouwen waren niet onderworpen aan het ontwerp) dienen bepalen. Op basis van de resultaten, werden mensen geboren op 14 september eerste noemde heren geboren op 24 april werden genoemd tweede, enzovoort. Uiteindelijk, in deze loterij, mannen geboren op 195 verschillende dagen werden geroepen om dienst terwijl mannen geboren op 171 dagen niet werden genoemd.

Figuur 2.5: Congreslid Alexander Pirnie (R-NY) het tekenen van de eerste capsule voor de selectieve Dienst ontwerp op 1 december 1969. Joshua Angrist (1990) combineerde de ontwerp-loterij met een winst van gegevens uit de Social Security Administration om het effect van de militaire dienst te schatten op de winst. Dit is een voorbeeld van onderzoek met een natuurlijk experiment. Bron: Wikimedia Commons

Figuur 2.5: Congreslid Alexander Pirnie (R-NY) het tekenen van de eerste capsule voor de selectieve Dienst ontwerp op 1 december 1969. Joshua Angrist (1990) combineerde de ontwerp-loterij met een winst van gegevens uit de Social Security Administration om het effect van de militaire dienst te schatten op de winst. Dit is een voorbeeld van onderzoek met een natuurlijk experiment. Bron: Wikimedia Commons

Hoewel het niet meteen duidelijk zou kunnen zijn, een ontwerp-loterij heeft een kritische gelijkenis met een gerandomiseerd gecontroleerd experiment: in beide situaties de deelnemers willekeurig toegewezen aan een behandeling. In het geval van het ontwerp-loterij, als we geïnteresseerd zijn in het leren over de effecten van het ontwerp in aanmerking komen en de militaire dienstplicht latere arbeidsmarkt winst, kunnen we de resultaten vergelijken voor mensen die hun geboortedata waren onder de loterij cutoff (zoals 14 september, april 24, etc.) met de uitkomsten voor mensen die hun verjaardagen waren na de cutoff (bv, 20 februari, 2 december, etc.).

Aangezien deze behandeling werd opgesteld is willekeurig toegewezen, kunnen we dan nagaan van het effect van deze behandeling voor enige uitkomst die is gemeten. Bijvoorbeeld, Angrist (1990) combineerde de informatie over wie willekeurig werd gekozen in het ontwerp met een winst van gegevens die zijn verzameld door de Social Security Administration om te concluderen dat de winst van de witte veteranen waren ongeveer 15% minder dan de winst van vergelijkbare niet-veteranen . Andere onderzoekers hebben soortgelijke kunstgreep ook. Bijvoorbeeld, Conley and Heerwig (2011) combineerde de informatie over wie willekeurig werd gekozen in het ontwerp met huishoudelijke gegevens verzameld uit de telling van 2000 en 2005 Amerikaanse Gemeenschap Survey en vond dat zo lang nadat het ontwerp, is er weinig effect op lange termijn van de was militaire dienst op verschillende uitkomsten zoals huisvesting tenure (bezitten versus huren) en residentiële stabiliteit (kans te hebben in de voorgaande vijf jaar verplaatst).

Zoals dit voorbeeld illustreert, soms sociale, politieke, of natuurlijke krachten te creëren experimenten of bijna-experimenten die kunnen worden ingezet door de onderzoekers. Vaak natuurlijke experimenten zijn de beste manier om de oorzaak-en-gevolg relaties in de instellingen te schatten waar het niet ethisch of praktische gerandomiseerde gecontroleerde experimenten uit te voeren. Ze zijn een belangrijke strategie voor het ontdekken van eerlijke vergelijkingen in niet-experimentele gegevens. Dit onderzoek strategie kan worden samengevat door deze vergelijking:

\ [\ text {random (of als random) gebeurtenis} + \ text {always-on data stream} = \ text {natuurlijk experiment} \ qquad (2.1) \]

Echter, de analyse van natuurlijke experimenten heel lastig zijn. Bijvoorbeeld in het geval van de Vietnam-ontwerp, niet iedereen die ontwerp in aanmerking komende belandde waar was (er waren een aantal vrijstellingen). En op hetzelfde moment, een aantal mensen die niet werden ontwerp-in aanmerking komen als vrijwilliger voor service. Het was als in een klinische trial van een nieuw geneesmiddel, een aantal mensen in de behandelde groep niet hun medicijnen in te nemen en een deel van de mensen in de controlegroep of andere manier de drug ontvangen. Dit probleem, zogenaamde dubbelzijdige naleven, evenals vele andere problemen zijn in meer detail in sommige van de aanbevolen waarden aan het einde van dit hoofdstuk.

De strategie om gebruik te maken van natuurlijk voorkomende willekeurige toewijzing vooraf aan het digitale tijdperk, maar de prevalentie van grote data maakt deze strategie veel gemakkelijker te gebruiken. Zodra je je realiseert enige vorm van behandeling is willekeurig toegewezen, kan big data bronnen de uitkomst gegevens die je nodig hebt om de resultaten te vergelijken voor mensen in de behandeling en controle omstandigheden. Bijvoorbeeld, in zijn onderzoek naar de effecten van het ontwerp en de militaire dienst, Angrist gebruik gemaakt van de winst records uit de Social Security Administration; zonder dat deze uitkomst gegevens zijn studie zou niet mogelijk zijn geweest. In dit geval is de Social Security Administration is het always-on big data bron. Naarmate meer en meer automatisch verzamelde gegevens bronnen bestaan, zullen we meer resultaat gegevens dat de effecten van de veranderingen gemaakt door exogene variatie kan te meten.

Om deze strategie in het digitale tijdperk te illustreren, laten we eens kijken Mas en Moretti's (2009) elegant onderzoek naar de invloed van leeftijdsgenoten op de productiviteit. Hoewel aan de oppervlakte het anders dan de studie Angrist's over de effecten van de Vietnam-ontwerp eruit zou kunnen zien, in de structuur van beiden volgen het patroon in eq. 2,1.

Mas en Moretti gemeten hoe leeftijdgenoten van invloed op de productiviteit van de werknemers. Aan de ene kant, met een hard werkende collega zou kunnen leiden werknemers om hun productiviteit te verhogen als gevolg van peer pressure. Of, aan de andere kant kan een hard werkende collega leiden andere werknemers om nog meer af te slap. De duidelijkste manier om peer-effect op de productiviteit te bestuderen zou een gerandomiseerd gecontroleerd experiment waarbij werknemers willekeurig verschuivingen zijn toegewezen met arbeiders van verschillende productiviteit niveaus en vervolgens als gevolg van de productiviteit wordt gemeten voor iedereen. Onderzoekers hebben echter geen controle over de planning van de werknemers in een echte business, en zo Mas en Moretti moesten vertrouwen op een natuurlijke experiment dat in een supermarkt plaatsvond.

Net als eq. 2,1, de studie bestond uit twee delen. Ten eerste, gebruikten ze de logs van de supermarkt kassa-systeem om een ​​precieze, individu, en altijd op maat voor de productiviteit: het aantal items gescand per seconde. En, ten tweede, als gevolg van de manier waarop planning werd gedaan in deze supermarkt, hebben ze in de buurt van een willekeurige samenstelling van leeftijdsgenoten. Met andere woorden, terwijl de programmering van kassiers niet wordt bepaald door een loterij, was in wezen willekeurig. In de praktijk is het vertrouwen dat wij hebben in de natuurlijke experimenten of valt vaak op de aannemelijkheid van deze "as-if" random claim. Profiteren van deze willekeurige variatie, Mas en Moretti vond dat het werken met een hogere productiviteit collega's verhoogt de productiviteit. Verder, Mas en Moretti gebruikt de omvang en rijkdom van hun dataset verder te gaan dan de schatting van oorzaak en gevolg om nog twee belangrijke en subtiele problemen te ontdekken: de heterogeniteit van dit effect (voor welke soorten van de werknemers is het effect groter) en het mechanisme achter het effect (waarom doet met een hoge productiviteit collega's leiden tot een hogere productiviteit). We zullen terugkeren naar deze twee belangrijke kwesties-heterogeniteit van effecten en mechanismen in hoofdstuk 5 behandeling wanneer we bespreken experimenten in meer detail.

Generaliseren van de studies over het effect van de Vietnam-ontwerp op de winst en de studie van de invloed van leeftijdsgenoten op de productiviteit, Tabel 2.3 geeft een overzicht van andere studies die exact dezelfde structuur te hebben: met behulp van een always-on gegevensbron om de impact van een bepaalde gebeurtenis te meten . Zoals uit tabel 2.3 blijkt, natuurlijke experimenten zijn overal als je gewoon weten hoe om te kijken voor hen.

Tabel 2.3: Voorbeelden van natuurlijke experimenten met big data bronnen. Al deze studies volgen dezelfde basisrecept: random (of als random) event + always-on data systeem. Zie Dunning (2012) voor meer voorbeelden.
inhoudelijke aandacht Bron van natuurlijke experiment Always-on data source Citaat
Peer effecten op de productiviteit scheduling proces checkout data Mas and Moretti (2009)
vorming vriendschap orkanen Facebook Phan and Airoldi (2015)
Verspreiding van emoties regen Facebook Coviello et al. (2014)
Peer-to-peer-economische transfers aardbeving mobiele data geld Blumenstock, Fafchamps, and Eagle (2011)
Persoonlijke consumptiegedrag 2013 Amerikaanse regering shutdown personal finance gegevens Baker and Yannelis (2015)
Economische impact van recommender systemen divers browsing gegevens op Amazon Sharma, Hofman, and Watts (2015)
Effect van stress op ongeboren baby's 2006 Israël-Hezbollah oorlog Birth Records Torche and Shwed (2015)
Leesgedrag op Wikipedia Snowden onthullingen Wikipedia logs Penney (2016)

Men komt dan twee verschillende strategieën voor het vinden van natuurlijke experimenten, die beide kunnen vruchtbaar zijn. Sommige onderzoekers beginnen met de always-on data source en zoeken naar willekeurige gebeurtenissen in de wereld; anderen beginnen met willekeurige gebeurtenissen in de wereld en op zoek naar gegevensbronnen dat hun invloed vast te leggen. Tot slot merken dat de kracht van de natuurlijke experimenten komt niet voort uit de verfijning van de statistische analyse, maar van de zorg in het ontdekken van een eerlijke vergelijking gemaakt door een gelukkig toeval van de geschiedenis.