We kunnen experimenten benaderen die we niet hebben of niet kunnen doen. Twee benaderingen die vooral profiteren van big data-bronnen zijn natuurlijke experimenten en matching.
Enkele belangrijke wetenschappelijke en beleidsvragen zijn causaal. Wat is bijvoorbeeld het effect van een jobtrainingsprogramma op de lonen? Een onderzoeker die probeert deze vraag te beantwoorden, kan de inkomsten van mensen die zich hebben aangemeld voor training vergelijken met die van anderen. Maar hoeveel van het verschil in lonen tussen deze groepen is vanwege de training en hoeveel is het vanwege reeds bestaande verschillen tussen de mensen die zich aanmelden en degenen die dat niet doen? Dit is een moeilijke vraag, en deze gaat niet automatisch weg met meer gegevens. Met andere woorden, de bezorgdheid over mogelijke bestaande verschillen doet zich ongeacht hoeveel werknemers in uw gegevens voorkomen.
In veel situaties is de sterkste manier om het oorzakelijke effect van een bepaalde behandeling te schatten, zoals jobtraining, het uitvoeren van een gerandomiseerd gecontroleerd experiment waarbij een onderzoeker de behandeling willekeurig aan sommige mensen levert en niet aan anderen. Ik zal hoofdstuk 4 volledig aan experimenten wijden, dus hier ga ik me concentreren op twee strategieën die kunnen worden gebruikt met niet-experimentele gegevens. De eerste strategie hangt af van het zoeken naar iets dat in de wereld gebeurt dat willekeurig (of bijna willekeurig) de behandeling toewijst aan sommige mensen en niet aan anderen. De tweede strategie hangt af van het statistisch aanpassen van niet-experimentele gegevens in een poging rekening te houden met reeds bestaande verschillen tussen degenen die wel en niet de behandeling hebben ontvangen.
Een scepticus zou kunnen beweren dat beide strategieën moeten worden vermeden omdat ze sterke veronderstellingen vereisen, veronderstellingen die moeilijk te beoordelen zijn en die in de praktijk vaak worden geschonden. Hoewel ik sympathie hecht aan deze bewering, denk ik dat het een beetje te ver gaat. Het is zeker waar dat het moeilijk is om betrouwbare schattingen te maken van niet-experimentele gegevens, maar ik denk niet dat dit betekent dat we het nooit moeten proberen. In het bijzonder kunnen niet-experimentele benaderingen nuttig zijn als logistieke beperkingen u beletten een experiment uit te voeren of als ethische beperkingen betekenen dat u geen experiment wilt uitvoeren. Verder kunnen niet-experimentele benaderingen nuttig zijn als u wilt profiteren van reeds bestaande gegevens om een willekeurig, gecontroleerd experiment te ontwerpen.
Alvorens verder te gaan, is het ook de moeite waard om op te merken dat het maken van causale schattingen een van de meest complexe onderwerpen is in sociaal onderzoek, en een die kan leiden tot een intens en emotioneel debat. In wat volgt, zal ik een optimistische beschrijving van elke benadering geven om intuïtie hierover te ontwikkelen, daarna zal ik een aantal van de uitdagingen beschrijven die zich voordoen bij het gebruik van die benadering. Meer details over elke benadering zijn beschikbaar in de materialen aan het einde van dit hoofdstuk. Als u van plan bent om een van deze benaderingen in uw eigen onderzoek te gebruiken, raad ik u aan om een van de vele uitstekende boeken over causale gevolgtrekking te lezen (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Eén benadering om causale schattingen te maken van niet-experimentele gegevens is om te zoeken naar een gebeurtenis die willekeurig een behandeling heeft toegewezen aan sommige mensen en niet aan anderen. Deze situaties worden natuurlijke experimenten genoemd . Een van de duidelijkste voorbeelden van een natuurlijk experiment is afkomstig van het onderzoek van Joshua Angrist (1990) waarin het effect van militaire diensten op de winst wordt gemeten. Tijdens de oorlog in Vietnam verhoogden de Verenigde Staten de omvang van hun strijdkrachten door middel van een tocht. Om te bepalen welke burgers in dienst zouden worden gesteld, hield de Amerikaanse regering een loterij. Elke geboortedatum werd op een vel papier geschreven en, zoals te zien is in figuur 2.7, werden deze stukjes papier één voor één geselecteerd om de volgorde te bepalen waarin jonge mannen geroepen waren om te dienen (jonge vrouwen waren niet onderworpen naar het ontwerp). Op basis van de resultaten werden mannen die op 14 september werden geboren als eerste genoemd, mannen die op 24 april werden geboren, werden tweede genoemd, enzovoort. Uiteindelijk werden in deze loterij mannen geboren op 195 verschillende dagen, terwijl mannen geboren op 171 dagen dat niet waren.
Hoewel het misschien niet meteen duidelijk is, heeft een loterij een kritische gelijkenis met een gerandomiseerd gecontroleerd experiment: in beide situaties worden deelnemers willekeurig toegewezen om een behandeling te ontvangen. Om het effect van deze gerandomiseerde behandeling te bestuderen, maakte Angrist gebruik van een always-on big data-systeem: de Amerikaanse socialezekerheidsadministratie, die informatie verzamelt over vrijwel elke Amerikaanse inkomsten uit arbeid. Door de informatie over wie willekeurig geselecteerd was in de loterij te combineren met de inkomensgegevens die werden verzameld in overheidsadministraties, concludeerde Angrist dat de inkomsten van veteranen ongeveer 15% lager waren dan de inkomsten van vergelijkbare niet-veteranen.
Zoals dit voorbeeld illustreert, wijzen soms sociale, politieke of natuurlijke krachten behandelingen toe op een manier die door onderzoekers kan worden gebruikt, en soms worden de effecten van deze behandelingen vastgelegd in permanente big data-bronnen. Deze onderzoeksstrategie kan als volgt worden samengevat: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Om deze strategie in het digitale tijdperk te illustreren, laten we een studie overwegen door Alexandre Mas en Enrico Moretti (2009) die probeerden het effect te schatten van het werken met productieve collega's op de productiviteit van een werknemer. Voordat u de resultaten ziet, is het de moeite waard erop te wijzen dat er tegenstrijdige verwachtingen zijn die u zou kunnen hebben. Aan de ene kant zou je kunnen verwachten dat het werken met productieve collega's ertoe zou leiden dat een werknemer haar productiviteit zou verhogen vanwege groepsdruk. Of, aan de andere kant, zou je kunnen verwachten dat het hebben van hardwerkende collega's ertoe kan leiden dat een werknemer verslapt, omdat het werk hoe dan ook door haar leeftijdsgenoten zal worden gedaan. De duidelijkste manier om peereffecten op productiviteit te bestuderen, zou een willekeurig gecontroleerd experiment zijn waarbij werknemers willekeurig worden ingedeeld bij ploegendienst met werknemers met verschillende productiviteitsniveaus en vervolgens wordt de resulterende productiviteit voor iedereen gemeten. Onderzoekers hebben echter geen controle over het schema van werknemers in een echte onderneming, en dus moesten Mas en Moretti vertrouwen op een natuurlijk experiment met kassiers in een supermarkt.
In deze supermarkt, omdat de manier waarop de planning werd gedaan en de manier waarop verschuivingen elkaar overlappen, elke kassier verschillende medewerkers op verschillende tijdstippen van de dag had. Verder was de toewijzing van kassiers in deze supermarkt niet gerelateerd aan de productiviteit van hun collega's of hoe druk de winkel was. Met andere woorden, hoewel de planning van kassiers niet door een loterij werd bepaald, was het alsof werknemers soms willekeurig toegewezen werden om met hoge (of lage) productiviteitsgenoten te werken. Gelukkig had deze supermarkt ook een digitaal uitchecksysteem dat de items bijhield die elke kassier te allen tijde aan het scannen was. Op basis van deze uitcheckloggegevens konden Mas en Moretti een nauwkeurige, individuele en altijd meetbare maat voor de productiviteit creëren: het aantal items dat per seconde werd gescand. Door deze twee dingen te combineren - de natuurlijk voorkomende variatie in productiviteit van collega's en de altijd aanwezige productiviteit - schatten Mas en Moretti dat als een kassier werknemers toegewezen kreeg die 10% productiever waren dan gemiddeld, haar productiviteit met 1,5% zou stijgen. . Verder hebben ze de omvang en de rijkdom van hun gegevens gebruikt om twee belangrijke kwesties te onderzoeken: de heterogeniteit van dit effect (voor welke soorten werknemers is het effect groter?) En de mechanismen achter het effect (waarom leidt het hebben van collega's met een hoge productiviteit tot hogere productiviteit?). We komen in hoofdstuk 4 terug op deze twee belangrijke kwesties - heterogeniteit van de behandelingseffecten en -mechanismen - wanneer we experimenten in meer detail bespreken.
Generaliserend van deze twee studies, vat tabel 2.3 andere studies samen die dezelfde structuur hebben: een altijd beschikbare gegevensbron gebruiken om het effect van een willekeurige variatie te meten. In de praktijk gebruiken onderzoekers twee verschillende strategieën om natuurlijke experimenten te vinden, die beide vruchtbaar kunnen zijn. Sommige onderzoekers beginnen met een altijd beschikbare gegevensbron en zoeken naar willekeurige gebeurtenissen in de wereld; anderen starten een willekeurig evenement in de wereld en zoeken naar gegevensbronnen die de impact ervan vastleggen.
Inhoudelijke focus | Bron van natuurlijk experiment | Altijd beschikbare gegevensbron | Referentie |
---|---|---|---|
Peer-effecten op de productiviteit | Roosterproces | Checkout-gegevens | Mas and Moretti (2009) |
Vriendschapsvorming | Hurricanes | Phan and Airoldi (2015) | |
Verspreiding van emoties | Regen | Lorenzo Coviello et al. (2014) | |
Peer-to-peer economische overdrachten | Aardbeving | Mobiele geldgegevens | Blumenstock, Fafchamps, and Eagle (2011) |
Persoonlijk consumptiegedrag | 2013 Amerikaanse overheid shutdown | Persoonlijke financiële gegevens | Baker and Yannelis (2015) |
Economische impact van aanbevelingssystemen | divers | Bladeren door gegevens bij Amazon | Sharma, Hofman, and Watts (2015) |
Effect van stress op ongeboren baby's | 2006 Israel-Hezbollah-oorlog | Geboortegegevens | Torche and Shwed (2015) |
Leesgedrag op Wikipedia | Snowden onthullingen | Wikipedia logs | Penney (2016) |
Peer-effecten op lichaamsbeweging | Weer | Fitness trackers | Aral and Nicolaides (2017) |
In de discussie tot nu toe over natuurlijke experimenten, heb ik een belangrijk punt weggelaten: van wat de natuur heeft voorzien naar wat je wilt soms lastig zijn. Laten we teruggaan naar het voorbeeld in Vietnam. In dit geval was Angrist geïnteresseerd in het inschatten van het effect van de militaire dienst op de winst. Helaas werd de militaire dienst niet willekeurig toegewezen; in plaats daarvan werd het opgesteld dat willekeurig werd toegewezen. Niet iedereen die werd opgeroepen, diende echter (er waren verschillende vrijstellingen) en niet iedereen die diende, werd opgeroepen (mensen konden zich aanmelden als vrijwilliger). Omdat het opstellen willekeurig werd toegewezen, kan een onderzoeker inschatten welk effect het opstellen is voor alle mannen in het concept. Maar Angrist wilde niet weten wat het effect was van het opstaan; hij wilde weten wat het effect is van dienen in het leger. Om deze schatting te maken, zijn echter aanvullende aannames en complicaties vereist. Ten eerste moeten onderzoekers ervan uitgaan dat de enige manier om in te zamelen een impact heeft op de inkomsten, is via militaire dienst, een veronderstelling die de uitsluitingsbeperking wordt genoemd . Deze aanname zou fout kunnen zijn als, bijvoorbeeld, mannen die waren opgesteld langer op school bleven om te voorkomen dat ze te dienen of als werkgevers minder vaak mannen in dienst namen die waren opgeroepen. Over het algemeen is de uitsluitingsbeperking een kritische aanname en is deze meestal moeilijk te verifiëren. Zelfs als de uitsluitingsbeperking juist is, is het nog steeds onmogelijk om het effect van service op alle mannen in te schatten. In plaats daarvan blijkt dat onderzoekers alleen het effect kunnen schatten op een specifieke subset van mannen die 'compliers' worden genoemd (mannen die zouden dienen als ze opgesteld zijn, maar niet zouden dienen als ze niet zijn opgesteld) (Angrist, Imbens, and Rubin 1996) . Compliers waren echter niet de oorspronkelijke populatie van interesse. Merk op dat deze problemen zelfs ontstaan in het relatief schone geval van de loterij. Een verdere reeks complicaties doet zich voor wanneer de behandeling niet wordt toegewezen door een fysieke loterij. In de studie van Mas en Moretti van kassiers duiken bijvoorbeeld aanvullende vragen op over de veronderstelling dat de toewijzing van peers in wezen willekeurig is. Als deze veronderstelling sterk werd geschonden, zou dit hun schattingen kunnen beïnvloeden. Concluderend kunnen natuurlijke experimenten een krachtige strategie zijn voor het maken van causale schattingen van niet-experimentele gegevens, en big data-bronnen vergroten ons vermogen om te profiteren van natuurlijke experimenten wanneer ze zich voordoen. Het zal echter waarschijnlijk grote zorgvuldigheid vereisen - en soms sterke aannames - om te gaan van wat de natuur heeft opgeleverd naar de schatting die u wilt.
De tweede strategie waarover ik u zou willen vertellen voor het maken van causale schattingen van niet-experimentele gegevens, is afhankelijk van het statistisch aanpassen van niet-experimentele gegevens in een poging rekening te houden met reeds bestaande verschillen tussen degenen die wel en niet de behandeling hebben ontvangen. Er zijn veel van dergelijke aanpassingsbenaderingen, maar ik zal me concentreren op een aanpassingsmethode . Bij het zoeken vergelijkt de onderzoeker niet-experimentele gegevens om paren van mensen te creëren die vergelijkbaar zijn, behalve dat iemand de behandeling heeft ontvangen en één niet. Tijdens het matchen zijn onderzoekers eigenlijk ook aan het snoeien ; dat wil zeggen, het weggooien van gevallen waarbij er geen duidelijke overeenkomst is. Dus deze methode zou nauwkeuriger matching en snoeien worden genoemd, maar ik blijf bij de traditionele term: matching.
Een voorbeeld van de kracht van matchingstrategieën met massale niet-experimentele gegevensbronnen komt uit onderzoek naar consumentengedrag door Liran Einav en collega's (2015) . Ze waren geïnteresseerd in veilingen die op eBay plaatsvonden en bij het beschrijven van hun werk zal ik me concentreren op het effect van de veilingprijs op veilinguitkomsten, zoals de verkoopprijs of de waarschijnlijkheid van een verkoop.
De meest naïeve manier om het effect van de startprijs op de verkoopprijs te schatten, zou zijn om eenvoudig de uiteindelijke prijs voor veilingen met verschillende startprijzen te berekenen. Deze aanpak zou prima zijn als je de verkoopprijs, gezien de startprijs, zou willen voorspellen. Maar als uw vraag het effect van de startprijs betreft, zal deze aanpak niet werken omdat deze niet gebaseerd is op eerlijke vergelijkingen; de veilingen met lagere startprijzen kunnen heel anders zijn dan die met hogere startprijzen (ze kunnen bijvoorbeeld voor verschillende soorten goederen zijn of verschillende soorten verkopers omvatten).
Als u zich al bewust bent van de problemen die zich kunnen voordoen bij het maken van causale schattingen van niet-experimentele gegevens, slaat u mogelijk de naïeve benadering over en overweegt u een veldexperiment uit te voeren waarbij u een specifiek item, bijvoorbeeld een golfclub, met een vast aantal veilingparameters - zeg, gratis verzending en veiling twee weken open - maar met willekeurig toegewezen startprijzen. Door de resulterende marktuitkomsten te vergelijken, zou dit veldexperiment een zeer duidelijke meting van het effect van de startprijs op de verkoopprijs bieden. Maar deze meting zou alleen van toepassing zijn op één specifiek product en een reeks veilingparameters. De resultaten kunnen verschillen, bijvoorbeeld voor verschillende soorten producten. Zonder een sterke theorie is het moeilijk om van dit enkele experiment te extrapoleren naar het volledige scala van mogelijke experimenten die mogelijk zijn uitgevoerd. Verder zijn veldexperimenten voldoende duur, zodat het niet haalbaar is om elke variatie uit te voeren die u misschien wilt proberen.
In tegenstelling tot de naïeve en experimentele aanpak hebben Einav en collega's een derde benadering gekozen: matching. De belangrijkste truc in hun strategie is om dingen te ontdekken die lijken op veldexperimenten die al op eBay zijn gebeurd. Figuur 2.8 toont bijvoorbeeld een aantal van de 31 vermeldingen voor exact dezelfde golfclub - een Taylormade Burner 09-stuurprogramma - die door precies dezelfde verkoper worden verkocht - "budgetgolfer." Deze 31 lijsten hebben echter iets andere kenmerken, zoals verschillende startmomenten prijs, einddatums en verzendkosten. Met andere woorden, het is alsof "budgetgolfer" experimenten uitvoert voor de onderzoekers.
Deze lijsten van de Taylormade Burner 09-stuurprogramma's die worden verkocht door "budgetgolfer" zijn een voorbeeld van een overeenkomende reeks aanbiedingen, waarbij exact hetzelfde item wordt verkocht door exact dezelfde verkoper, maar telkens met enigszins andere kenmerken. Binnen de enorme boomstammen van eBay zijn er letterlijk honderdduizenden gematchte sets met miljoenen aanbiedingen. Dus in plaats van de uiteindelijke prijs voor alle veilingen te vergelijken met een bepaalde startprijs, vergeleken Einav en collega's elkaar in aangepaste sets. Om de resultaten van de vergelijkingen binnen deze honderdduizenden afgestemde sets te combineren, hebben Einav en collega's de startprijs en de uiteindelijke prijs opnieuw uitgedrukt in termen van de referentiewaarde van elk artikel (bijvoorbeeld de gemiddelde verkoopprijs). Als de Taylormade Burner 09-driver bijvoorbeeld een referentiewaarde van $ 100 had (op basis van de verkoop), zou een startprijs van $ 10 worden uitgedrukt als 0,1 en een uiteindelijke prijs van $ 120 als 1,2.
Bedenk dat Einav en collega's geïnteresseerd waren in het effect van de startprijs op de veilingresultaten. Ten eerste gebruikten ze lineaire regressie om te schatten dat hogere startprijzen de kans op een verkoop verkleinen, en dat hogere startprijzen de uiteindelijke verkoopprijs verhogen (afhankelijk van een verkoop die plaatsvindt). Op zichzelf zijn deze schattingen - die een lineaire relatie beschrijven en worden gemiddeld over alle producten - niet zo interessant. Vervolgens hebben Einav en collega's de enorme omvang van hun gegevens gebruikt om een aantal subtielere schattingen te maken. Door bijvoorbeeld het effect afzonderlijk te schatten voor verschillende startprijzen, vonden ze dat de relatie tussen startprijs en verkoopprijs niet-lineair is (figuur 2.9). Met name voor startprijzen tussen 0,05 en 0,85 heeft de startprijs weinig invloed op de verkoopprijs, een bevinding die volledig werd gemist door hun eerste analyse. Verder schatten Einav en zijn collega's het gemiddelde van alle items op de impact van de startprijs voor 23 verschillende categorieën items (bijv. Dierbenodigdheden, elektronica en sportmemorabilia) (figuur 2.10). Deze schattingen tonen aan dat voor meer onderscheidende items - zoals memorabilia - startprijs een kleiner effect heeft op de waarschijnlijkheid van een verkoop en een groter effect op de uiteindelijke verkoopprijs. Verder heeft de startprijs voor meer gecommodificeerde artikelen, zoals dvd's, bijna geen invloed op de uiteindelijke prijs. Met andere woorden, een gemiddelde dat resultaten uit 23 verschillende categorieën items combineert, verbergt belangrijke verschillen tussen deze items.
Zelfs als je niet echt geïnteresseerd bent in veilingen op eBay, moet je de manier bewonderen waarop figuur 2.9 en figuur 2.10 een beter begrip van eBay bieden dan eenvoudige schattingen die een lineaire relatie beschrijven en veel verschillende categorieën items combineren. Verder, hoewel het wetenschappelijk mogelijk zou zijn om deze meer subtiele schattingen met veldexperimenten te genereren, zouden de kosten dergelijke experimenten in wezen onmogelijk maken.
Net als bij natuurlijke experimenten zijn er een aantal manieren waarop matching kan leiden tot slechte schattingen. Ik denk dat de grootste zorg met het matchen van schattingen is dat ze beïnvloed kunnen worden door dingen die niet werden gebruikt in de matching. In hun belangrijkste resultaten hebben Einav en zijn collega's bijvoorbeeld exact gezocht op vier kenmerken: verkoper-ID-nummer, artikelcategorie, itemtitel en ondertitel. Als de items anders waren op manieren die niet werden gebruikt voor overeenkomsten, zou dit een oneerlijke vergelijking kunnen opleveren. Als bijvoorbeeld "budgetgolfer" de prijzen voor de Taylormade Burner 09-driver in de winter verlaagde (wanneer golfclubs minder populair zijn), dan zou het kunnen lijken dat lagere startprijzen tot lagere uiteindelijke prijzen leiden, terwijl dit in feite een artefact zou zijn van seizoensgebonden variatie in de vraag. Eén benadering om dit probleem aan te pakken is het proberen van veel verschillende soorten overeenkomsten. Einav en collega's herhaalden bijvoorbeeld hun analyse terwijl ze het tijdvenster dat werd gebruikt voor het matchen, varieerden (gekoppelde sets bevatten artikelen die binnen een jaar, binnen een maand en tegelijkertijd te koop waren). Gelukkig vonden ze vergelijkbare resultaten voor alle tijdvensters. Een verdere zorg met matching komt voort uit interpretatie. Schattingen van matching zijn alleen van toepassing op gematchte data; ze zijn niet van toepassing op gevallen die niet kunnen worden vergeleken. Door bijvoorbeeld hun onderzoek te beperken tot items met meerdere vermeldingen, richten Einav en collega's zich op professionele en semi-professionele verkopers. Dus, bij het interpreteren van deze vergelijkingen moeten we onthouden dat ze alleen van toepassing zijn op deze deelverzameling van eBay.
Matching is een krachtige strategie voor het vinden van eerlijke vergelijkingen in niet-experimentele gegevens. Voor veel sociaalwetenschappers voelt matchen het op één na beste voor experimenten, maar dat is een geloof dat enigszins kan worden herzien. Het matchen in massieve gegevens kan beter zijn dan een klein aantal veldexperimenten wanneer (1) heterogeniteit in effecten belangrijk is en (2) de belangrijke variabelen die nodig zijn voor matching zijn gemeten. Tabel 2.4 geeft enkele andere voorbeelden van hoe matching kan worden gebruikt met big data-bronnen.
Inhoudelijke focus | Grote gegevensbron | Referentie |
---|---|---|
Effect van schietpartijen op politiegeweld | Stop-en-fouillering records | Legewie (2016) |
Effect van 11 september 2001 op families en buren | Stemrecords en donatierecords | Hersh (2013) |
Sociale besmetting | Communicatie en product-acceptatiegegevens | Aral, Muchnik, and Sundararajan (2009) |
Concluderend, het schatten van causale effecten van niet-experimentele gegevens is moeilijk, maar benaderingen zoals natuurlijke experimenten en statistische aanpassingen (bijv. Matching) kunnen worden gebruikt. In sommige situaties kunnen deze benaderingen zeer verkeerd gaan, maar wanneer ze zorgvuldig worden ingezet, kunnen deze benaderingen een nuttige aanvulling zijn op de experimentele benadering die ik beschrijf in hoofdstuk 4. Verder lijken deze twee benaderingen vooral te profiteren van de groei van altijd- op, big data-systemen.