Ons kan eksperimente benader wat ons nie of nie kan doen nie. Twee benaderings wat veral voordeel trek uit groot databronne is natuurlike eksperimente en ooreenstem.
Sekere belangrike wetenskaplike en beleidsvrae is kousaal. Byvoorbeeld, wat is die effek van 'n werkopleidingsprogram op lone? 'N Navorser wat probeer om hierdie vraag te beantwoord, kan die verdienste van mense wat vir opleiding onderteken het, vergelyk met diegene wat dit nie gedoen het nie. Maar hoeveel verskil van lone tussen hierdie groepe is as gevolg van die opleiding en hoeveel is dit as gevolg van vooraf bestaande verskille tussen die mense wat inteken en diegene wat nie? Dit is 'n moeilike vraag, en dit is een wat nie outomaties met meer data wegbreek nie. Met ander woorde, die kommer oor moontlike bestaande verskille ontstaan nie saak hoeveel werkers in u data is nie.
In baie gevalle is die sterkste manier om die oorsaaklike effek van sommige behandeling, soos werksopleiding, te bepaal, om 'n gerandomiseerde beheerde eksperiment uit te voer waar 'n navorser die behandeling aan sommige mense en nie ander willekeurig lewer nie. Ek sal alle hoofstuk 4 aan eksperimente bestee, so hier gaan ek fokus op twee strategieë wat gebruik kan word met nie-eksperimentele data. Die eerste strategie hang af van soek na iets wat in die wêreld gebeur wat willekeurig (of byna lukraak) die behandeling aan sommige mense en nie ander toeken nie. Die tweede strategie is afhanklik van die statistiese aanpassing van nie-eksperimentele data in 'n poging om rekening te hou met bestaande verskille tussen diegene wat die behandeling gedoen en nie ontvang het nie.
'N Skeptiese mag beweer dat beide strategieë vermy moet word omdat hulle sterk aannames benodig, aannames wat moeilik is om te evalueer en wat in die praktyk dikwels geskend word. Terwyl ek simpatiek is vir hierdie eis, dink ek dit gaan 'n bietjie te ver. Dit is beslis waar dat dit moeilik is om kousale ramings uit nie-eksperimentele data betroubaar te maak, maar ek dink nie dit beteken dat ons nooit moet probeer nie. In die besonder kan nie-eksperimentele benaderings nuttig wees as logistieke beperking u verhoed om 'n eksperiment uit te voer of as etiese beperkings beteken dat u nie 'n eksperiment wil uitvoer nie. Verder kan nie-eksperimentele benaderings nuttig wees as u voordeel wil trek uit data wat reeds bestaan om 'n gerandomiseerde beheerde eksperiment te ontwerp.
Voordat dit verder gaan, is dit ook opmerklik dat die maak van kousale ramings een van die mees komplekse onderwerpe in sosiale navorsing is, en een wat kan lei tot intense en emosionele debat. In wat volg, sal ek 'n optimistiese beskrywing van elke benadering gee om intuïsie daaroor te bou, en dan sal ek sommige van die uitdagings beskryf wat ontstaan wanneer hierdie benadering gebruik word. Verdere besonderhede oor elke benadering is beskikbaar in die materiaal aan die einde van hierdie hoofstuk. As jy van hierdie benaderings in jou eie navorsing van plan is om te gebruik, beveel ek sterk aan om een van die vele uitstekende boeke oor kousale inferensie te lees (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Een benadering om oorsaaklike ramings uit nie-eksperimentele data te maak, is om 'n gebeurtenis te soek wat lukraak 'n behandeling aan sommige mense toegeken het en nie aan ander nie. Hierdie situasies word natuurlike eksperimente genoem . Een van die duidelikste voorbeelde van 'n natuurlike eksperiment kom uit die navorsing van Joshua Angrist (1990) wat die uitwerking van militêre dienste op verdienste meet. Tydens die oorlog in Viëtnam het die Verenigde State die grootte van sy gewapende magte deur middel van 'n konsep verhoog. Om te besluit watter burgers in diens geneem sou word, het die Amerikaanse regering 'n lotery gehou. Elke geboortedatum is op 'n stuk papier geskryf, en soos in figuur 2.7 getoon, is hierdie stukke papier een vir een gekies om die volgorde te bepaal waarin jong mans geroep sou word om te dien (jong vroue was nie onderworpe nie na die konsep). Gebaseer op die uitslae, is mans wat op 14 September gebore is, eerste genoem. Mans wat op 24 April gebore is, is tweede genoem, en so aan. Uiteindelik, in hierdie lotery, is mans op 195 verskillende dae gebore, terwyl mans op 171 dae gebore is.
Alhoewel dit dalk nie onmiddellik duidelik is nie, het 'n konsep lotery 'n kritiese ooreenkoms met 'n gerandomiseerde beheerde eksperiment: in albei situasies word deelnemers willekeurig toegeken om 'n behandeling te ontvang. Ten einde die effek van hierdie gerandomiseerde behandeling te ondersoek, het Angrist voordeel getrek uit 'n voortdurend groot data stelsel: die US Social Security Administration, wat inligting versamel oor feitlik elke Amerikaner se verdienste uit diens. Deur die inligting oor wie lukraak gekies is in die konsep-lotto met die verdienste data wat in die regering se administratiewe rekords ingesamel is, te kombineer, het Angrist gesluit dat die verdienste van veterane sowat 15% minder was as die verdienste van vergelykbare nie-veterane.
Soos hierdie voorbeeld illustreer, gee sosiale, politieke of natuurlike kragte soms behandelings op 'n manier wat deur navorsers aangewend kan word, en soms word die gevolge van hierdie behandelings vasgevang in altyd-op groot databronne. Hierdie navorsingstrategie kan soos volg opgesom word: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Om hierdie strategie in die digitale era te illustreer, kom ons kyk na 'n studie deur Alexandre Mas en Enrico Moretti (2009) wat probeer het om die effek van die werk met produktiewe kollegas oor die produktiwiteit van 'n werker te skat. Voordat u die uitslae sien, is dit die moeite werd om daarop te wys dat daar verwarrende verwagtinge is wat u mag hê. Aan die een kant kan jy verwag dat die werk met produktiewe kollegas 'n werker sal lei om haar produktiwiteit te verhoog as gevolg van groepsdruk. Of, andersyds, kan jy verwag dat 'n werker met 'n hardwerkende eweknie 'n werker kan laat sak, want die werk sal in elk geval deur haar eweknieë gedoen word. Die duidelikste manier om eweknie-effekte op produktiwiteit te bestudeer, is 'n gerandomiseerde beheerde eksperiment waar werkers willekeurig toegeskryf word aan verskuiwings met werkers van verskillende produktiwiteitsvlakke en dan word die gevolglike produktiwiteit vir almal gemeet. Navorsers beheer egter nie die skedule van werkers in enige werklike besigheid nie, en Mas en Moretti moes dus staatmaak op 'n natuurlike eksperiment wat kassiere by 'n supermark betrek.
In hierdie spesifieke supermark, as gevolg van die manier waarop skedulering gedoen is en die manier waarop verskuiwings oorvleuel het, het elke kassier op verskillende tye verskillende mede-werkers gehad. Verder, in hierdie spesifieke supermark, was die opdrag van kassiere nie verwant aan die produktiwiteit van hul eweknieë of hoe besig die winkel was nie. Met ander woorde, hoewel die skedulering van kassiere nie deur 'n lotto bepaal is nie, was dit asof werkers soms willekeurig toegewys is om te werk met hoë (of lae) produktiwiteit-eweknieë. Gelukkig het hierdie supermark ook 'n digitale-ouderdom-kassa-stelsel gehad wat die items wat elke kassier te alle tye nagegaan het, opgespoor het. Uit hierdie afhandeling log data, Mas en Moretti was in staat om 'n presiese, individuele en altyd-op maat van produktiwiteit te skep: die aantal items wat per sekonde geskandeer word. Deur hierdie twee dinge te kombineer, het die natuurlike variasie in eweknieproduktiwiteit en die voortdurende maatstaf van produktiwiteit, Mas en Moretti, beraam dat indien 'n kassier mede-werkers toegewys is wat 10% meer produktief as gemiddeld was, sou haar produktiwiteit met 1,5% toeneem. . Verder het hulle die grootte en rykdom van hul data gebruik om twee belangrike kwessies te ondersoek: die heterogeniteit van hierdie effek (Vir watter soort werkers is die effek groter?) En die meganismes agter die effek (Waarom het hoëproduktiewe eweknieë tot gevolg dat hoër produktiwiteit?). Ons sal terugkeer na hierdie twee belangrike kwessies - heterogeniteit van behandelingseffekte en meganismes - in hoofstuk 4 wanneer ons eksperimente meer in detail bespreek.
In algemene gevalle uit hierdie twee studies word tabel 2.3 opsommings van ander studies wat dieselfde struktuur het: gebruik 'n voortdurend gegee bron om die effek van 'n ewekansige variasie te meet. In die praktyk gebruik navorsers twee verskillende strategieë om natuurlike eksperimente te vind. Albei kan vrugbaar wees. Sommige navorsers begin met 'n voortdurende databron en soek na ewekansige gebeurtenisse in die wêreld; ander begin 'n ewekansige gebeurtenis in die wêreld en soek na databronne wat die impak daarvan vang.
Substantiewe fokus | Bron van natuurlike eksperiment | Altyd op data bron | verwysing |
---|---|---|---|
Portuur-effekte op produktiwiteit | Skeduleringsproses | Afrekeningsdata | Mas and Moretti (2009) |
Vriendskapvorming | Hurricanes | Phan and Airoldi (2015) | |
Verspreiding van emosies | reën | Lorenzo Coviello et al. (2014) | |
Peer-to-peer ekonomiese oordragte | aardbewing | Mobiele geld data | Blumenstock, Fafchamps, and Eagle (2011) |
Persoonlike verbruiksgedrag | 2013 Amerikaanse regering afsluit | Persoonlike finansiële data | Baker and Yannelis (2015) |
Ekonomiese impak van aanbevelingsisteme | verskeie | Blaai deur data op Amazon | Sharma, Hofman, and Watts (2015) |
Effek van spanning op ongebore babas | 2006 Israel-Hezbollah oorlog | Geboorteplaaie | Torche and Shwed (2015) |
Leesgedrag op Wikipedia | Snowden onthullings | Wikipedia logs | Penney (2016) |
Portuur-effekte op oefening | weer | Fitness trackers | Aral and Nicolaides (2017) |
In die bespreking tot dusver oor natuurlike eksperimente, het ek 'n belangrike punt uitgelaat: om te gaan van wat die natuur voorsien het aan wat jy wil, kan soms taai wees. Kom ons keer terug na die Viëtnam-konsep voorbeeld. In hierdie geval was Angrist geïnteresseerd in die raming van die uitwerking van militêre diens op verdienste. Ongelukkig is militêre diens nie lukraak toegewys nie; eerder is dit opgestel wat lukraak toegewys is. Nie almal wat opgestel is, bedien nie (daar was 'n verskeidenheid vrystellings), en nie almal wat bedien is, is opgestel nie (mense kon vrywillig dien). Omdat die opstel van willekeurig toegewys is, kan 'n navorser die effek van opstel vir alle mans in die konsep beraam. Maar Angrist wou nie weet wat die effek van opstel was nie; hy wou die effek van diens in die weermag ken. Om hierdie skatting te maak, is egter addisionele aannames en komplikasies nodig. Eerstens moet navorsers aanneem dat die enigste manier waarop die verdienste geraak word, deur middel van militêre diens, 'n aanname genoem die uitsluitingskorting . Hierdie aanname kan verkeerd wees as byvoorbeeld mans wat opgestel is, langer op skool gebly het om te vermy of om werkers minder geneig was om mans wat opgestel is, te huur. Oor die algemeen is die uitsluitingbeperking 'n kritiese aanname, en dit is gewoonlik moeilik om te verifieer. Selfs as die uitsluitingskorting korrek is, is dit steeds onmoontlik om die uitwerking van diens op alle mans te skat. In plaas daarvan blyk dit dat navorsers slegs die effek op 'n spesifieke deelversameling mans wat vergelykers genoem word, kan skat (mans wat sou dien wanneer hulle opgestel is, maar nie sal dien as hulle nie opgestel word nie) (Angrist, Imbens, and Rubin 1996) . Verskaffers was egter nie die oorspronklike bevolking van belang nie. Let daarop dat hierdie probleme selfs in die relatief skoon geval van die konsep lotery ontstaan. 'N Verdere stel komplikasies ontstaan wanneer die behandeling nie deur 'n fisiese lotery toegewys word nie. Byvoorbeeld, in Mas and Moretti se studie van kassiere kom bykomende vrae oor die aanname dat die opdrag van eweknieë wesenlik is. As hierdie aanname sterk geskend is, kan dit hul ramings vooroordeel. Ter afsluiting kan natuurlike eksperimente 'n kragtige strategie wees om oorsaaklike ramings uit nie-eksperimentele data te maak, en groot data bronne verhoog ons vermoë om op natuurlike eksperimente te kapitaliseer wanneer dit voorkom. Dit sal egter waarskynlik groot sorg en soms sterk aannames vereis - om te gaan van die aard wat voorsien is aan die skatting wat jy wil hê.
Die tweede strategie waaroor ek u graag wil vertel dat u oorsaaklike ramings van nie-eksperimentele data maak, hang af van die statistiese aanpassing van nie-eksperimentele data, om te probeer om bestaande verskille tussen diegene wat gedoen het en nie die behandeling ontvang het, te verantwoord nie. Daar is baie sulke aanpassingsbenaderings, maar ek sal fokus op een wat ooreenstem . In ooreenstemming lyk die navorser deur nie-eksperimentele data om pare mense te skep wat soortgelyk is, behalwe dat die behandeling ontvang is en dat 'n mens dit nie het nie. In die proses van ooreenstemming word navorsers eintlik ook snoei ; dit is, weggooi gevalle waar daar geen duidelike wedstryd. Dus, hierdie metode sal meer akkuraat genoem word wat ooreenstem met en snoei, maar ek hou by die tradisionele term: ooreenstem.
Een voorbeeld van die krag van ooreenstemmende strategieë met massiewe nie-eksperimentele data bronne kom uit navorsing oor verbruikersgedrag deur Liran Einav en kollegas (2015) . Hulle was geïnteresseerd in veilings wat op eBay plaasvind, en in die beskrywing van hul werk sal ek fokus op die effek van veilingsprestasie op veilingsuitkomste, soos die verkoopprys of die waarskynlikheid van 'n verkoop.
Die mees naïef manier om die effek van die begin prys op verkoopprys te skat, sou wees om bloot die finale prys vir veilings met verskillende aanvangspryse te bereken. Hierdie benadering sal goed wees as jy die verkoopprys met die aanvangsprys wil voorspel. Maar as jou vraag betrekking het op die uitwerking van die aanvangsprys, sal hierdie benadering nie werk nie, want dit is nie gebaseer op billike vergelykings nie. Die veilings met laer aanvangspryse kan heel anders wees as dié met hoër aanvangspryse (bv. hulle kan vir verskillende tipes goedere wees of verskillende tipes verkopers insluit).
As jy reeds bewus is van die probleme wat kan ontstaan as jy oorsaaklike ramings uit nie-eksperimentele data maak, kan jy die naïewe benadering oorskry en oorweeg om 'n veld eksperiment te doen waar jy 'n spesifieke item sal verkoop, byvoorbeeld 'n gholfklub - met 'n vaste Stel veilingsparameters-sê, gratis gestuur en veiling oop vir twee weke, maar met willekeurig toegewysde aanvangspryse. Deur die gevolglike markuitkomste te vergelyk, bied hierdie veldeksperiment 'n baie duidelike meting van die effek van die beginprys op verkoopprys. Maar hierdie meting sal slegs van toepassing wees op 'n spesifieke produk en stel veilingsparameters. Die resultate kan byvoorbeeld verskil vir verskillende tipes produkte. Sonder 'n sterk teorie is dit moeilik om uit hierdie enkele eksperiment te ekstrapolereer na die volledige reeks moontlike eksperimente wat uitgevoer kon word. Verder, veld eksperimente is voldoende duur dat dit onmoontlik sou wees om elke variasie wat jy dalk wil probeer uit te voer.
In teenstelling met die naïef en eksperimentele benaderings, het Einav en kollegas 'n derde benadering aangepak: ooreenstem. Die belangrikste truuk in hul strategie is om dinge te ontdek soortgelyk aan veld eksperimente wat reeds op eBay plaasgevind het. Byvoorbeeld, figuur 2.8 toon sommige van die 31 lyste vir presies dieselfde gholfklub. 'N Taylormade Burner 09-bestuurder word deur presies dieselfde verkoper verkoop. "Begrotingsgolfer." Hierdie 31 lyste het egter effens verskillende eienskappe, soos verskillende begin prys, einddatums en gestuurgeld. Met ander woorde, dit is asof 'budgetgolfer' eksperimente vir die navorsers doen.
Hierdie lyste van die Taylormade Burner 09-bestuurder wat deur "budgetgolfer" verkoop word, is een voorbeeld van 'n gepaste stel aanbiedings, waar presies dieselfde item deur presies dieselfde verkoper verkoop word, maar elke keer met effens verskillende eienskappe. Binne die massiewe logs van eBay is daar letterlik honderde duisende ooreenstemmende stelle wat miljoene aanbiedings insluit. Dus, eerder as om die finale prys vir alle veilings met 'n gegewe aanvangsprys te vergelyk, vergelyk Einav en kollegas binne ooreenstemmende stelle. Om die resultate van die vergelykings binne hierdie honderde duisende ooreenstemmende stelle te kombineer, het Einav en kollegas die aanvangsprys en finale prys weergee in terme van die verwysingswaarde van elke item (bv. Die gemiddelde verkoopprys). As die Taylormade Burner 09-bestuurder byvoorbeeld 'n verwysingswaarde van $ 100 gehad het (gebaseer op sy verkope), sou 'n aanvangsprys van $ 10 uitgedruk word as 0,1 en 'n finale prys van $ 120 as 1,2.
Onthou dat Einav en kollegas belangstel in die effek van beginprys op veilinguitkomste. Eerstens het hulle lineêre regressie gebruik om te skat dat hoër aanvangspryse die waarskynlikheid van 'n verkoop verminder, en dat hoër aanvangspryse die finale verkoopprys verhoog (afhangende van 'n verkoop wat plaasvind). Op sigself is hierdie skattings, wat 'n lineêre verhouding beskryf en gemiddeld oor alle produkte is, nie so interessant nie. Toe gebruik Einav en kollegas die massiewe grootte van hul data om 'n verskeidenheid van meer subtiele ramings te skep. Byvoorbeeld, deur die effek afsonderlik vir 'n verskeidenheid verskillende beginpryse te skat, het hulle bevind dat die verhouding tussen aanvangs prys en verkoopprys nie-lineêr is (figuur 2.9). In die besonder, vir die aanvang van pryse tussen 0,05 en 0,85, het die aanvangsprys baie min impak op die verkoopprys, 'n bevinding wat heeltemal gemis is deur hul eerste analise. Verder, in vergelyking met alle items, het Einav en kollegas die impak van die aanvangsprys bereken vir 23 verskillende kategorieë items (bv. Troeteldiervoorrade, elektronika en sportmemorabilia) (figuur 2.10). Hierdie ramings toon dat vir meer onderskeidende items, soos die beginsel van memorabilia-aanvang, 'n kleiner uitwerking het op die waarskynlikheid van 'n verkoop en 'n groter effek op die finale verkoopprys. Verder, vir meer gekommodifiseerde items, soos DVD's, het die aanvangsprys amper geen impak op die finale prys nie. Met ander woorde, 'n gemiddelde wat saamkom uit 23 verskillende kategorieë items, verskuil belangrike verskille tussen hierdie items.
Selfs as jy nie besonder belangstel in veilings op eBay nie, moet jy bewonder die manier waarop figuur 2.9 en figuur 2.10 'n ryker begrip van eBay bied as eenvoudige ramings wat 'n lineêre verhouding beskryf en baie verskillende kategorieë items kombineer. Verder, hoewel dit wetenskaplik moontlik sou wees om hierdie meer subtiele ramings met veldeksperimente te genereer, sou die koste sulke eksperimente in wese onmoontlik maak.
Soos met natuurlike eksperimente, is daar 'n aantal maniere wat ooreenstem, wat lei tot slegte ramings. Ek dink die grootste kommer met die ooreenstemmende ramings is dat hulle bevooroordeeld kan wees deur dinge wat nie in die ooreenstemmende gebruik was nie. Byvoorbeeld, in hul hoofresultate het Einav en kollegas presiese ooreenstem met vier eienskappe: verkoper-ID nommer, itemkategorie, itemitem en ondertitel. As die items verskillend was op maniere wat nie vir ooreenstem gebruik is nie, kan dit 'n onregverdige vergelyking skep. Byvoorbeeld, as "budgetgolfer" pryse vir die Taylormade Burner 09-bestuurder in die winter (wanneer gholfklubs minder gewild is) verlaag, kan dit blyk dat laer aanvangspryse tot laer finale pryse lei, as dit eintlik 'n artefak van seisoenale variasie in vraag. Een benadering om hierdie probleem aan te spreek, probeer baie verskillende soorte ooreenkomste. Byvoorbeeld, Einav en hul kollegas het hul ontleding herhaal, terwyl die tydvenster wat gebruik word om ooreen te stem (ooreenstemmende stelle ingesluit items binne een jaar, binne een maand en gelyktydig) wissel. Gelukkig het hulle soortgelyke resultate vir alle tydvensters gevind. 'N Verdere besorgdheid met ooreenstemming ontstaan uit interpretasie. Skattings van bypassing geld slegs vir pasgemaakte data; hulle is nie van toepassing op die gevalle wat nie ooreenstem nie. Byvoorbeeld, deur hul navorsing te beperk tot items wat verskeie aanbiedings het, fokus Einav en kollegas op professionele en semi-professionele verkopers. By die interpretasie van hierdie vergelykings moet ons dus onthou dat hulle net van toepassing is op hierdie subset van eBay.
Matching is 'n kragtige strategie om regverdige vergelykings in nie-eksperimentele data te vind. Vir baie sosiale wetenskaplikes voel die ooreenstemmende tweedens die beste vir eksperimente, maar dit is 'n geloof wat effens hersien kan word. Om in massiewe data te pas, kan beter wees as 'n klein aantal veld eksperimente wanneer (1) heterogeniteit in effekte belangrik is en (2) die belangrike veranderlikes wat benodig word om ooreen te stem, gemeet is. Tabel 2.4 gee 'n paar ander voorbeelde van hoe ooreenstem met groot databronne gebruik kan word.
Substantiewe fokus | Groot data bron | verwysing |
---|---|---|
Effek van skietery op polisiegeweld | Stop-en-vars rekords | Legewie (2016) |
Effek van 11 September 2001 oor gesinne en bure | Stemrekords en skenking rekords | Hersh (2013) |
Sosiale besmetting | Kommunikasie- en produkaannemingsdata | Aral, Muchnik, and Sundararajan (2009) |
Ter afsluiting is dit moeilik om oorsaaklike effekte uit nie-eksperimentele data te skat, maar benaderings soos natuurlike eksperimente en statistiese aanpassings (bv. Ooreenstem) kan gebruik word. In sommige situasies kan hierdie benaderings baie sleg gaan, maar wanneer dit noukeurig ontplooi word, kan hierdie benaderings 'n nuttige aanvulling wees op die eksperimentele benadering wat ek in hoofstuk 4 beskryf. Verder is hierdie twee benaderings waarskynlik waarskynlik baat by die groei van altyd- op, groot data stelsels.