Gutxi ez ditugun esperimentuak hurbildu ditzakegu. Bi datu-iturri handietatik bereziki aprobetxatzen diren bi ikuspegi esperimentalak eta bateragarriak dira.
Zenbait zientzia eta politikaren inguruko galdera garrantzitsuak kausak dira. Adibidez, zer lan-prestakuntza programa alokairuen gaineko eragina da? Galdera horri erantzuten saiatzen den ikertzaile batek ez zituenei prestakuntza emateko erregistratutako pertsonen irabaziak alderatu zituen. Baina talde horientzako alokairu desberdinetako zenbatekoak entrenamenduarengatik eta zeinek ez baitira sinatzen duten pertsonen arteko antzinatasunengatik? Galdera zaila da hau eta ez da automatikoki datu gehiago ateratzen. Beste era batera esanda, lehendik dauden ezberdintasun posibleei buruzko kezkak ez du axola zenbat langile zure datuetan daude.
Egoera askotan, tratamendu baten kausazko efektua kalkulatzeko modurik indartsuena, hala nola lan prestakuntza, ausazko kontrolatutako esperimentu bat da, non ikertzaileak ausaz tratatzen du pertsona batzuen eta besteen artean tratamendua. 4. kapituluan esperimentuei eskainiko ditut, beraz, datu esperimentalekin erabil dezakezun bi estrategia bideratuko ditut. Lehenengo estrategia munduan gertatzen den zerbait bilatzen saiatzen da, ausaz (edo ia ausaz) pertsona batzuei eta ez besteei tratatzeko. Bigarren estrategia datu ez-esperimentalak estatistikoki doitzen dira, eta tratamendua jaso eta tratamendua ez zuten artean desberdintasunak aurrezten saiatu ziren.
Eszeptiko batek esaten du estrategia horiek bi saihestu behar direla, hipotesi indartsuak behar dituztelako, ebaluatzeko zaila duten hipotesi eta praktikan sarritan urratzen direla. Erreklamazio honen jatorra naizen bitartean, pixka bat urrunegi doala iruditzen zait. Zalantzarik gabe, zaila da datu ez-esperimentalen estimazio kausala bideratzea zaila dela, baina ez dut uste hori inoiz frogatu behar dugula. Batez ere, planteamendu ez-esperimentalak lagungarriak izan daitezke, baldintza logistikoek saiakera bat egiten badute saihesten badute edo mugak etikoak direla esan nahi ez baduzu esperimentu bat exekutatu nahi. Gainera, planteamendu ez-esperimentalak lagungarriak izan daitezke ausazko kontrolatutako esperimentu bat diseinatzeko dagoeneko existitzen diren datuak aprobetxatu nahi badituzu.
Aurrera egin aurretik, kontuan hartu beharra dago kausazko estimazioak ikerketa sozialeko gai konplexuenetakoak direla eta eztabaida bizia eta emozionala sor dezakeenik. Ondoren, hurbiltze bakoitzaren deskribapen baikor bat emango dut horri buruz intuizioa eraikitzeko, ondoren planteamendu hori erabiltzen duten erronketako batzuk deskribatuko ditut. Ikuspegi bakoitzari buruzko xehetasun gehiago kapitulu honen amaieran dauden materialetan daude erabilgarri. Ikuspegi horietako edozein zure ikerketetan erabiltzeko asmoa baduzu, gomendatzen dut inferentzia kausatiboari buruzko liburu bikain bat irakurtzea (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Datu ez-esperimentalen kausazko estimazioak egiteko hurbilketa bat pertsona batzuentzako tratamendua ausaz esleitu zaion ekitaldi bat bilatzen du eta ez besteei. Egoera horiek esperimentu naturalak deritze. Esperimentu naturaren adibide argienetako bat Joshua Angrist (1990) ikerketan oinarritzen da, zerbitzu militarrak irabazien eragina neurtuz. Vietnamgo gerran, Estatu Batuek indar armatuen tamaina handitu zuten zirriborro baten bidez. Herritarrek zerbitzu hori deitzea erabakitzeko, AEBetako gobernuak loteria bat egin zuen. Jaiotze-data bakoitza paperean idatzi zen, eta 2.7 irudian ikusten den bezala, paper horiek aldi berean hautatuak izan ziren, gizonezko gazteei zerbitzatzeko deituko zitzaien ordena zehazteko (emakume gazteak ez ziren subjektuak zirriborroa). Emaitzetan oinarrituta, irailaren 14an jaiotako gizonak lehen deitzen ziren, apirilaren 24an jaiotako gizonak bigarren deitzen zitzaizkien, eta abar. Azkenean, loteria horretan, 195 egun ezberdinetan jaiotako gizonak idatzi ziren, 171 egunetan jaiotako gizonak ez zeuden.
Nahiz eta agian ezinezkoa izan, proiektu baten loteriak aleazio kontrolatutako esperimentu baten antzekotasun kritikoa du: bi egoeretan, parte-hartzaileek tratamendu bat jasotzerakoan ausaz esleitzen zaie. Aztertutako ausazko tratamenduaren eragina aztertzeko, Angrist-ek sistema datuen sistema beti aprobetxatu zuen: AEBetako Gizarte Segurantzako Administrazioa, ia-ia American enpleguaren irabaziak jasotzen dituen informazioa biltzen duena. Lotura proiektuan ausaz aukeratutako norbanakoaren inguruko informazioa nahastuz, gobernu-erregistro administratiboetan jasotako datuen arabera, Angristek ondorioztatu zuen beteranoen irabaziak ez zirela alargunen konparagarrien irabazien% 15 baino gutxiago.
Adibide gisa, batzuetan, gizarte, politika edo indar naturalek tratamenduak ikertzaileek leundu egiten diete tratamenduak, eta, batzuetan, tratamendu horien ondorioak datu-iturri handietan beti harrapatzen dira. Ikerketa-estrategia hau honela labur daiteke: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Aro digitalean estrategia hau argitzeko, aztertu Alexandre Mas eta Enrico Moretti (2009) lanak langile baten produktibitatearekin lankide produktiboekin lan egiteko duen eragina aztertzea. Emaitzak ikusi aurretik, azpimarratu beharra dago agian izan ditzakezun itxaropen kontrajarriak. Alde batetik, lankide produktiboekin lan egitea espero liteke langile batek bere produktibitatea areagotzea peer presioa dela eta. Edo, bestalde, espero litzaidake langile gogorrak edukitzea langile bat alferrik izan dadin, hala ere bere kideek egindako lana egingo da. Eraginkortasunean duten eragina aztertzeko bide argiena ausazko kontrolatutako esperimentua izango litzateke, langileek produktibitate maila desberdinetako langileekin txandaka ausaz esleitutakoak eta, ondorioz, produktibitatea guztiontzat neurtzen da. Ikertzaileek, ordea, ez dute inolako negozio errealeko langileen ordutegia kontrolatzen, eta, beraz, Mas eta Morettik supermerkatuan kutxazainek esperimentazio naturala behar dute.
Supermerkatu berezian, ordutegiak egiteko modua eta mugitutako bidea bata bestearen gainean jarrita, kutxazain bakoitzak eguneko ordu desberdinetan lan egin zuen. Gainera, supermerkatu honetan, kutxazainen esleipena ez zen zerikusirik beren ikaskideen produktibitatearekin edo lanpetuta zen denda. Beste era batera esanda, kutxazainen programazioa ez zen loteriarik zehaztu, nahiz eta langileek ausaz esleitu zitzaien ekoizpen altuko (edo txikia) kideekin lan egiteko. Zorionez, supermerkatuak ere digitalki adineko ordainketa sistema bat izan zuen, kutxazaina bakoitza eskaneatzen zitzaien egunak jarraituz. Egiaztapen-egunkariaren datuetatik aurrera, Mas eta Moretti-k produktibitatearen neurri zehatzak, banakakoak eta beti-bat sortu ahal izan dituzte: bigarren eskaneatutako elementu kopurua. Bi gauza hauek konbinatuz: peer produktibitatearen eta produktibitatearen neurrian beti gertatzen diren aldakuntzak, Mas eta Morettik estimatzen zuten kutxazaina batez besteko produktiboa baino% 10 handiagoa zela, produktibitatea% 1,5 hazi zela. . Gainera, datuen tamaina eta aberastasuna bi gai garrantzitsu biltzen dituzte: efektuaren heterogeneotasuna (zein motatako langileek eragin handiagoa izan dezakete?) Eta efektuaren atzean dauden mekanismoak (zergatik gertatzen da goi-produktibitatearen kideek? handiagoa produktibitatea?). Bi gai garrantzitsuren berri emango dugu: tratamenduaren efektuak eta mekanismoen heterogeneotasuna. 4. kapituluan, xehetasun gehiagoz aztertzen ditugu.
Bi ikasketa horien bidez generalizatuz, taula 2.3 egitura bera duten beste ikasketak laburbiltzen ditu: datu-iturri beti bat erabiliz ausazko aldakuntza batzuen eragina neurtzeko. Praktikan, ikertzaileek bi estrategia ezberdin erabiltzen dituzte esperimentu naturalak aurkitzea, biak emankorrak izan daitezen. Ikertzaile batzuek beti datu-iturri izaten jarraitzen dute eta munduan ausazko gertaerak bilatzeko; Beste batzuek ausazko gertaera bat hasten dute munduan eta bere eragina harrapatzen duten datu iturriak bilatzen dituzte.
Substantzia foku | Esperimentu naturalaren iturria | Beti datu-iturburuan | Erreferentzia |
---|---|---|---|
Peer produktibitatearen gaineko ondorioak | Programazio prozesua | Egiaztatu datuak | Mas and Moretti (2009) |
Adiskidetze eraketa | urakanak | Phan and Airoldi (2015) | |
Emozioak zabaltzea | Euri | Lorenzo Coviello et al. (2014) | |
Peer-to-peer transferentziak ekonomikoak | Lurrikara | Dirua mugikorreko datuak | Blumenstock, Fafchamps, and Eagle (2011) |
Kontsumo pertsonala portaera | 2013ko AEBetako gobernuak itzaltzea | Finantza pertsonalen datuak | Baker and Yannelis (2015) |
Gomendio sistemen eragin ekonomikoa | Hainbat | Arakatu datuak Amazon-en | Sharma, Hofman, and Watts (2015) |
Haurdun dauden unborn estresaren efektua | 2006 Israel-Hezbollah gerra | Jaiotzaren erregistroak | Torche and Shwed (2015) |
Irakurketa jokabidea Wikipedia | Snowden errebelazioak | Wikipediako erregistroak | Penney (2016) |
Peer efektuak ariketan | Eguraldia | Fitness jarraitzaileak | Aral and Nicolaides (2017) |
Esperimentu naturalei buruzko eztabaidan, puntu garrantzitsu bat utzi dut: zer nahi duen eskaintzen dizunetik zerbait zaila izan daiteke. Dezagun Vietnam proiektu zirriborroa itzultzeko. Kasu honetan, Angristek soldataren zerbitzu militarrak eragina kalkulatu nahi zuen. Zoritxarrez, zerbitzu militarra ez zen ausaz esleitu; baizik eta ausaz esleitu zitzaion. Hala eta guztiz ere, ez ziren idazkiak prestatzen (salbuespen ugari zeuden), eta zerbitzariko guztiek ez zuten idatzi (jendeak zerbitzatu nahi zuen). Zirriborroa izendatu gabe zegoenez, ikertzaile batek zirriborroa egiteko borondatearen ondorioa kalkulatu ahal izango du. Baina Angristek ez zuen nahi zirriborroa zer den jakin nahi; militarren zerbitzurako eragina ezagutu nahi zuen. Aurrekontua egiteko, ordea, hipotesi eta konplikazioak osagarriak behar dira. Lehenik eta behin, ikertzaileek gain hartu behar dute lanbide militarraren bidez egiten ari den modu bakarra, bazterkeriaren murriztapena deitzen zaiola . Aurreikuspen hau oker egongo balitz, adibidez, idatzitako gizonek eskolan geratu ziren gehiago, zerbitzura saihesteko edo enpresaburuek ez baitzuten aukeratutako gizonak kontratatu. Oro har, bazterkeriaren murrizketa hipotesi kritikoa da, eta normalean zaila da egiaztatzea. Nahiz eta bazterkeriaren murriztapena zuzena izan, ezinezkoa da gizonezko guztiek zerbitzuaren efektua kalkulatzea. Horren ordez, ikerlariek ikertzaileek deitzen duten gizonezko azpimultzo baten efektua bakarrik gaineratzen dutela uste dute (gizonak zirriborroak egiteko balioko lukeenean, baina ez lukete zirriborratuta egongo) (Angrist, Imbens, and Rubin 1996) . Konplimenduak, ordea, ez ziren jatorrizko biztanleriaren interesak. Kontuan izan arazo horiek zirriborro borondatearen kasuan nahiko garbi dagoela. Beste konplikazio multzo bat sortzen da loteria fisiko batek tratamendua ezartzen duenean. Adibidez, Mas eta Moretti-k kutxazainen azterketan, galdera osagarriak sor ditzakegu, parekoen esleipena, funtsean, ausazko moduan. Suposizio hori biziki hausten bada, estimazioak alboratu ahal izango lituzke. Amaitzeko, esperimentu naturalek datu esperimentalak ez diren datu kausalen kalkuluak egiteko ahalmena izan dezakete, eta datu-iturri handiek gertakari naturalak kapitalizatzeko gaitasuna areagotzen dute. Hala eta guztiz ere, beharbada, arreta handiz eta batzuetan hipotesi sendoak behar dira, nahi duzun estimazioari ematen zaizkionak.
Bigarren estrategia, esate baterako, datu esperimentalak ez diren datu kalkuluen arabera zenbaterainokoa den ezartzen du datu esperimentalak ez diren datuen arabera. Horrela, ez zuten tratamendua jaso eta ez zuten arteko ezberdintasunak kontuan hartu. Asko daude doikuntza-planteamendu horrelakoetan, baina bat datozen bat datozen bideratuko dut. Baterakoan, ikertzaileak datu ez-esperimentalak biltzen ditu antzekoak diren pertsonen pareak sortzeko, tratamendua jaso ez duen eta ez duela izan. Egokitzapen prozesuan, ikertzaileek inausketa ere egiten dute ; hau da, bazterturik dauden kasuetan baztertzen ez badira. Horrela, metodo hau zehatzago esanda lotzea eta inausketa izango litzateke, baina termino tradizionalarekin bat dator: bat datorrenarekin.
Datuen iturri ez-esperimental masiboen estrategiak bateratzeko boterearen adibide bat Liran Einavek eta lankideek (2015) kontsumitzaileen portaeraren inguruko ikerketatik dator. Enkanteak eBay-n egoteaz arduratzen ziren eta lanaren deskribapenean enkantean hasitako prezioa enkantean lortzen zen, hala nola salmenta prezioa edo salmentaren probabilitatea.
Salmenta prezioaren hasieraren eragina kalkulatzeko modu inozoa prezioen hasierako prezioekin azken enkanteen prezioa kalkulatzea besterik ez litzateke izango. Hurbilketa hau oso erraza izango litzateke hasierako prezioaren salmenta prezioa aurreikustea nahi baduzu. Baina zure galdera hasierako prezioaren eragina baldin bada, orduan ikuspegi hori ez da egongo arrazoizko konparazioetan oinarritzen ez delako; hasierako prezio baxuagoak dituzten enkanteak oso desberdinak izan daitezke hasierako prezio handiagoekin (adibidez, ondasun mota desberdinetakoak izan daitezke edo saltzaile mota desberdinak barne).
Datu esperimentalen kausazko estimazioak egitean sor daitezkeen arazoak jakitun badituzu, inozokeria hurbiltzea komeni da eta eremu esperimental bat exekutatzen baduzu, elementu zehatz bat saltzen duzun esate baterako: golf klub bat, finkoa enkanteen parametroen multzoak, esate baterako, doako bidalketa eta enkantean bi astetan irekita dago, baina aurrez esleitutako ausazko esleipenekin. Ondoriozko merkatuaren emaitzak alderatuz, eremu esperimentuak salmentaren prezioaren hasierako efektuaren neurketa oso zehatza eskaintzen du. Baina neurri hori produktu jakin bati eta enkantearen parametroei bakarrik aplikatuko zaie. Emaitzak ezberdinak izan daitezke, adibidez, produktu mota desberdinetarako. Teoria indartsurik gabe, zaila da esperimentu bakun horretatik estrapeztatzea esperimentazio posible posible guztietatik ateratzea. Gainera, eremu esperimentuak nahikoa garestiak dira, ezinezkoa izango litzateke saiatu nahi izatea.
Hurbilketa naive eta esperimentalekin alderatuta, Einavek eta lankideek hirugarren ikuspegi bat hartu zuten: lotzea. Bere estrategia trikimailu nagusia eBay-ekin gertatu diren eremu esperimentuen antzeko gauzak ezagutzea da. Esate baterako, 2.8 irudian agertzen diren 31 zerrendak zehazki golf klub berekoak dira, adibidez, Taylormade Burner 09 Driver-a saltzaile bera ("budgetgolfer") saltzen dute. Hala ere, 31 zerrendek ezaugarri apur bat dute, esate baterako, hasieratik prezioa, amaiera data eta bidalketa-tasak. Hau da, "budgetgolfer" ikertzaileentzat esperimentuak exekutatzen ari den bezala balitz bezala da.
Taylormade Burner 09 Driver-en zerrendak hauek "budgetgolfer" saltzen dira zerrendatutako multzoa, non zehatza bera saltzen den saltzaile zehatza saltzen duen, baina aldi bakoitzean ezaugarri apur batekin. EBay-ko erregistro masiboen barruan milioika zerrendak biltzen dituzten ehunka mila literalki daude. Horrela, hasierako prezioarekin hasierako enkante guztien azken prezioaren aldean, Einavek eta lankideek konparatutako multzoen arabera konparatu zuten. Konbinazioen emaitzak konbinatzeko, ehunka mila multzo konbinatuen artean konbinatzeko, Einavek eta lankideek behin-behineko prezioa eta azken prezioa adierazten dute elementu bakoitzaren erreferentziazko balioaren arabera (adibidez, bere batez besteko salmenta prezioa). Adibidez, Taylormade Burner 09 Driver-ek 100 $ -ko erreferentzia-balioa izan zuen (salmenten arabera oinarrituta), $ 10-ren hasierako prezioa, 0,1ekoa eta $ 120koa, 1.2.
Gogoratu Einavek eta lankideek prezioen eragina enkantearen emaitzetan duten eragina. Lehenik eta behin, erregresio lineala erabili zuten hasierako prezio altuagoak salmentaren probabilitatea txikitzen dutela eta hasierako prezioen igoerak azken salmenta prezioa areagotzen duela (salmenta gertatzen den baldintzapean). Alde batetik, estimazio horiek -relazio lineala deskribatzen dutenak eta produktuen batezbestekoak dira- ez dira interesgarria. Ondoren, Einavek eta lankideek datuen tamaina masiboa erabili zuten estimazio sotilagoak sortzeko. Esate baterako, hasierako prezio desberdinetako efektua kalkulatzeko, prezioa eta salmenta prezioaren arteko erlazioa ez da lineala (2.9 irudia). Batez ere, 0,05 eta 0,85 arteko prezioei eustea, hasierako prezioek salmenta prezioan eragin txikia dute eta lehenengo analisiaren ondorioz galdu egiten da. Gainera, elementu guztien gaineko batez bestekoaren gainetik, Einavek eta lankideek 23 item mota desberdinen (adibidez, maskota hornidurak, elektronika eta kirol memorabilia) prezioaren eragina kalkulatzen dute (2.10. Irudia). Kalkuluen arabera, elementu bereizgarrienak -esaterako, memorabilia-hasierako prezioek eragina txikiagoa dute salmenta probabilitatean eta azken salmenta prezioan eragina handiagoa izan dezaten. Gainera, elementu komertzialak (adibidez, DVDak), hasierako prezioak ez du inolako eraginik azken prezioan. Bestela esanda, 23 elementu desberdinen emaitzak konbinatzen dituen batez bestekoa elementu hauen arteko ezberdintasun garrantzitsuak ezkutatzen ditu.
Etorkizunean eBay enkanteetan bereziki interesgarria ez bazara ere, 2.9 irudian eta 2.10. Irudian mirestea komeni zaizu, eta lineako harremana deskribatzen eta elementu desberdin asko konbinatzen dituzten estimazio sinpleak eskaintzen ditu. Gainera, zientifikoki posible izango lirateke kalkulu sotilagoak sorrarazteko esperimentuekin, kostuak, esaterako, ezinezkoak izango lirateke.
Esperimentazio naturalekin gertatzen den moduan, estimazio txarrak ekar ditzaketen zenbait modu daude. Uste dut kupoekin bat datorren kezka handiena dela bat datozenekin ez datozen gauzen bidez alda daitekeela. Esate baterako, Einav eta lankideek emaitza nagusietan, lau ezaugarri zehaztu dituzte: saltzailearen identifikazio zenbakia, elementu kategoria, elementu titulua eta azpititulua. Elementuak ez datoz bat modu ezberdinetan bat etortzeko erabiltzen ez bada, hau desleiala konparaketa bat sor dezake. Esate baterako, "budgetgolfer" Taylormade Burner 09 gidariaren prezioak jaitsi egin ziren neguan (golf klubak gutxiago ezagunak direnean). Ondoren, beheko hasierako prezioak azken prezio txikiagoak ekarriko lirateke, hau da, hain zuzen ere, eskariaren aldakuntza sasoian. Kezka horri aurre egiteko planteamendu bat nahasketa mota desberdinak probatzen ari da. Esate baterako, Einavek eta lankideek analisiak egiten zituzten aldizkariaren arabera erabiltzen den denbora-tartea aldatu egin zen (bat datorren multzoak salgai dauden elementuak barne, urtebeteko epean, hilabeteko epean eta aldi berean). Zorionez, denbora-tarte guztietan, antzeko emaitzak aurkitu dituzte. Interpretazioarekin bat datorren beste kezka bat sortzen da. Lotutako kalkuluen arabera, bat datozen datuak bakarrik aplikatuko dira; ezingo lirateke bat datozen kasuetan aplikatu. Esate baterako, beren ikerketa zerrendak baino gehiago dituzten elementuak mugatuz, Einavek eta lankideek saltzaile profesional eta erdi profesionalak dituzte. Horrela, konparazio horiek interpretatzean, gogoratu behar dugu eBay azpisektore honi soilik aplikatzen zaizkiela.
Partekatzea ez da datu esperimentalen bidezko konparazioak aurkitzea ahalbidetzen duen estrategia indartsua. Gizarte zientzialari askorentzat, bat etortzeak bigarren esperimentu onak izaten ditu, baina hori berrikusi daitekeen sinesmena da. Datu masiboetan bat etortzea eremu esperimentu kopuru txiki bat baino hobea izan daiteke (1) efektuetan heterogeneotasuna garrantzitsua denean eta (2) bat datozen beharrezko aldagai garrantzitsuak neurtu dira. 2.4 taulan beste datu batzuk eskaintzen dira datuen iturri nagusiekin lotzeko.
Substantzia foku | Big datu-iturburua | Erreferentzia |
---|---|---|
Poliziaren indarkeriari buruzko tiroketak | Stop-eta-frisk erregistroak | Legewie (2016) |
2001eko irailaren 11ko efektua, familiak eta bizilagunak | Voting records and donation records | Hersh (2013) |
Kontzientzi soziala | Komunikazioa eta produktuaren adopzio datuak | Aral, Muchnik, and Sundararajan (2009) |
Ondorioz, datu ez-esperimentalen ondorio kausalak kalkulatzea zaila da, baina esperimentu naturalak eta estatistiken doikuntzak (adibidez, lotzea) bezalako planteamenduak erabil daitezke. Egoera batzuetan, ikuspegi horiek gaizki gaizki joan daitezke, baina arreta handiz zabaltzen denean, planteamendu horiek ikuspegi 4. kapituluan deskribatzen den irizpide esperimentalerako osagarri baliagarria izan daiteke. Gainera, bi planteamendu horiek beti bereziki litekeena izaten dute beti- on, datu sistema handiak.