Bisa sasarua-saruana percobaan nu urang gaduh moal atawa henteu tiasa ngalakukeun. Dua deukeut nu utamana kauntungan tina sumber data badag nu percobaan alam tur cocog.
Sababaraha patarosan ilmiah jeung kawijakan penting anu kausal. Contona, naon efek program latihan pakasaban kana gajih? A panalungtik ngusahakeun ngajawab sual ieu bisa ngabandingkeun earnings jelema anu ditandatanganan up keur latihan pikeun maranéhanana anu henteu. Tapi sabaraha tina sagala bédana di gajih antara grup ieu téh kusabab latihan jeung sabaraha nya kusabab béda preexisting antara jalma nu ngadaptarkeun saha jalma nu teu? Ieu patarosan hese, tur éta salah yen teu otomatis dileungitkeun jeung data nu leuwih lengkep. Kalayan kecap séjén, dina perhatian ngeunaan mungkin béda preexisting timbul euweuh urusan sabaraha pagawe anu di data Anjeun.
Dina loba kaayaan, cara neneng keur estimasi pangaruh kausal tina sababaraha perlakuan, kayaning latihan pakasaban, nya pikeun ngajalankeun hiji percobaan dikawasa randomized mana panalungtik a acak delivers perlakuan ka sababaraha urang teu batur. Kuring gé bakti sakabéh surah 4 nepi percobaan, jadi didieu Kaula bade difokuskeun dua strategi anu bisa dipaké kalawan data non-eksperimen. Strategi heula gumantung kana pilari hal lumangsung dina dunya yén acak (atawa ampir acak) nangtukeun perlakuan ka sababaraha urang teu batur. Strategi kadua gumantung kana data non-eksperimen statistik nyaluyukeun dina usaha akun pikeun preexisting béda antara jalma anu tuh na teu nampi perlakuan.
A skeptic bisa ngaku yen duanana strategi ieu kedah dihindari alatan maranéhna merlukeun asumsi kuat, asumsi anu hésé assess jeung éta, dina praktekna, anu mindeng dilanggar. Bari Kami karunya ka ngaku ieu, Jigana mana bit jauh teuing. Éta pasti leres yen hese reliably nyieun perkiraan kausal tina data non-eksperimen, tapi kuring teu ngarasa yen hartina urang pernah kedah nyobian. Dina sababaraha hal, geus deukeut non-eksperimen tiasa mantuan upami Konstrain logistik nyegah anjeun ti ngalakonan hiji percobaan atawa lamun konstrain etika hartosna nu teu hayang ngajalankeun hiji percobaan. Salajengna, deukeut non-eksperimen tiasa mantuan upami Anjeun hoyong ngamangpaatkeun data éta geus aya dina urutan mendesain percobaan dikawasa randomized.
Sateuacan dilajengkeun, éta ogé sia noting nu nyieun perkiraan kausal nya salah sahiji jejer paling pajeulit dina panalungtikan sosial, sarta salah sahiji anu bisa ngabalukarkeun perdebatan sengit jeung emosional. Dina naon kieu, abdi moal nyadiakeun hiji pedaran optimistis unggal pendekatan dina raraga ngawangun intuisi ngeunaan eta, teras abdi bakal ngajelaskeun sababaraha tantangan anu timbul lamun ngagunakeun pendekatan éta. rinci Salajengna ngeunaan unggal pendekatan anu sadia dina bahan di ahir surah ieu. Lamun rencanana ngagunakeun boh tina deukeut ieu dina panalungtikan sorangan, abdi kacida nyarankeun maca salah sahiji loba buku unggulan dina inferensi kausal (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Hiji pendekatan nyieun perkiraan kausal tina data non-eksperimen nyaeta néangan hiji acara nu geus acak ditugaskeun perlakuan ka sababaraha urang sarta teu batur. Kaayaan ieu disebut percobaan alam. Salah sahiji conto clearest tina percobaan alam asalna tina hasil panalungtikan ngeunaan Yosua Angrist (1990) ngukur pangaruh jasa militér dina earnings. Salila perang di Vietnam, Amerika Serikat ngaronjat ukuran kakuatan pakarang na ngaliwatan draf. Dina urutan mutuskeun nu belegug bakal disebut kana jasa, pamaréntah AS dilaksanakeun lotre a. Unggal tanggal kalahiran ieu ditulis dina salembar kertas, sarta, ditémbongkeun saperti dina gambar di 2,7, buah ieu kertas anu dipilih salah dina hiji waktu dina urutan nangtukeun urutan nu pamuda bakal disebut ngawula (awéwé ngora éta teu matuh teh mun dijujut ka). Dumasar hasil, lalaki dilahirkeun dina Séptémber 14 disebut heula, lalaki dilahirkeun dina April 24 disebut kadua, jeung saterusna. Pamustunganana, dina lotre ieu, lalaki dilahirkeun dina 195 dinten béda anu drafted, bari lalaki dilahirkeun dina 171 dinten éta teu.
Sanajan eta bisa jadi teu langsung katempo, draft lotre ngabogaan kasaruaan kritis ka percobaan dikawasa randomized: boh kaayaan, pamilon nu acak ditugaskeun pikeun nampa perlakuan a. Dina raraga diajar efek perlakuan randomized ieu, Angrist nyokot kauntungan tina hiji sistem data salawasna-on badag: US Administrasi Jaminan Sosial, nu ngumpulkeun informasi dina ampir earnings unggal Amérika urang ti pagawean. Ku ngagabungkeun inpo ngeunaan anu ieu acak dipilih di draf lotre jeung data earnings yén ieu dikumpulkeun dina rékaman administrasi wewenang, Angrist menyimpulkan yén earnings of veterans éta ngeunaan 15% kirang ti earnings of comparable non-veterans.
Salaku conto ieu illustrates, sakapeung pasukan sosial, politik, atanapi alam napelkeun perlakuan dina cara nu bisa leveraged ku peneliti, sarta sakapeung efek tina perlakuan ieu nu kawengku dina salawasna-on sumber data badag. Strategi panalungtikan bisa diringkeskeun kieu: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Pikeun ngagambarkeun strategi ieu dina umur digital, hayu urang nganggap ulikan ku Alexandre Mas sarta Enrico Moretti (2009) yén diusahakeun estimasi efek gawé bareng kolega produktif dina produktivitas a worker urang. Sateuacan ningali hasilna, éta sia ngarah kaluar nu aya ekspektasi conflicting anu bisa anjeun boga. Di hiji sisi, Anjeun bisa nyangka yén gawé bareng kolega produktif tangtu nuju worker pikeun ngaronjatkeun produktivitas nya kusabab tekanan peer. Atawa, di sisi séjén, Anjeun bisa nyangka yén ngabogaan peers keras gawe bisa ngakibatkeun worker ka slack kaluar kusabab pagawean bakal dilakukeun ku peers dirina baé. Cara clearest mun diajar épék peer on produktivitas ngalakukeunana janten percobaan dikawasa randomized dimana buruh nu acak ditugaskeun ka shifts kalayan buruh tina tingkat produktivitas béda lajeng produktivitas anu dihasilkeun diukur for everyone. Peneliti, kumaha oge, ulah ngadalikeun jadwal pagawé di mana wae bisnis riil, sarta jadi Mas sarta Moretti kapaksa ngandelkeun percobaan alam ngalibetkeun cashiers di supermarket hiji.
Dina supermarket tinangtu ieu, kusabab cara scheduling yén ieu dipigawé na jalan nu shifts tindih, unggal kasir tadi ko-pagawe béda dina waktu nu beda poé. Salajengna, dina supermarket tinangtu ieu, nu ngerjakeun of cashiers éta aya hubungan jeung produktivitas peers maranéhanana atawa kumaha sibuk toko éta. Kalayan kecap séjén, sanajan scheduling of cashiers teu ditangtukeun ku lotre a, ieu saolah-olah pagawe anu kadang ditugaskeun acak digawekeun ku tinggi (atawa low) peers produktivitas. Untungna, supermarket ieu ogé miboga sistem Checkout-umur digital nu dilacak item nu unggal kasir ieu scanning sepanjang waktos. Ti Checkout ieu data log, Mas sarta Moretti éta bisa nyieun hiji tepat, individu, sarta salawasna-on ukuran produktivitas: jumlah barang discan per detik. Ngagabungkeun dua ieu hal-éta kajadian alami variasi dina produktivitas peer sarta salawasna-on ukuran produktivitas-Mas sarta Moretti diperkirakeun yén lamun hiji kasir ieu ditugaskeun ko-pagawe anu éta 10% leuwih produktif ti rata, produktivitas dirina bakal ningkatkeun ku 1.5% . Salajengna, aranjeunna dipake ukuran na richness data maranéhna pikeun neuleuman dua isu penting: di heterogeneity tina pangaruh ieu (Kanggo nu rupa pagawé téh pangaruh nu leuwih gede?) Jeung mekanisme balik éfék (Naha henteu ngabogaan peers tinggi-produktivitas ngakibatkeun produktivitas luhur?). Urang bakal mulang ka ieu dua penting isu-heterogeneity of épék pengobatan sarta mekanisme-dina bab 4 lamun urang bahas percobaan dina leuwih jéntré.
Generalizing ti dua studi ieu, tabel 2.3 summarizes studi lianna nu boga struktur sarua ieu: ngagunakeun salawasna-on data sumber pikeun ngukur pangaruh sababaraha variasi acak. Dina prakték, peneliti make dua strategi béda pikeun nyungsi percobaan alam, boh nu tiasa fruitful. Sababaraha peneliti mimitian ku hiji salawasna-on data sumber na néangan acara acak di dunya; batur ngamimitian acara acak di dunya tur néangan sumber data nu newak dampak na.
fokus Substantive | Sumber percobaan alam | Salawasna-on data sumber | rujukan |
---|---|---|---|
Peer épék on produktivitas | prosés Scheduling | data Checkout | Mas and Moretti (2009) |
Wangunan silaturahim | Hurricanes | Phan and Airoldi (2015) | |
Sumebarna émosi | hujan | Lorenzo Coviello et al. (2014) | |
Peer-to-peer Mindahkeun ékonomi | lindu | duit data mobile | Blumenstock, Fafchamps, and Eagle (2011) |
kabiasaan konsumsi pribadi | 2013 shutdown pamaréntah AS | data keuangan pribadi | Baker and Yannelis (2015) |
dampak ekonomi sistem recommender | rupa-rupa | data browsing di Amazon | Sharma, Hofman, and Watts (2015) |
Pangaruh stres on babies unborn | 2006 perang Israel-Hizbullah | rékaman kalahiran | Torche and Shwed (2015) |
Maca kabiasaan dina Wikipedia | wahyu Snowden | Wikipedia log | Penney (2016) |
Peer épék on latihan | hawa | trackers kabugaran | Aral and Nicolaides (2017) |
Dina sawala jadi jauh ngeunaan percobaan alam, Kuring geus ditinggalkeun kaluar hiji titik penting: bade tina naon alam geus disadiakeun naon rék kadang bisa cukup tricky. Hayu urang balik deui ka Vietnam draf conto. Dina hal ieu, Angrist éta kabetot dina estimasi efek jasa militér dina earnings. Hanjakal, layanan militer teu acak ditugaskeun; rada dinya ieu keur nyusun nu ieu acak ditugaskeun. Sanajan kitu, teu sadaya jelema anu drafted dilayanan (aya rupa-rupa exemptions), sarta teu dulur anu dilayanan ieu drafted (jalma bisa volunteer ngawula). Kusabab keur nyusun ieu acak ditugaskeun, panalungtik bisa estimasi efek keur drafted pikeun sakabéh lalaki di draf teh. Tapi Angrist teu hayang nyaho pangaruh keur nyusun; manéhna hayang nyaho pangaruh porsi di militer. Nyieun estimasi ieu, kumaha ogé, asumsi tambahan sarta komplikasi anu diperlukeun. Mimiti, panalungtik kudu nganggap yen hijina cara nu keur nyusun earnings impacted nyaéta ngaliwatan layanan militer, hiji asumsi disebut wangenan pangaluaran. Anggapan ieu bisa jadi salah lamun, contona, lalaki anu drafted ari di sakola deui dina urutan ulah porsi atanapi lamun dunungan éta kurang kamungkinan kana nyewa lalaki anu drafted. Sacara umum, wangenan pangaluaran téh asumsi kritis, sarta éta biasana hésé pariksa. Malah lamun wangenan pangaluaran anu bener, eta anu masih mungkin keur estimasi efek layanan dina sagala lalaki. Gantina, tétéla yén peneliti ukur bisa estimasi éfék dina sawaréh husus ngeunaan lalaki disebutna compliers (lalaki anu bakal ngawula lamun drafted, tapi moal bakal ngawula lamun teu drafted) (Angrist, Imbens, and Rubin 1996) . Compliers kitu, éta teu populasi aslina dipikaresep. Bewara nu masalah ieu timbul malah dina hal rélatif bersih tina draf lotre. Hiji set salajengna tina komplikasi timbul nalika perlakuan henteu ditugaskeun ku lotre fisik. Contona, dina ulikan Mas sarta Moretti ngeunaan cashiers, patarosan tambihan timbul ngeunaan asumsi yén ngerjakeun of peers nyaeta dasarna acak. Lamun asumsi ieu anu niatna dilanggar, éta bisa bias perkiraan maranéhanana. Dicindekkeun, percobaan alam tiasa strategi kuat pikeun nyieun perkiraan kausal tina data non-eksperimen, jeung sumber data badag ngaronjatkeun pangabisa urang pikeun capitalize dina percobaan alam nalika aranjeunna lumangsung. Sanajan kitu, eta meureun ngabutuhkeun perawatan-na hébat kadang kuat asumsi-balik ti naon alam geus disadiakeun kana estimasi nu rék.
Strategi kadua Abdi hoyong ngabejaan Anjeun tentang pikeun nyieun perkiraan kausal tina data non-eksperimen gumantung kana data non-eksperimen statistik nyaluyukeun dina usaha akun pikeun preexisting béda antara jalma anu tuh na teu nampi perlakuan. Aya loba deukeut adjustment misalna, tapi kuring bakal difokuskeun salah disebut cocog. Dina cocog, panalungtik Sigana ngaliwatan data non-eksperimen keur nyieun pasang jalma anu sarupa iwal hiji geus narima perlakuan jeung salah boga teu. Dina prosés cocog, peneliti anu sabenerna ogé pruning; nyaeta, discarding kasus dimana aya euweuh cocok atra. Ku kituna, metoda ieu bakal jadi leuwih akurat disebut cocog-na-pruning, tapi kuring bakal lengket jeung istilah tradisional: cocog.
Hiji conto tina kakawasaan cocog strategi sareng sumber data non-eksperimen masif asalna tina ieu panalungtikan dina kabiasaan konsumen ku Liran Einav sareng kolega Anjeun (2015) . Maranéhanana resep auctions nyokot tempat di eBay, sarta di ngajéntrékeun karya maranéhanana, abdi gé difokuskeun efek lelang dimimitian harga on hasil lelang, kayaning harga diobral atawa kamungkinan diobral a.
Cara paling naif keur estimasi efek harga mimiti di harga diobral bakal saukur ngitung harga final pikeun auctions kalawan harga awal béda. pendekatan ieu bakal jadi rupa lamun hayang prediksi harga diobral dibere harga mimiti. Tapi lamun sual anjeun masalah pangaruh tina harga mimiti, teras pendekatan ieu bakal teu digawe sabab henteu dumasar kana babandinganana adil; nu auctions kalawan harga awal handap bisa jadi rada béda ti maranéhanana kalawan harga mimiti luhur (misalna, maranéhna bisa jadi pikeun tipena béda barang atawa kaasup tipena béda sellers).
Mun anjeun geus sadar tina masalah anu bisa timbul nalika nyieun perkiraan kausal tina data non-eksperimen, Anjeun bisa skip pendekatan naif jeung nganggap ngajalankeun hiji percobaan sawah dimana anjeun bakal ngajual hiji item-sebutkeun husus, mangrupa golf klub-ku tetep susunan lelang parameter-sebutkeun, pengiriman barang haratis sarta lelang buka salila dua minggu-tapi kalawan harga mimiti acak ditugaskeun. Ku ngabandingkeun hasil pasar anu dihasilkeun, percobaan widang ieu bakal nawarkeun ukur pisan jelas tina efek dimimitian harga on harga diobral. Tapi ukur kieu ngan bakal nerapkeun hiji produk husus tur nyetel parameter lelang. Hasilna bisa jadi béda, contona, pikeun tipena béda produk. Tanpa téori kuat, hese extrapolate tina percobaan single kieu ka rentang pinuh ku mungkin percobaan nu bisa geus ngajalankeun. Salajengna, percobaan sawah téh sahingga mahal nu bakal infeasible ngajalankeun unggal variasi nu bisa hayang nyobaan.
Kontras jeung deukeut naif jeung eksperimen, Einav sareng kolega Anjeun nyandak pendekatan katilu: cocog. The trik utama dina strategi maranéhanana nyaéta pikeun manggihan hal nu sarupa jeung percobaan sawah nu geus kajadian di eBay. Contona, angka 2.8 nembongkeun sababaraha 31 listings pikeun persis golf sarua klub-a Taylormade burner 09 Supir-keur dijual ku persis seller- sarua "budgetgolfer". Najan kitu, 31 listings ieu boga ciri rada beda, kayaning béda awal harga, kaping tungtung, sarta pengiriman barang waragad. Kalayan kecap séjén, éta saolah-olah "budgetgolfer" geus ngajalankeun percobaan pikeun peneliti.
listings ieu tina Taylormade burner 09 Supir keur dijual ku "budgetgolfer" téh salah sahiji conto tina susunan loyog tina listings, dimana nu item sarua pasti keur dijual ku seller sarua pasti, tapi unggal waktu jeung ciri rada béda. Dina log masif ti eBay aya sacara harfiah ratusan rébu tina susunan loyog ngalibetkeun jutaan listings. Ku kituna, tinimbang ngabandingkeun harga final pikeun sakabéh auctions ku harga mimiti dibikeun, Einav sareng kolega Anjeun dibandingkeun dina susunan loyog. Dina raraga ngagabungkeun hasil tina babandinganana dina ratusan ieu rébu tina susunan loyog, Einav sareng kolega Anjeun ulang dikedalkeun harga dimimitian jeung harga ahir dina watesan nilai rujukan unggal item (misalna harga diobral rata na). Contona, upami nu Taylormade burner 09 Supir kungsi nilai rujukan tina $ 100 (dumasar kana jualan na), lajeng anu harga mimiti di $ 10 bakal ditembongkeun salaku 0,1 sarta harga ahir $ 120 sakumaha 1.2.
Ngelingan yen Einav sareng kolega Anjeun éta kabetot dina efek harga mimiti di hasil lelang. Kahiji, aranjeunna dipaké régrési liniér keur estimasi nu harga mimiti luhur ngurangan kamungkinan diobral, sarta yén harga mimiti luhur kanaékan harga diobral final (kondisional dina diobral kajadian). Ku sorangan, perkiraan-mana ieu ngajelaskeun hubungan linier jeung nu averaged leuwih sagala produk-henteu kabeh anu metot. Lajeng, Einav sareng kolega Anjeun dipake ukuran masif data maranéhna pikeun nyieun rupa-rupa perkiraan leuwih halus. Contona, ku cara estimasi éfék misah pikeun rupa-rupa harga awal béda, maranéhna manggihan yén hubungan antara harga mimiti na harga diobral téh linier (inohong 2.9). Dina sababaraha hal, pikeun dimimitian harga antara 0.05 jeung 0,85, anu harga mimiti boga pisan saeutik dampak dina harga diobral, a Pananjung yén ieu sagemblengna lasut ku analisis kahiji maranéhanana. Salajengna, tinimbang averaging leuwih sadaya item, Einav sareng kolega Anjeun diperkirakeun dampak harga dimimitian pikeun 23 kategori béda barang (misalna suplai piaraan, éléktronika, sarta memorabilia olahraga) (inohong 2.10). perkiraan ieu némbongkeun yén item-misalna leuwih has sakumaha memorabilia-dimimitian harga miboga éfék leutik dina probabiliti diobral sarta éfék gedé dina harga diobral final. Salajengna, item-sapertos langkung commodified sakumaha DVD-harga mimiti boga ampir euweuh dampak dina harga final. Dina basa sejen, hiji rata nu ngagabungkeun hasil tina 23 kategori béda barang hides béda pentingna antara barang ieu.
Malah lamun teu utamana resep auctions on eBay, Anjeun kudu admire cara nu angka 2.9 jeung angka 2,10 tawaran pamahaman richer of eBay ti taksiran basajan nu ngajelaskeun hubungan linier jeung ngagabungkeun loba kategori béda barang. Salajengna, sanajan bakal jadi ilmiah mungkin keur ngahasilkeun ieu perkiraan leuwih halus jeung percobaan sawah, waragad nu bakal nyieun percobaan saperi dina dasarna teu mungkin.
Salaku kalawan percobaan alam, aya sababaraha cara nu cocog bisa ngabalukarkeun perkiraan goréng. Jigana nu perhatian pangbadagna kalayan perkiraan cocog nyaeta aranjeunna bisa bias ku hal anu teu dipaké dina cocog teh. Contona, dina hasil utama maranéhanana, Einav sareng kolega Anjeun teu pasti cocog di opat ciri: seller ID angka, kategori item, judulna item, sarta subjudul. Mun item éta béda dina cara nu teu dipaké pikeun cocog, teras ieu bisa nyieun hiji babandingan adil. Contona, upami "budgetgolfer" lowered harga pikeun Taylormade burner 09 Supir dina usum tiis (lamun klub golf anu kirang populer), mangka bisa muncul eta harga awal handap ngakibatkeun nurunkeun harga final, nalika dina kanyataanana ieu bakal janten hiji artefak ngeunaan variasi musiman di paménta. Hiji pendekatan ka alamat perhatian ieu nyobian rupa-rupa béda nu cocog. Contona, Einav sareng kolega Anjeun ngulang analisis maranéhna bari varying jandéla waktu dipaké pikeun cocog (susunan loyog kaasup barang diobral dina sataun, dina sabulan, sarta contemporaneously). Untungna, aranjeunna kapanggih hasil sarupa pikeun sakabéh jandéla waktos. A perhatian salajengna kalayan cocog timbul tina interpretasi. Perkiraan tina cocog ngan dilarapkeun ka data loyog; aranjeunna teu dilarapkeun ka kasusna nu teu bisa loyog. Contona, ku cara ngawatesan panalungtikan maranéhna pikeun barang anu ngalaman sababaraha listings, Einav sareng kolega Anjeun keur fokus dina sellers profésional sarta semi-profésional. Ku kituna, nalika alih basa babandinganana ieu urang kudu inget yén maranéhna ngan dilarapkeun ka sawaréh ieu eBay.
Cocog nyaeta strategi kuat pikeun nyungsi babandinganana adil dina data non-eksperimen. Pikeun loba élmuwan sosial, cocog karasaeun kadua pangalusna pikeun percobaan, tapi nu aya kapercayaan nu bisa dirévisi, rada. Cocog dina data masif bisa jadi hadé ti sajumlah leutik percobaan sawah nalika (1) heterogeneity di épék penting na (2) variabel nu penting nu diperlukeun pikeun cocog geus diukur. Tabél 2.4 nyadiakeun sababaraha conto sejenna tina sabaraha cocog bisa dipaké kalawan sumber data badag.
fokus Substantive | sumber data badag | rujukan |
---|---|---|
Efek shootings on kekerasan pulisi | Ngeureunkeun-na-frisk rékaman | Legewie (2016) |
Efek 11 Séptémber 2001 dina kulawarga jeung tatanggana | rékaman voting jeung rékor tutulung | Hersh (2013) |
contagion sosial | Komunikasi jeung nyoko produk data | Aral, Muchnik, and Sundararajan (2009) |
Dina kacindekan, estimasi épék kausal tina data non-eksperimen hese, tapi ngadeukeutan kayaning percobaan alam na pangaluyuan statistik (misalna cocog) bisa dipaké. Dina sababaraha kaayaan, deukeut ieu bisa balik parah salah, tapi lamun deployed taliti, deukeut ieu tiasa janten pelengkap mangpaat ka pendekatan eksperimen nu kuring ngajelaskeun dina bab 4. Salajengna, dua pendekatan ieu sigana utamana dipikaresep kauntungan tina tumuwuhna always- on, sistem data badag.