Kita bisa nyedhaki percobaan sing durung utawa ora bisa dilakoni. Loro pendekatan sing utamané entuk manfaat saka sumber data sing gedhé yaiku percobaan alam sing cocog.
Sawetara pitakonan ilmiah lan kabijakan sing penting yaiku nyebabake. Contone, apa efek program latihan proyek babagan upah? Panaliti sing nyoba njawab pitakonan iki bisa mbandhingake penghasilan saka wong sing mlebu kanggo latihan sing ora. Nanging pira-pira wae prabédan ing upah antarane kelompok iki amarga latihan lan carane akeh amarga beda beda antarane wong sing mlebu lan sing ora? Iki minangka pitakonan sing angel, lan iku ora kanthi otomatis ngilangi data liyane. Ing tembung liyane, keprigelan babagan kemungkinan preexisting sing ana ora ana prastawa manawa buruh ing data sampeyan.
Ing akeh kahanan, cara paling kuat kanggo ngira pengaruh akibat saka sawetara perawatan, kayata latihan proyek, yaiku kanggo nglakoni eksperimen terkontrol acak ing endi peneliti sacara acak ngirimake perawatan menyang sawetara wong lan ora liya. Aku arep nyedhiyakake kabeh bab 4 menyang eksperimen, supaya kene aku bakal fokus ing rong strategi sing bisa digunakake karo data non-eksperimen. Strategi kapisan gumantung marang looking for something happening in the world sing sacara acak (utawa kanthi acak sacara acak) menehi perawatan kanggo sawetara wong lan ora liya. Strategi kapindho gumantung marang statistika nyetel data non-eksperimental ing upaya ngetrapake beda-beda ing antarane sing nindakake lan ora nampa perawatan.
A skeptik bisa uga nyatakake yen strategi kasebut kudu nyingkiri amarga dheweke mbutuhake asumsi sing kuat, asumsi sing angel ditaksir lan, ing laku, asring dilanggar. Nalika aku bersimpati karo tuntutan iki, aku dadi rada adoh. Iku pancen bener sing angel kanggo anduweni nggawe estimasi nyebabake saka data non-eksperimen, nanging aku ora mikir sing tegese kita kudu nyoba ora. Utamane, pendekatan non-eksperimental bisa mbiyantu yen watesan logistik nyegah sampeyan nglakoni eksperimen utawa yen watesan etis tegese sampeyan ora pengin nglakokake eksperimen. Luwih, pendekatan ora eksperimen bisa mbiyantu yen sampeyan pengin nggunakake kauntungan saka data sing wis ana kanggo ngrancang eksperimen terkontrol acak.
Sadurunge nerusake, uga kudu dicathet yen ngakibatake perkawis kausal minangka salah sawijining topik paling komplit ing riset sosial, lan siji sing bisa nyebabake debat sing kuat lan emosional. Ing ngisor iki, aku bakal nyedhiyani gambaran sing optimis ing saben pendekatan kanggo mbangun intuisi babagan, banjur aku bakal nggambarake sawetara tantangan sing muncul nalika nggunakake pendekatan kasebut. Rincian luwih lengkap babagan saben pendekatan kasedhiya ing bahan ing pungkasan bab iki. Yen sampeyan nggunakake salah sijine pendekatan kasebut ing riset dhewe, aku saranake maca salah sawijining buku akeh banget babagan kesimpulan (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Salah sawijining pendekatan kanggo nggawe estimasi kausal saka data sing ora eksperimen yaiku kanggo nggoleki acara sing wis dituduhake kanthi acak kanggo sawetara wong lan ora kanggo wong liya. Kahanan iki disebut minangka eksperimen alami . Salah sijine conto sing jelas ing eksperimen alami yaiku saka riset Joshua Angrist (1990) ngukur pengaruh layanan militer marang penghasilan. Sajrone perang ing Vietnam, Amerika Serikat nambah ukuran angkatan bersenjata kanthi konsep. Kanggo nemtokake warga sing bakal kasebut layanan, pamaréntah AS nganakaké lotere. Saben tanggal lair ditulis ing selembar kertas, lan, kaya sing dituduhake ing gambar 2.7, potongan-potongan kertas kasebut dipilih siji ing saben waktu kanggo nemtokake supaya wong nom-noman kasebut bakal ditelpon (wanita nom-noman ora tundhuk kanggo konsep). Adhedhasar asil, pria lair tanggal 14 September diarani sing luwih dhisik, wong lanang sing dilahirake tanggal 24 April diarani kapindho, lan sateruse. Wekasane, ing lotre iki, wong lanang sing dilahirake dina 195 dina beda padha, nanging wong lanang sing dilahirake dina 171 dina ora.
Senajan ora bisa dituduhake kanthi cepet, lotre konsep nduweni kamiripan kritis menyang eksperimen terkontrol acak: ing rong situasi, para peserta kanthi acak ditugasake kanggo nampa perawatan. Kanggo sinau efek saka perawatan acak iki, Angrist njupuk kauntungan saka sistem data amba: US Social Security Administration, sing ngumpulake informasi babagan sakbenere kabeh penghasilan saka perusahaan saka lapangan kerja. Kanthi nggabungake informasi babagan sing dipilih kanthi acak ing lotre konsep kanthi data pangasilan sing dikumpulake ing cathetan administratif pamaréntah, Angrist nyimpulake yen penghasilan para veteran kurang luwih 15% saka pendapatan non-veteran sing padha.
Minangka conto iki sing digambarake, kadhangkala sosial, politik, utawa pasukan alam menehi perawatan kanthi cara sing bisa dimanfaatake dening peneliti, lan kadhangkala efek saka pangobatan kasebut dijupuk ing sumber data amba. Strategi panaliten iki bisa diringkes kaya ing ngisor iki: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Kanggo nggambarake strategi iki ing jaman digital, ayo nyinaoni studi dening Alexandre Mas lan Enrico Moretti (2009) sing nyoba kanggo ngira pengaruh kerja karo kolega produktif ing produktivitas buruh. Sadurunge mirsani asil kasebut, perlu dituduhake yen ana pangarep-arep sing benten sing sampeyan bisa duwe. Ing tangan siji, sampeyan bisa nyana yen nggarap kolega produktif bakal mimpin pekerja kanggo nambah produktivitas dheweke amarga tekanan peer. Utawa, ing tangan liyane, sampeyan bisa nyangka yen gadhah kanca-kanca sing kerja keras bisa mimpin sawijining pekerja kanggo ngurangi amarga karya kasebut bakal rampung dening kanca-kancane. Cara paling jelas kanggo sinau babagan efek peer ing produktivitas bakal dadi eksperimen terkontrol acak ing ngendi buruh kasebut kanthi acak ditugasake kanggo mindahake karo buruh tingkat produktivitas sing beda-beda lan produktivitas sing diasilake kanggo kabeh wong. Nanging, panaliti ora ngontrol jadwal buruh ing bisnis sejatine, lan Mas lan Moretti kudu ngandut eksperimen alam sing nglibatake kasir ing supermarket.
Ing supermarket tartamtu, amarga cara penjadwalan rampung lan cara sing ganti tumpang tindih, saben kasir nduweni rekan kerja beda ing wektu sing beda-beda. Luwih, ing supermarket tartamtu iki, penugasan kasir ora ana hubungane karo produktivitas kanca-kancane utawa cara sibuk toko kasebut. Ing tembung sanès, sanadyan penjadwalan kasir ora ditemtokake dening lotere, kaya pagawean kadhangkala kanthi acak ditugasake kanggo nggarap rekan produktivitas dhuwur (utawa kurang). Mesthi wae, supermarket iki uga nduweni sistem pangecilan digital sing ngetung barang-barang sing saben kasir dipindai saben-saben. Saka data log checkout, Mas lan Moretti bisa nggawe produktivitas sing tepat, individu, lan tansah-on: jumlah item sing dipindai per detik. Nggabungake rong perkara iki-variasi alami ing produktivitas lan produktivitas-Mas lan Moretti kira-kira yen kasir ditugasake rekan kerja sing 10% luwih produktif saka rata-rata, produktivitas dheweke bakal nambah 1,5% . Luwih, padha nggunakake ukuran lan kekayaan saka data kanggo njelajah rong masalah penting: heterogenitas saka efek iki (Kanggo jinis sing buruh iku efek sing luwih gedhe?) Lan mekanisme konco efek (Napa gadhah kanca produktivitas dhuwur mimpin kanggo produktivitas sing luwih dhuwur?). Kita bakal bali menyang rong masalah penting iki-heterogenitas efek lan mekanisme perawatan-ing bab 4 nalika kita ngrembug eksperimen kanthi luwih rinci.
Panyedhakan saka rong studi iki, tabel 2.3 ngringkes studi liyane sing nduwe struktur sing padha: nggunakake sumber data sing tansah kanggo ngukur efek saka sawetara variasi acak. Ing laku, peneliti nggunakake rong strategi kanggo nemokake eksperimen alami, loro sing bisa ngasilake. Sawetara peneliti wiwit kanthi sumber data sing tansah-lan nggoleki acara acak ing ndonya; liyane miwiti acara acak ing donya lan nggoleki sumber data sing nyekel pangaruh.
Fokus substansif | Sumber eksperimen alami | Sumber data tansah-on | Rujukan |
---|---|---|---|
Efek peer ing produktivitas | Proses jadwal | Data Checkout | Mas and Moretti (2009) |
Formasi Persahabatan | Topan | Phan and Airoldi (2015) | |
Nyebarake emosi | Udan | Lorenzo Coviello et al. (2014) | |
Transfer ekonomi peer-to-peer | Lindhu | Data dhuwit seluler | Blumenstock, Fafchamps, and Eagle (2011) |
Prilaku konsumsi pribadi | 2013 Susuh pemerintah AS | Data keuangan pribadi | Baker and Yannelis (2015) |
Efek ekonomi saka sistem rujukan | Various | Njelajah data ing Amazon | Sharma, Hofman, and Watts (2015) |
Efek kaku ing bayi sing ora dikandung | Perang Israel-Hizbullah | Cathetan kelairan | Torche and Shwed (2015) |
Prilaku maca ing Wikipedia | Snowden revelations | Log log | Penney (2016) |
Efek peer ing latihan | Cuaca | Pelacak kesehatan | Aral and Nicolaides (2017) |
Ing diskusi saengga babagan eksperimen alam, aku wis ngilangi titik penting: arep saka apa alam sing wis nyedhiyakake apa sing dikarepake bisa uga rada angel. Ayo bali menyang conto konsep Vietnam. Ing kasus iki, Angrist kasengsem ngitung efek saka layanan militer marang penghasilan. Sayange, layanan militer ora dituduh sacara acak; rodo ditransfer kanthi acak. Nanging, ora saben wong sing diajukake dileksanakake (ana macem-macem pambatasan), lan ora saben wong sing njabat wis disusun (wong bisa dadi sukarelawan kanggo ngawula). Amarga diadopsi kanthi acak, peneliti bisa ngira efek sing bakal disusun kanggo kabeh wong ing rancangan kasebut. Nanging Christ ora pengin ngerti efek sing bakal diajukake; dheweke kepengin ngerti pengaruh militer. Kanggo ngira perkiraan, Nanging, asumsi lan komplikasi tambahan sing dibutuhake. Kaping pisanan, para peneliti kudu nganggep yen mung cara sing diadopsi pangasilan sing duwur yaiku liwat layanan militèr, asumsi sing disebut watesan pengecualian . Anggepan iki bisa salah yen, umpamane, wong sing disusun tetep manggon ing sekolah maneh supaya ora bisa nglayani utawa menawa majikan kurang bisa nyewa wong sing disusun. Umumé, watesan pengecualian minangka asumsi kritis, lan biasané ora bisa dipastèkaké. Sanajan larangan khusus bener, ora mungkin kanggo ngira efek saka layanan marang kabeh wong. Nanging, panemune mung bisa ngira yen efek kasebut ana ing subkategori tartamtu wong sing disebut compliers (wong sing bakal ditugasake nalika disusun, nanging ora bakal (Angrist, Imbens, and Rubin 1996) nalika ora digawe) (Angrist, Imbens, and Rubin 1996) . Nanging, pemasok ora asli saka kapentingan asli. Elinga yen masalah iki muncul sanajan ing kasus rapi saka lotre konsep. Sabanjure komplikasi muncul nalika perawatan ora diwenehake dening lotere fisik. Contone, ing panliten Mas lan Moretti babagan kasir, pitakonan tambahan muncul bab asumsi yen penugasan rekan dasaré acak. Yen asumsi kasebut banget dilanggar, bisa ngira yen perkiraan. Kanggo nyimpulake, eksperimen alam bisa dadi strategi kuat kanggo nggawe estimasi kausal saka data non-eksperimen, lan sumber data gedhe nambah kemampuan kita kanggo kapitalisasi eksperimen alami nalika kedadeyan kasebut. Nanging, mesthine kudu gedhe-asumsi-asumsi sing kuwat banget-kanggo pindhah saka apa alam sing wis ana kanggo ngira yen sampeyan pengin.
Strategi kapindho sing arep dakkandhakake babagan nggawe estimasi kausal saka data sing ora eksperimen gumantung statistik nyetel data non-eksperimental ing upaya ngetrapake beda-beda ana ing antarane sing nindakake lan ora nampa perawatan. Ana akeh pendekatan panyesuaian, nanging aku bakal fokus marang siji sing cocog . Ing panliten, peneliti katon liwat data non-eksperimental kanggo nggawe pasangan wong sing padha kajaba sing wis nampa perawatan lan siji durung. Ing proses cocog, peneliti uga pruning ; yaiku, ngilangi kasus sing ora ana match sing jelas. Mangkono, cara iki bakal luwih akurat disebut pencocokan-lan-pruning, nanging aku bakal tetep nganggo istilah tradisional: cocog.
Salah siji conto kekuwatan kanggo cocog karo strategi karo sumber data non-eksperimental sing gedhe-gedhe didhasarake saka riset perilaku konsumen dening Liran Einav lan kolega (2015) . Padha kasengsem ing lelangan sing dumunung ing eBay, lan njlèntrèhaké karyané, Aku bakal fokus ing efek saka lelangan wiwit lelungan ing hasil lelongan, kayata rega kasedhiya utawa kemungkinan sing didol.
Cara paling nyenengake kanggo ngira efek saka rega wiwitan rega jual bakal mung ngetung rega final kanggo auctions karo prices awal sing beda. Iki pendekatan bakal nggoleki yen sampeyan pengin kanggo prédhiksi rega Advertisement diwenehi rega wiwitan. Nanging yen pitakonan sampeyan nyedhiyakake efek saka rega wiwitan, pendekatan iki ora bisa digunakake amarga ora adhedhasar banding sing adil; Lelang karo prices awal sing luwih murah bisa uga beda banget karo wong-wong sing nduweni tingkat awal sing luwih dhuwur (contone, padha bisa kanggo macem-macem jinis barang utawa kalebu macem-macem jinis penjual).
Yen sampeyan wis mangerteni masalah sing bisa njedhul nalika nggawe perkiraan kausal saka data sing ora eksperimen, sampeyan bisa ngliwati pendekatan sing ora patiya ana lan nganggep bisa nglakoni eksperimen lapangan ing ngendi sampeyan bakal ngedol item tartamtu-klub golf-kanthi tetep Parameter lelang-ngomong, pengiriman gratis lan lelangan mbukak kanggo rong minggu-nanging kanthi prices wiwitan kanthi acak. Kanthi mbandhingake hasil pasar sing kasil, eksperimen lapangan iki bakal menehi pangukuran sing cetha babagan efek saka rega wiwitan rega jual. Nanging pangukuran iki mung ditrapake kanggo siji produk tartamtu lan parameter lelang. Asil bisa beda, contone, kanggo macem-macem jinis produk. Tanpa teori kuwat, angel banget kanggo extrapolate saka eksperimen tunggal iki kanggo kabeh kemungkinan eksperimen sing bisa dilakoni. Luwih, percobaan lapangan cukup larang supaya ora bisa dilakoni saben variasi sing sampeyan pengin nyoba.
Benten kaliyan pendekatan naif lan eksperimen, Einav lan kolega pikantuk pendekatan kaping tiga: cocog. Trik utama ing strategi kasebut yaiku kanggo nemokake bab sing padha karo eksperimen lapangan sing wis kedadeyan ing eBay. Contone, angka 2.8 nuduhake sawetara saka 31 dhaftar kanggo persis klub golf padha-a Taylormade Burner 09 Driver-kang didol dening persis padha penjual - "budgetgolfer." Nanging, iki 31 dhaftar duwe ciri beda, kayata wiwitan beda rega, tanggal pungkasan, lan ongkos kirim. Ing tembung liyane, kaya "budgetgolfer" nglakokake eksperimen kanggo peneliti.
Daftar iki saka Taylormade Burner 09 Driver sing didol dening "budgetgolfer" yaiku salah sawijining conto saka daftar sing cocog, ing ngendi sing padha karo item sing padha didol dening penjual sing padha, nanging saben wektu karo ciri sing beda. Ing log massive saka eBay ana secara harfiah atusan ewu sing cocog karo jutaan jangkoan. Mangkono, tinimbang mbandhingake rega final kanggo kabeh lelungan karo rega wiwitan sing diwenehake, Einav lan kanca-kanca mbandhingake ing set sing cocog. Kanggo gabungke asil saka banding kasebut ing antarane ratusan ewu sing dicocogake, Einav lan kolega maneh ngumumake rega wiwitan lan rega final ing syarat-syarat nilai referensi saben item (contone, rega sing rata-rata jual). Contone, yen Taylormade Burner 09 Driver duweni nilai referensi $ 100 (adhedhasar dodolan), banjur rega awal $ 10 bakal ditulis minangka 0,1 lan rega final $ 120 minangka 1,2.
Elinga yen Einav lan kanca-kanca padha kasengsem ing efek saka wiwitan rega ing hasil lelongan. Kaping pisanan, padha nggunakake regresi linier kanggo ngira yen prices wiwitan luwih murah nyuda kemungkinan jebol, lan harga wiwitan sing luwih dhuwur ningkatake rega jual pungkasan (kondisional sajroning Advertisement). Miturut piyambak kasebut, perkiraan iki - sing nggambarake hubungan linear lan rata-rata kabeh produk-ora kabeh sing menarik. Banjur, Einav lan kanca-kancane digunakake ukuran gedhe data kanggo nggawe macem-macem perkiraan luwih subtle. Contone, kanthi ngira efek kasebut kanthi kapisah kanggo macem-macem prabandhingan sing beda, padha nemokake yen hubungan antarane rega wiwitan lan rega kasedhiya iku nonlinear (angka 2.9). Utamane, kanggo miwiti prices antarane 0,05 lan 0,85, rega wiwitan duweni pangaruh cilik ing rega kasedhiya, nemokake sing ora ditemokake kanthi analisis pisanan. Luwih, tinimbang rata-rata saka kabeh item, Einav lan kanca-kanca kira-kira dampak saka rega wiwitan kanggo 23 kategori item sing beda (contone, perlengkapan pet, elektronika, lan memorabilia olahraga) (gambar 2.10). Perkiraan iki nuduhake yen kanggo item liyane sing khas-kayata rega wiwitan memorabilia duweni pangaruh sing luwih cilik babagan kemungkinan penjualan lan efek sing luwih gedhe ing rega final. Luwih, kanggo item sing luwih komodifikasi-kayata DVDs - rega wiwitan meh ora ana pangaruh ing rega final. Ing tembung liya, rata-rata sing nggabungake asil saka 23 kategori kategori sing beda nyegah beda penting antarane item kasebut.
Malah yen sampeyan ora seneng lelongan ing eBay, sampeyan kudu ngerteni cara sing angka 2.9 lan angka 2.10 menehi pangerten luwih sugih babagan eBay tinimbang perkiraan prasaja sing nggambarake hubungan linear lan nggabungake akeh kategori barang sing beda-beda. Luwih, sanajan bakal mungkin ilmiah kanggo ngasilake perkiraan sing luwih halus karo eksperimen lapangan, biaya bakal nyebabake eksperimen kuwi ora mungkin.
Minangka eksperimen alam, ana pirang-pirang cara sing cocog bisa nyebabake perkiraan kurang. Aku yakin badhan paling gedhe sing cocog karo perkiraan iku bisa bias karo perkara sing ora digunakake ing pencocokan. Contone, ing asil utamané, Einav lan kanca-kanca nindakake katrangan sing cocog karo papat karakteristik: nomer ID bakul, kategori item, judhul item, lan subtitle. Yen item kasebut beda karo cara sing ora digunakake kanggo cocog, banjur bisa nggawe perbandingan sing ora adil. Contone, yen "budgetgolfer" ngedhunake harga kanggo Pembalap Taylormade Burner 09 ing mangsa (nalika klub-klub golf kurang populer), banjur bisa ditampilake yen prices awal sing murah nyebabake prices murah, nalika nyatane iki minangka artefak variasi mangsan sing dikarepake. Siji pendekatan kanggo ngatasi masalah iki nyoba akeh macem-macem cocog. Contone, Einav lan kanca-kanca mengulangi analisis kasebut nalika ngganti wektu jendhela sing digunakake kanggo cocog (set sing cocog kalebu item sing disaliniake ing setahun, ing sawijining sasi, lan bebarengan). Begjanipun, padha ketemu asil sing padha kanggo kabeh jendela wektu. Keprigelan sing luwih dhuwur karo sing cocog bakal muncul saka interpretasi. Perkiraan saka cocog mung ditrapake kanggo data sing cocog; padha ora klebu ing kasus sing ora bisa dicocogake. Contone, kanthi matesi panliten tumrap barang-barang sing duweni akeh listing, Einav lan kanca-kancane fokusake marang penjual profesi lan semi profesional. Mangkono, nalika interpretasi iki bandhingake kita kudu elinga yen padha mung aplikasi kanggo subset saka eBay.
Cocog minangka strategi sing kuat kanggo nemokake bandhing sacara wajar ing data sing ora eksperimen. Kanggo akèh para ilmuwan sosial, sing cocog bakal ngrasa paling apik kanggo eksperimen, nanging sing yakin bisa diubah. Cocog ing data massive bisa luwih apik tinimbang nomer cilik eksperimen lapangan nalika (1) heterogenitas ing efek wigati lan (2) variabel penting sing dibutuhake kanggo cocog wis diukur. Tabel 2.4 nyedhiyakake conto liyane babagan pencocokan bisa digunakake kanthi sumber data gedhe.
Fokus substansif | Sumber data gedhe | Rujukan |
---|---|---|
Efek tembak-tembakan ing kekerasan polisi | Cathetan lan cathetan | Legewie (2016) |
Efek 11 September 2001 babagan kulawarga lan tanggi | Rekaman voting lan cathetan sumbangan | Hersh (2013) |
Penyebaran sosial | Data adopsi komunikasi lan produk | Aral, Muchnik, and Sundararajan (2009) |
Kesimpulan, ngira efek akibat saka data sing ora eksperimen angel, nanging pendekatan kayata eksperimen alam lan penyesuaian statistik (contone, cocog) bisa digunakake. Ing sawetara kahanan, pendekatan kasebut bisa dadi salah, nanging nalika dikepalani kanthi teliti, pendekatan kasebut bisa dadi komplemen sing migunani kanggo pendekatan eksperimen sing aku tulisake ing bab 4. Luwih, loro pendekatan iki koyone utamane kanggo entuk manfaat saka pertumbuhan tansah- ing, sistem data amba.