Kami dapat memperkirakan eksperimen yang belum atau tidak bisa kami lakukan. Dua pendekatan yang terutama bermanfaat dari sumber data besar adalah eksperimen dan pencocokan alami.
Beberapa pertanyaan ilmiah dan kebijakan penting bersifat kausal. Misalnya, apa efek program pelatihan kerja terhadap upah? Seorang peneliti yang mencoba menjawab pertanyaan ini mungkin membandingkan penghasilan orang yang mendaftar untuk pelatihan dengan yang tidak. Tetapi berapa banyak perbedaan upah di antara kelompok-kelompok ini adalah karena pelatihan dan berapa banyak karena perbedaan yang sudah ada sebelumnya antara orang-orang yang mendaftar dan mereka yang tidak? Ini adalah pertanyaan yang sulit, dan ini adalah salah satu yang tidak secara otomatis hilang dengan lebih banyak data. Dengan kata lain, kekhawatiran tentang kemungkinan perbedaan yang sudah ada muncul tidak peduli berapa banyak pekerja dalam data Anda.
Dalam banyak situasi, cara terkuat untuk memperkirakan efek kausal dari beberapa pengobatan, seperti pelatihan kerja, adalah dengan menjalankan eksperimen terkontrol secara acak di mana seorang peneliti secara acak memberikan perawatan kepada beberapa orang dan bukan yang lain. Saya akan mencurahkan seluruh bab 4 ke eksperimen, jadi di sini saya akan fokus pada dua strategi yang dapat digunakan dengan data non-eksperimental. Strategi pertama tergantung pada mencari sesuatu yang terjadi di dunia yang secara acak (atau hampir acak) memberikan perawatan kepada beberapa orang dan bukan yang lain. Strategi kedua tergantung pada penyesuaian data non-eksperimental secara statistik dalam upaya untuk memperhitungkan perbedaan yang sudah ada antara mereka yang melakukan dan tidak menerima perawatan.
Seorang skeptis mungkin mengklaim bahwa kedua strategi ini harus dihindari karena mereka memerlukan asumsi yang kuat, asumsi yang sulit untuk dinilai dan yang, dalam praktiknya, sering dilanggar. Meskipun saya bersimpati pada klaim ini, saya pikir itu terlalu jauh. Memang benar bahwa sulit untuk membuat estimasi sebab-akibat dari data non-eksperimental, tetapi saya tidak berpikir itu berarti kita tidak boleh mencoba. Khususnya, pendekatan non-eksperimental dapat membantu jika kendala logistik mencegah Anda melakukan eksperimen atau jika kendala etika berarti Anda tidak ingin menjalankan eksperimen. Lebih lanjut, pendekatan non-eksperimental dapat membantu jika Anda ingin memanfaatkan data yang sudah ada untuk merancang eksperimen terkontrol acak.
Sebelum melanjutkan, perlu juga dicatat bahwa membuat perkiraan kausal adalah salah satu topik paling kompleks dalam penelitian sosial, dan salah satu yang dapat menyebabkan perdebatan yang intens dan emosional. Berikut ini, saya akan memberikan deskripsi yang optimis tentang setiap pendekatan untuk membangun intuisi tentang hal itu, maka saya akan menjelaskan beberapa tantangan yang muncul ketika menggunakan pendekatan itu. Rincian lebih lanjut tentang masing-masing pendekatan tersedia dalam materi di akhir bab ini. Jika Anda berencana untuk menggunakan salah satu dari pendekatan ini dalam penelitian Anda sendiri, saya sangat menyarankan untuk membaca salah satu dari banyak buku yang sangat bagus tentang inferensi kausal (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Satu pendekatan untuk membuat perkiraan kausal dari data non-eksperimental adalah mencari peristiwa yang secara acak memberikan perawatan kepada sebagian orang dan tidak kepada orang lain. Situasi ini disebut eksperimen alami . Salah satu contoh paling jelas dari eksperimen alami berasal dari penelitian Joshua Angrist (1990) mengukur pengaruh layanan militer terhadap pendapatan. Selama perang di Vietnam, Amerika Serikat meningkatkan ukuran angkatan bersenjatanya melalui suatu rancangan. Untuk memutuskan warga mana yang akan dipanggil untuk dinas, pemerintah AS mengadakan undian. Setiap tanggal lahir ditulis di selembar kertas, dan, seperti yang ditunjukkan pada gambar 2.7, potongan-potongan kertas ini dipilih satu per satu untuk menentukan urutan di mana pria muda akan dipanggil untuk melayani (wanita muda tidak tunduk ke draf). Berdasarkan hasil, pria yang lahir pada 14 September dipanggil pertama, pria yang lahir pada 24 April disebut kedua, dan seterusnya. Pada akhirnya, dalam undian ini, pria yang lahir pada 195 hari yang berbeda dirancang, sedangkan pria yang lahir pada 171 hari tidak.
Meskipun mungkin tidak segera terlihat, rancangan lotere memiliki kesamaan penting dengan eksperimen terkontrol acak: dalam kedua situasi, peserta secara acak ditugaskan untuk menerima perawatan. Untuk mempelajari efek dari perlakuan acak ini, Angrist mengambil keuntungan dari sistem data besar yang selalu aktif: Administrasi Jaminan Sosial AS, yang mengumpulkan informasi tentang hampir setiap penghasilan Amerika dari pekerjaan. Dengan menggabungkan informasi tentang siapa yang dipilih secara acak dalam undian draft dengan data penghasilan yang dikumpulkan dalam catatan administrasi pemerintahan, Angrist menyimpulkan bahwa penghasilan veteran sekitar 15% lebih sedikit daripada pendapatan non-veteran yang sebanding.
Seperti contoh ini menggambarkan, kadang-kadang kekuatan sosial, politik, atau alam menetapkan perawatan dengan cara yang dapat dimanfaatkan oleh peneliti, dan kadang-kadang efek dari perawatan ini ditangkap dalam sumber data besar yang selalu ada. Strategi penelitian ini dapat diringkas sebagai berikut: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Untuk mengilustrasikan strategi ini di era digital, mari kita bahas sebuah studi oleh Alexandre Mas dan Enrico Moretti (2009) yang mencoba memperkirakan pengaruh bekerja dengan kolega produktif terhadap produktivitas pekerja. Sebelum melihat hasilnya, ada baiknya menunjukkan bahwa ada ekspektasi yang bertentangan yang mungkin Anda miliki. Di satu sisi, Anda mungkin berharap bahwa bekerja dengan rekan kerja yang produktif akan menyebabkan seorang pekerja meningkatkan produktivitasnya karena tekanan teman sebaya. Atau, di sisi lain, Anda mungkin berharap bahwa memiliki rekan kerja keras dapat menyebabkan seorang pekerja mengendur karena pekerjaan akan dilakukan oleh rekan-rekannya pula. Cara paling jelas untuk mempelajari efek teman sebaya pada produktivitas adalah eksperimen yang dikontrol secara acak di mana para pekerja secara acak ditugaskan untuk bergiliran dengan pekerja dari berbagai tingkat produktivitas dan kemudian produktivitas yang dihasilkan diukur untuk semua orang. Para peneliti, bagaimanapun, tidak mengontrol jadwal pekerja dalam bisnis nyata, dan Mas dan Moretti harus bergantung pada eksperimen alami yang melibatkan kasir di supermarket.
Di supermarket khusus ini, karena cara penjadwalan dilakukan dan cara yang bergeser tumpang tindih, masing-masing kasir memiliki rekan kerja yang berbeda pada waktu yang berbeda dalam satu hari. Selanjutnya, di supermarket khusus ini, penugasan kasir tidak terkait dengan produktivitas rekan-rekan mereka atau seberapa sibuk toko itu. Dengan kata lain, meskipun penjadwalan kasir tidak ditentukan oleh lotere, itu seolah-olah pekerja kadang-kadang secara acak ditugaskan untuk bekerja dengan rekan-rekan produktivitas tinggi (atau rendah). Untungnya, supermarket ini juga memiliki sistem pemeriksaan usia digital yang melacak barang-barang yang setiap kasir pemindaian setiap saat. Dari data log checkout ini, Mas dan Moretti mampu menciptakan ukuran produktivitas yang tepat, individual, dan selalu aktif: jumlah item yang dipindai per detik. Menggabungkan dua hal ini — variasi yang terjadi secara alami dalam produktivitas rekan dan ukuran produktivitas yang selalu aktif — Mas dan Moretti memperkirakan bahwa jika seorang kasir diberi rekan kerja yang 10% lebih produktif daripada rata-rata, produktivitasnya akan meningkat sebesar 1,5% . Lebih lanjut, mereka menggunakan ukuran dan kekayaan data mereka untuk mengeksplorasi dua isu penting: heterogenitas efek ini (Untuk jenis pekerja mana efeknya lebih besar?) Dan mekanisme di balik efek (Mengapa memiliki rekan produktivitas tinggi mengarah ke produktivitas yang lebih tinggi?). Kami akan kembali ke dua masalah penting ini — heterogenitas efek dan mekanisme pengobatan — di Bab 4 ketika kita mendiskusikan eksperimen secara lebih rinci.
Generalisasi dari dua studi ini, tabel 2.3 merangkum studi lain yang memiliki struktur yang sama ini: menggunakan sumber data yang selalu aktif untuk mengukur efek dari beberapa variasi acak. Dalam praktiknya, para peneliti menggunakan dua strategi berbeda untuk menemukan eksperimen alami, yang keduanya dapat berbuah. Beberapa peneliti memulai dengan sumber data yang selalu aktif dan mencari peristiwa acak di dunia; yang lain memulai acara acak di dunia dan mencari sumber data yang menangkap dampaknya.
Fokus substantif | Sumber percobaan alami | Sumber data selalu aktif | Referensi |
---|---|---|---|
Efek rekan pada produktivitas | Proses penjadwalan | Data pembayaran | Mas and Moretti (2009) |
Formasi persahabatan | Hurricanes | Phan and Airoldi (2015) | |
Penyebaran emosi | Hujan | Lorenzo Coviello et al. (2014) | |
Transfer ekonomi antar rekan kerja | Gempa bumi | Data uang seluler | Blumenstock, Fafchamps, and Eagle (2011) |
Perilaku konsumsi pribadi | Penutupan pemerintah AS pada tahun 2013 | Data keuangan pribadi | Baker and Yannelis (2015) |
Dampak ekonomi dari sistem rekomendasi | Berbagai | Browsing data di Amazon | Sharma, Hofman, and Watts (2015) |
Efek stres pada bayi yang belum lahir | 2006 Israel – Hizbullah perang | Catatan kelahiran | Torche and Shwed (2015) |
Perilaku membaca di Wikipedia | Snowden wahyu | Log Wikipedia | Penney (2016) |
Efek rekan pada latihan | Cuaca | Pelacak kebugaran | Aral and Nicolaides (2017) |
Dalam diskusi sejauh ini tentang eksperimen alami, saya telah meninggalkan sebuah poin penting: pergi dari apa yang alam berikan kepada apa yang Anda inginkan kadang-kadang bisa sangat rumit. Mari kembali ke contoh draf Vietnam. Dalam kasus ini, Angrist tertarik untuk memperkirakan pengaruh layanan militer terhadap pendapatan. Sayangnya, dinas militer tidak ditugaskan secara acak; agak itu sedang disusun yang secara acak. Akan tetapi, tidak semua orang yang dikonsep dilayani (ada berbagai pengecualian), dan tidak semua orang yang dilayani wajib (orang dapat secara sukarela melayani). Karena sedang disusun secara acak, seorang peneliti dapat memperkirakan efek yang disusun untuk semua orang dalam draft. Tetapi Angrist tidak ingin mengetahui efek dari konsep tersebut; dia ingin tahu efek dari melayani di militer. Untuk membuat perkiraan ini, bagaimanapun, diperlukan asumsi dan komplikasi tambahan. Pertama, peneliti perlu berasumsi bahwa satu-satunya cara yang dirancang untuk memengaruhi pendapatan adalah melalui dinas militer, sebuah asumsi yang disebut pembatasan pengecualian . Asumsi ini bisa salah jika, misalnya, laki-laki yang direkrut tinggal di sekolah lebih lama untuk menghindari melayani atau jika pengusaha cenderung mempekerjakan laki-laki yang direkrut. Secara umum, pembatasan pengecualian adalah asumsi kritis, dan biasanya sulit untuk diverifikasi. Bahkan jika pembatasan pengecualian benar, masih tidak mungkin untuk memperkirakan pengaruh layanan pada semua pria. Sebaliknya, ternyata peneliti hanya dapat memperkirakan efek pada bagian tertentu dari laki-laki yang disebut compliers (laki-laki yang akan melayani ketika disusun, tetapi tidak akan melayani ketika tidak disusun) (Angrist, Imbens, and Rubin 1996) . Compliers, bagaimanapun, bukanlah populasi asli yang diinginkan. Perhatikan bahwa masalah-masalah ini muncul bahkan dalam kasus yang relatif bersih dari rancangan lotere. Komplikasi lebih lanjut muncul ketika pengobatan tidak ditugaskan oleh lotere fisik. Misalnya, dalam studi kasir Mas dan Moretti, pertanyaan tambahan muncul tentang asumsi bahwa penugasan rekan pada dasarnya adalah acak. Jika asumsi ini dilanggar secara kuat, maka bias perkiraan mereka. Sebagai kesimpulan, eksperimen alami dapat menjadi strategi yang kuat untuk membuat perkiraan kausal dari data non-eksperimental, dan sumber data besar meningkatkan kemampuan kita untuk memanfaatkan eksperimen alami ketika terjadi. Namun, mungkin akan membutuhkan perhatian besar — dan kadang-kadang asumsi yang kuat — untuk pergi dari apa yang disediakan alam ke perkiraan yang Anda inginkan.
Strategi kedua yang ingin saya ceritakan kepada Anda tentang membuat perkiraan kausal dari data non-eksperimental bergantung pada data non-eksperimental yang disesuaikan secara statistik dalam upaya untuk memperhitungkan perbedaan yang sudah ada antara mereka yang melakukan dan tidak menerima perawatan. Ada banyak pendekatan penyesuaian seperti itu, tetapi saya akan fokus pada satu yang disebut pencocokan . Dalam pencocokan, peneliti melihat melalui data non-eksperimental untuk membuat pasangan orang yang serupa kecuali yang satu telah menerima perawatan dan yang lain belum. Dalam proses pencocokan, para peneliti sebenarnya juga melakukan pemangkasan ; yaitu, membuang kasus-kasus di mana tidak ada kecocokan yang jelas. Dengan demikian, metode ini akan lebih akurat disebut pencocokan-dan-pemangkasan, tetapi saya akan tetap dengan istilah tradisional: pencocokan.
Salah satu contoh kekuatan strategi pencocokan dengan sumber data non-eksperimental masif berasal dari penelitian tentang perilaku konsumen oleh Liran Einav dan rekan (2015) . Mereka tertarik pada lelang yang terjadi di eBay, dan dalam menggambarkan pekerjaan mereka, saya akan fokus pada efek harga lelang awal pada hasil lelang, seperti harga jual atau kemungkinan penjualan.
Cara paling naif untuk memperkirakan efek harga awal pada harga jual adalah dengan hanya menghitung harga akhir untuk lelang dengan harga awal yang berbeda. Pendekatan ini akan baik-baik saja jika Anda ingin memprediksi harga jual yang diberikan harga awal. Tetapi jika pertanyaan Anda menyangkut efek dari harga awal, maka pendekatan ini tidak akan berhasil karena tidak didasarkan pada perbandingan yang adil; pelelangan dengan harga awal yang lebih rendah mungkin sangat berbeda dari harga awal yang lebih tinggi (misalnya, mungkin untuk jenis barang yang berbeda atau termasuk jenis penjual yang berbeda).
Jika Anda sudah mengetahui masalah yang dapat muncul saat membuat perkiraan kausal dari data non-eksperimental, Anda mungkin melewatkan pendekatan naif dan mempertimbangkan untuk menjalankan eksperimen lapangan di mana Anda akan menjual barang tertentu — misalnya, klub golf — dengan tetap serangkaian parameter lelang — misalnya, pengiriman gratis dan lelang terbuka selama dua minggu — tetapi dengan harga awal yang ditetapkan secara acak. Dengan membandingkan hasil pasar yang dihasilkan, percobaan lapangan ini akan menawarkan pengukuran yang sangat jelas tentang pengaruh harga awal pada harga jual. Tetapi pengukuran ini hanya akan berlaku untuk satu produk tertentu dan serangkaian parameter lelang. Hasilnya mungkin berbeda, misalnya, untuk berbagai jenis produk. Tanpa teori yang kuat, sulit untuk mengekstrapolasi dari eksperimen tunggal ini ke berbagai eksperimen yang mungkin bisa dijalankan. Lebih jauh, eksperimen lapangan cukup mahal sehingga tidak mungkin untuk menjalankan setiap variasi yang mungkin ingin Anda coba.
Berbeda dengan pendekatan naif dan eksperimental, Einav dan rekannya mengambil pendekatan ketiga: pencocokan. Trik utama dalam strategi mereka adalah menemukan hal-hal yang mirip dengan eksperimen lapangan yang telah terjadi di eBay. Misalnya, gambar 2.8 menunjukkan beberapa dari 31 daftar untuk klub golf yang sama persis — Pengembara Taylormade 09 - dijual oleh penjual yang persis sama— “budgetgolfer.” Namun, 31 daftar ini memiliki karakteristik yang sedikit berbeda, seperti awal yang berbeda. harga, tanggal akhir, dan biaya pengiriman. Dengan kata lain, seolah-olah "budgetgolfer" menjalankan eksperimen untuk para peneliti.
Daftar ini dari Tukang Tukang Taylormade 09 yang dijual oleh "budgetgolfer" adalah salah satu contoh dari daftar yang cocok, di mana barang yang sama persis dijual oleh penjual yang sama persis, tetapi setiap kali dengan karakteristik yang sedikit berbeda. Dalam log besar eBay ada ratusan ribu set yang cocok yang melibatkan jutaan daftar. Jadi, daripada membandingkan harga akhir untuk semua lelang dengan harga awal yang diberikan, Einav dan rekannya membandingkan dalam set yang sesuai. Untuk menggabungkan hasil dari perbandingan dalam ratusan ribu kumpulan yang cocok ini, Einav dan rekannya menyatakan kembali harga awal dan harga akhir dalam hal nilai referensi dari setiap item (misalnya, harga jual rata-ratanya). Misalnya, jika Pengemudi Taylormade 09 memiliki nilai referensi $ 100 (berdasarkan penjualannya), maka harga awal $ 10 akan dinyatakan sebagai 0,1 dan harga akhir $ 120 sebagai 1,2.
Ingat bahwa Einav dan rekannya tertarik dengan efek harga awal pada hasil lelang. Pertama, mereka menggunakan regresi linier untuk memperkirakan bahwa harga awal yang lebih tinggi menurunkan kemungkinan penjualan, dan bahwa harga awal yang lebih tinggi meningkatkan harga jual akhir (tergantung pada penjualan yang terjadi). Dengan sendirinya, perkiraan ini — yang menggambarkan hubungan linier dan dirata-ratakan atas semua produk — tidak terlalu menarik. Kemudian, Einav dan rekannya menggunakan ukuran besar data mereka untuk menciptakan berbagai perkiraan yang lebih halus. Misalnya, dengan memperkirakan efek secara terpisah untuk berbagai harga awal yang berbeda, mereka menemukan bahwa hubungan antara harga awal dan harga jual tidak linier (gambar 2.9). Khususnya, untuk harga awal antara 0,05 dan 0,85, harga awal memiliki dampak yang sangat kecil pada harga jual, sebuah temuan yang benar-benar luput oleh analisis pertama mereka. Lebih lanjut, daripada rata-rata atas semua item, Einav dan rekan memperkirakan dampak harga awal untuk 23 kategori item yang berbeda (mis., Persediaan hewan peliharaan, elektronik, dan memorabilia olahraga) (gambar 2.10). Perkiraan ini menunjukkan bahwa untuk item yang lebih khas — seperti memorabilia — harga awal memiliki efek yang lebih kecil pada kemungkinan penjualan dan pengaruh yang lebih besar pada harga jual akhir. Lebih lanjut, untuk barang-barang yang lebih dikomodifikasikan — seperti DVD — harga awal hampir tidak berdampak pada harga akhir. Dengan kata lain, rata-rata yang menggabungkan hasil dari 23 kategori yang berbeda dari item menyembunyikan perbedaan penting antara barang-barang ini.
Bahkan jika Anda tidak tertarik pada lelang di eBay, Anda harus mengagumi cara angka 2,9 dan gambar 2.10 menawarkan pemahaman yang lebih kaya tentang eBay daripada perkiraan sederhana yang menggambarkan hubungan linear dan menggabungkan banyak kategori item yang berbeda. Lebih lanjut, meskipun secara ilmiah mungkin untuk menghasilkan perkiraan yang lebih halus ini dengan eksperimen lapangan, biayanya akan membuat eksperimen seperti itu pada dasarnya tidak mungkin.
Seperti halnya eksperimen alami, ada sejumlah cara yang cocok dapat menyebabkan perkiraan yang buruk. Saya pikir kekhawatiran terbesar dengan perkiraan yang cocok adalah bahwa mereka dapat dipengaruhi oleh hal-hal yang tidak digunakan dalam pencocokan. Misalnya, dalam hasil utamanya, Einav dan rekannya melakukan pencocokan tepat pada empat karakteristik: nomor ID penjual, kategori item, judul item, dan subjudul. Jika item berbeda dengan cara yang tidak digunakan untuk pencocokan, maka ini dapat membuat perbandingan yang tidak adil. Sebagai contoh, jika "budgetgolfer" menurunkan harga untuk Driver Taylormade Burner 09 di musim dingin (ketika klub golf kurang populer), maka dapat muncul bahwa harga awal yang lebih rendah mengarah ke harga akhir yang lebih rendah, padahal sebenarnya ini akan menjadi artefak dari variasi musiman dalam permintaan. Salah satu pendekatan untuk mengatasi masalah ini adalah mencoba berbagai jenis pencocokan. Sebagai contoh, Einav dan rekan mengulang analisis mereka sambil memvariasikan jendela waktu yang digunakan untuk pencocokan (set yang sesuai termasuk item yang dijual dalam satu tahun, dalam satu bulan, dan serentak). Untungnya, mereka menemukan hasil yang sama untuk semua jendela waktu. Perhatian lebih lanjut dengan pencocokan muncul dari interpretasi. Perkiraan dari pencocokan hanya berlaku untuk data yang cocok; mereka tidak berlaku untuk kasus-kasus yang tidak bisa dicocokkan. Misalnya, dengan membatasi penelitian mereka ke item yang memiliki banyak cantuman, Einav dan rekannya berfokus pada penjual profesional dan semi-profesional. Jadi, ketika menafsirkan perbandingan ini kita harus ingat bahwa mereka hanya berlaku untuk bagian dari eBay ini.
Pencocokan adalah strategi yang kuat untuk menemukan perbandingan yang adil dalam data non-eksperimental. Bagi banyak ilmuwan sosial, pencocokan terasa terbaik kedua untuk eksperimen, tetapi itu adalah keyakinan yang dapat direvisi, sedikit. Pencocokan dalam data besar mungkin lebih baik daripada sejumlah kecil percobaan lapangan ketika (1) heterogenitas dalam efek penting dan (2) variabel penting yang diperlukan untuk pencocokan telah diukur. Tabel 2.4 memberikan beberapa contoh lain tentang bagaimana pencocokan dapat digunakan dengan sumber data besar.
Fokus substantif | Sumber data besar | Referensi |
---|---|---|
Efek penembakan terhadap kekerasan polisi | Rekor berhenti dan cepat | Legewie (2016) |
Efek 11 September 2001 pada keluarga dan tetangga | Voting records dan catatan donasi | Hersh (2013) |
Penularan sosial | Komunikasi dan data adopsi produk | Aral, Muchnik, and Sundararajan (2009) |
Kesimpulannya, memperkirakan efek kausal dari data non-eksperimental sulit, tetapi pendekatan seperti eksperimen alami dan penyesuaian statistik (misalnya, pencocokan) dapat digunakan. Dalam beberapa situasi, pendekatan ini bisa sangat salah, tetapi ketika diterapkan dengan hati-hati, pendekatan ini dapat menjadi pelengkap yang berguna untuk pendekatan eksperimental yang saya jelaskan di bab 4. Lebih lanjut, kedua pendekatan ini tampaknya sangat mungkin untuk mendapatkan manfaat dari pertumbuhan selalu - pada, sistem data besar.