2.4.3.2 Matching

Pemadanan membuat perbandingan yang adil dengan mencantas jauh kes.

perbandingan Fair boleh datang dari sama ada eksperimen rawak dikawal atau eksperimen semula jadi. Tetapi, terdapat banyak situasi di mana anda tidak boleh menjalankan eksperimen ideal dan alam semula jadi tidak menyediakan satu eksperimen semula jadi. Dalam tetapan ini, cara terbaik untuk membuat perbandingan yang adil adalah sepadan. Dalam hampir sama, penyelidik kelihatan melalui data bukan eksperimen untuk membuat pasangan orang yang sama kecuali satu yang telah menerima rawatan dan seseorang tidak mempunyai. Dalam proses yang hampir sama, penyelidik sebenarnya juga pemangkasan; iaitu, membuang kes di mana tidak ada perbandingan jelas. Oleh itu, kaedah ini akan lebih tepat dipanggil matching-dan-mencantas, tetapi saya akan tetap dengan istilah tradisional: sepadan.

Satu contoh indah dari kuasa yang sepadan dengan strategi dengan sumber data bukan eksperimen besar datang dari penyelidikan ke atas tingkah laku pengguna oleh Liran Einav dan rakan-rakan (2015) . Einav dan rakan-rakannya berminat lelongan berlaku di eBay, dan dalam menerangkan kerja mereka, saya akan memberi tumpuan kepada satu aspek tertentu: kesan lelongan harga bermula pada hasil lelongan, seperti harga jualan atau kebarangkalian jualan.

Cara yang paling naif untuk menjawab soalan mengenai kesan harga permulaan pada harga jualan adalah dengan hanya mengira harga akhir untuk lelongan dengan harga permulaan yang berbeza. Pendekatan ini akan menjadi baik jika anda hanya mahu untuk meramalkan harga jualan item tertentu yang telah dimasukkan di eBay dengan harga permulaan yang diberikan. Tetapi, jika soalan anda adalah apa yang kesan bermula harga kepada hasil pasaran pendekatan ini tidak akan berfungsi kerana ia tidak berdasarkan perbandingan yang adil; lelongan dengan harga permulaan yang lebih rendah mungkin agak berbeza daripada lelongan dengan harga permulaan yang lebih tinggi (contohnya, mereka mungkin untuk pelbagai jenis barang-barang atau termasuk jenis penjual).

Jika anda sudah mengambil berat tentang membuat perbandingan yang adil, anda mungkin skip pendekatan yang naif dan pertimbangkan menjalankan eksperimen bidang di mana anda akan menjual tertentu item-berkata, kelab-dengan golf satu set tetap lelongan parameter-berkata, penghantaran percuma, lelongan dibuka selama dua minggu, dan lain-lain tetapi dengan menetapkan harga bermula secara rawak. Dengan membandingkan hasil pasaran terhasil, eksperimen bidang ini akan menawarkan ukuran yang sangat jelas mengenai kesan bermula harga pada harga jualan. Tetapi, ukuran ini hanya terpakai untuk satu produk tertentu dan menetapkan parameter lelong. Keputusan mungkin berbeza, sebagai contoh, untuk pelbagai jenis produk. Tanpa pemahaman yang kukuh, ia adalah sukar untuk membuat anggaran daripada eksperimen tunggal ini rangkaian penuh mungkin eksperimen yang mungkin telah dijalankan. Selanjutnya, uji kaji lapangan cukup mahal bahawa ia akan menjadi infeasible berjalan cukup daripada mereka sehingga menutup ruang parameter keseluruhan produk dan jenis lelong.

Berbeza dengan pendekatan yang naif dan pendekatan eksperimen, Einav dan rakan-rakan mengambil pendekatan ketiga: yang sepadan. Helah utama strategi mereka adalah untuk menemui perkara-perkara yang serupa dengan uji kaji lapangan yang telah pun berlaku di eBay. Sebagai contoh, Rajah 2.6 menunjukkan sebahagian daripada 31 penyenaraian untuk betul-betul kelab-a golf sama Taylormade Burner 09 Driver-dijual oleh tepat seller- "budgetgolfer" yang sama. Walau bagaimanapun, senarai ini mempunyai ciri-ciri yang sedikit berbeza. Sebelas daripada mereka menawarkan pemandu untuk harga tetap $ 124,99, manakala 20 yang lain adalah lelongan dengan tarikh akhir yang berbeza. Juga, penyenaraian mengenakan bayaran penghantaran yang berbeza, sama ada $ 7,99 atau $ 9,99. Dalam erti kata lain, ia adalah seolah-olah "budgetgolfer" sedang berjalan eksperimen untuk penyelidik.

Penyenaraian daripada Taylormade Burner 09 pemandu yang dijual oleh "budgetgolfer" adalah satu contoh set yang sepadan penyenaraian, di mana item yang sama yang dijual oleh penjual yang sama tetapi setiap kali dengan ciri-ciri yang sedikit berbeza. Dalam balak besar eBay terdapat beratus-ratus ribu set dipadankan melibatkan berjuta-juta penyenaraian. Oleh itu, dan bukannya membandingkan harga akhir untuk semua lelongan dalam harga permulaan yang diberikan, Einav dan rakan-rakan membuat perbandingan dalam set dipadankan. Dalam usaha untuk menggabungkan hasil daripada perbandingan dalam ini beratus-ratus ribu set dipadankan, Einav dan rakan-daftar semula harga permulaan dan harga akhir terhadap nilai rujukan bagi setiap item (contohnya, harga jualan purata yang). Sebagai contoh, jika Taylormade Burner 09 pemandu mempunyai nilai rujukan $ 100 (berdasarkan jualan), maka harga bermula daripada $ 10 akan dinyatakan sebagai 0.1 dan Harga akhir sebanyak $ 120 akan dinyatakan sebagai 1.2.

Rajah 2.6: Contoh set yang sepadan. Ini adalah sama kelab yang tepat golf (a pemandu Taylormade Burner 09) yang dijual oleh orang yang sama yang tepat (budgetgolfer), tetapi sesetengah daripada jualan ini telah dilakukan keadaan yang berbeza (contohnya, harga permulaan yang berbeza). Rajah diambil dari Einav et al. (2015).

Rajah 2.6: Contoh set yang sepadan. Ini adalah sama kelab yang tepat golf (a pemandu Taylormade Burner 09) yang dijual oleh orang yang sama yang tepat ( "budgetgolfer"), tetapi sesetengah daripada jualan ini telah dilakukan keadaan yang berbeza (misalnya, harga permulaan yang berbeza). Rajah diambil dari Einav et al. (2015) .

Ingat bahawa Einav dan rakan-rakannya berminat kesan start price kepada hasil lelong. Pertama, dengan menggunakan regresi linear mereka dianggarkan bahawa harga permulaan yang lebih tinggi mengurangkan kebarangkalian jualan, dan bahawa harga permulaan yang lebih tinggi meningkatkan harga jualan akhir, dengan syarat jualan berlaku. Oleh diri mereka sendiri, anggaran-yang dipuratakan pada semua produk dan menganggap hubungan yang linear antara harga permulaan dan akhir tidak hasil-adalah semua yang menarik. Tetapi, Einav dan rakan-rakan juga menggunakan saiz yang besar data mereka untuk menganggarkan pelbagai penemuan yang lebih halus. Pertama, Einav dan rakan-rakan membuat anggaran ini secara berasingan, barang-barang harga yang berbeza dan tanpa menggunakan regresi linear. Mereka mendapati bahawa walaupun hubungan antara start price dan kebarangkalian jualan adalah linear, hubungan antara harga permulaan dan harga jualan adalah jelas bukan linear (Rajah 2.7). Khususnya, untuk memulakan harga antara 0.05 dan 0.85, harga bermula mempunyai kesan yang sangat sedikit pada harga jualan, suatu dapatan yang telah siap terlepas dalam analisis yang menganggap hubungan yang linear.

Rajah 2.7: Hubungan antara lelongan start price dan kebarangkalian jualan (panel kiri) dan harga jualan (panel kanan). Terdapat kira-kira hubungan linear antara start price dan kebarangkalian jualan, tetapi terdapat hubungan tidak linear antara start price dan harga jualan; untuk memulakan harga antara 0.05 dan 0.85, harga bermula mempunyai kesan yang sangat sedikit pada harga jualan. Dalam kedua-dua kes, hubungan pada dasarnya bebas nilai item. Graf ini mengeluarkan semula Rajah 4a dan 4b Einav et al. (2015).

Rajah 2.7: Hubungan antara lelongan start price dan kebarangkalian jualan (panel kiri) dan harga jualan (panel kanan). Terdapat kira-kira hubungan linear antara start price dan kebarangkalian jualan, tetapi terdapat hubungan tidak linear antara start price dan harga jualan; untuk memulakan harga antara 0.05 dan 0.85, harga bermula mempunyai kesan yang sangat sedikit pada harga jualan. Dalam kedua-dua kes, hubungan pada dasarnya bebas nilai item. Graf ini mengeluarkan semula Rajah 4a dan 4b Einav et al. (2015) .

Kedua, daripada purata ke atas semua barang-barang, Einav dan rakan-rakan juga menggunakan skala yang besar data mereka untuk menganggarkan kesan harga permulaan bagi 23 kategori yang berlainan bagi barangan (contohnya, bekalan haiwan peliharaan, elektronik, dan memorabilia sukan) (Rajah 2.8). Anggaran ini menunjukkan bahawa untuk lebih tersendiri item-seperti memorabilia-start price mempunyai kesan yang lebih kecil pada kebarangkalian jualan dan kesan yang lebih besar ke atas harga jualan akhir. Selanjutnya, untuk lebih commodified perkara-seperti DVD dan video-harga permulaan mempunyai hampir tidak memberi kesan kepada harga akhir. Dalam erti kata lain, purata yang menggabungkan hasil daripada 23 kategori yang berbeza barangan menyembunyikan maklumat penting tentang perbezaan antara barang-barang ini.

Rajah 2.8: Keputusan menunjukkan anggaran dari setiap kategori secara individu; dot pepejal dalam anggaran bagi semua kategori dikumpulkan bersama-sama, Jadual 11 (Einav et al. 2015, Jadual 11). Anggaran ini menunjukkan bahawa untuk lebih tersendiri item-seperti memorabilia-harga permulaan mempunyai kesan yang lebih kecil pada kebarangkalian jualan (x-axis) dan kesan yang lebih besar pada harga jualan akhir (y-axis).

Rajah 2.8: Keputusan menunjukkan anggaran dari setiap kategori secara individu; dot pepejal dalam anggaran bagi semua kategori dikumpulkan (Einav et al. 2015, Table 11) . Anggaran ini menunjukkan bahawa untuk lebih tersendiri item-seperti memorabilia-harga permulaan mempunyai kesan yang lebih kecil pada kebarangkalian jualan (x-axis) dan kesan yang lebih besar pada harga jualan akhir (y-axis).

Walaupun anda tidak berminat dalam lelongan di eBay, anda perlu mengagumi cara yang Rajah 2.7 dan Rajah 2.8 tawaran pemahaman yang lebih kaya daripada eBay daripada anggaran regresi linear mudah yang menganggap hubungan linear dan menggabungkan banyak kategori yang berbeza barangan. Anggaran ini lebih halus menggambarkan kuasa yang hampir sama dalam data besar-besaran; anggaran ini akan menjadi mustahil tanpa sejumlah besar uji kaji lapangan, yang akan menjadi mahal.

Sudah tentu, kita harus mempunyai kurang keyakinan dalam hasil apa-apa kajian yang hampir sama tertentu daripada kita lakukan dalam keputusan eksperimen dibandingkan. Apabila menilai hasil daripada apa-apa kajian yang hampir sama, terdapat dua isu penting. Pertama, kita perlu ingat bahawa kita hanya boleh memastikan perbandingan yang adil kepada perkara-perkara yang telah digunakan untuk padanan. Dalam keputusan utama mereka, Einav dan rakan-rakan tidak tepat yang sepadan pada empat ciri: penjual nombor ID, kategori item, tajuk perkara, dan sari kata. Jika item adalah berbeza dengan cara yang tidak digunakan untuk padanan yang boleh menyebabkan perbandingan yang tidak adil. Sebagai contoh, jika "budgetgolfer" menurunkan harga untuk Taylormade Burner 09 pemandu dalam musim sejuk (apabila kelab-kelab golf yang kurang popular), maka ia boleh muncul bahawa harga permulaan yang rendah membawa kepada harga yang lebih rendah akhir, sedangkan ini akan menjadi artifak bermusim Perubahan dalam permintaan. Secara umum, pendekatan yang terbaik untuk masalah ini seolah-olah cuba pelbagai jenis yang sepadan. Sebagai contoh, Einav dan rakan-rakan mengulangi analisis mereka di mana set dipadankan termasuk barangan dijual dalam tempoh satu tahun, dalam masa satu bulan, dan contemporaneously. Membuat tetingkap masa yang lebih ketat berkurangan bilangan set dipadankan, tetapi mengurangkan kebimbangan mengenai variasi bermusim. Mujurlah, mereka mendapati bahawa keputusan yang tidak berubah dengan perubahan dalam kriteria yang sepadan. Dalam kesusasteraan yang hampir sama, jenis kebimbangan biasanya dinyatakan dalam syarat-syarat cerap dan unobservables, tetapi idea utama adalah benar-benar bahawa penyelidik hanya mewujudkan perbandingan yang adil kepada ciri-ciri yang digunakan dalam yang sepadan.

Kebimbangan utama kedua ketika menafsirkan hasil yang cocok adalah bahawa mereka hanya memohon kepada data dipadankan; mereka tidak memohon kepada kes-kes yang tidak boleh dipadankan. Sebagai contoh, dengan mengehadkan penyelidikan mereka dengan perkara-perkara yang mempunyai berbilang penyenaraian Einav dan rakan-rakan memberi tumpuan kepada penjual profesional dan separa profesional. Oleh itu, ketika menafsirkan perbandingan ini kita harus ingat bahawa mereka hanya memohon kepada subset ini eBay.

Matching adalah satu strategi yang kuat untuk mencari perbandingan adil dalam set data yang besar. Kepada ramai ahli sains sosial, yang hampir sama berasa seperti kedua terbaik kepada eksperimen, tetapi itu adalah kepercayaan yang perlu dikaji semula, sedikit. Yang sepadan dalam data besar-besaran mungkin lebih baik daripada sebilangan kecil uji kaji lapangan apabila: 1) kepelbagaian dalam kesan adalah penting dan 2) terdapat cerap baik untuk yang sepadan. Jadual 2.4 memberikan beberapa contoh lain bagaimana yang hampir sama boleh digunakan dengan sumber data yang besar.

Jadual 2.4: Contoh-contoh kajian yang menggunakan yang hampir sama untuk mencari perbandingan yang adil dalam kesan digital.
tumpuan substantif sumber data yang besar Citation
Kesan tembakan mengenai keganasan polis Stop-dan-pemeriksaan badan rekod Legewie (2016)
Kesan 11 September 2001 ke atas ahli keluarga dan jiran rekod mengundi dan rekod derma Hersh (2013)
penularan sosial Komunikasi dan penggunaan produk data Aral, Muchnik, and Sundararajan (2009)

Kesimpulannya, pendekatan naif untuk menganggarkan kesan sebab dan akibat daripada data bukan eksperimen adalah berbahaya. Walau bagaimanapun, strategi untuk membuat anggaran sebab dan akibat yang terletak di sepanjang kontinum dari kuat untuk paling lemah, dan penyelidik boleh menemui perbandingan yang adil dalam data bukan eksperimen. Pertumbuhan sentiasa ke, sistem data yang besar meningkatkan keupayaan kami untuk berkesan menggunakan dua kaedah yang sedia ada: eksperimen semula jadi dan yang sepadan.