2.4.3.2 cocog

Cocog nyieun babandinganana adil ku pruning jauh kasus.

babandinganana Fair bisa datang ti boh randomized dikawasa percobaan atawa percobaan alam. Tapi, aya loba kaayan teu bisa ngajalankeun percobaan idéal jeung alam teu disadiakeun percobaan alam. Dina setelan ieu, kalawan cara anu pangalusna pikeun nyieun hiji babandingan adil ieu cocog. Dina cocog, panalungtik kasampak ngaliwatan data non-percobaan pikeun nyieun pasang jelema anu sarupa kajaba hiji nu geus narima perlakuan jeung hiji geus henteu. Dina prosés cocog, panalungtik anu sabenerna ogé pruning; nyaeta, discarding kasus di mana aya no ngabandingkeun atra. Ku kituna, metoda ieu bakal leuwih akurat disebut cocog-jeung-pruning, tapi kuring bakal lengket jeung istilah tradisional: cocog.

A conto geulis kakawasaan cocog strategi jeung sumber data non-percobaan masif asalna ti hasil panalungtikan dina paripolah konsumen ku Liran Einav sareng kolega (2015) . Einav sareng kolega éta kabetot dina auctions nyokot tempat dina eBay, sarta dina ngajéntrékeun karya maranéhanana, Abdi gé difokuskeun hiji aspék husus: pangaruh lelang dimimitian harga dina hasil lelang, saperti harga dijual atawa kamungkinan dijual a.

Cara paling naif ngajawab tarosan ngeunaan pangaruh harga awal dina harga dijual bakal saukur ngitung harga final pikeun auctions jeung harga mimiti beda. pendekatan ieu bakal rupa upami Anjeun ngan saukur hayang pikeun ngaduga harga dijual hiji item nunjukkeun yen geus ditunda eBay jeung harga mimiti dibikeun. Tapi, lamun Patarosan Anjeun naon pangaruh dimimitian harga dina hasil pasar pendekatan ieu iyeu moal jalan sabab teu dumasar kana babandinganana adil; nu auctions jeung harga mimiti handap bisa jadi cukup béda ti auctions jeung harga mimiti luhur (misalna, maranéhanana bisa jadi pikeun tipena béda barang atawa di antarana tipena béda tina sellers).

Mun anjeun geus paduli nyieun babandinganana adil, Anjeun bisa ngaliwatan pendekatan naif jeung mertimbangkeun ngajalankeun hiji percobaan widang mana anjeun bakal ngajual hiji husus item-ngomong, hiji klub-jeung golf susunan tetep tina lelang parameter-ngomong, bébas pengiriman barang, lelang kabuka salila dua minggu, jsb-tapi acak diatur harga dimimitian. Ku ngabandingkeun hasil pasar anu dihasilkeun, percobaan widang ieu bakal nawarkeun ukuran jelas pisan tina pangaruh dimimitian harga dina harga dijual. Tapi, ukuran ieu ngan bakal nerapkeun ka hiji produk husus tur nyetel parameter lelang. Hasil bisa jadi beda, contona, pikeun tipena béda produk. Tanpa teori kuat, hese extrapolate ti percobaan single ieu range pinuh ku mungkin percobaan anu bisa geus ngajalankeun. Salajengna, percobaan widang nu sahingga mahal nu bakal infeasible ngajalankeun cukup di antarana nepi ka nutupan rohangan parameter sakabeh produk jeung tipe lelang.

Kontras jeung pendekatan naif jeung pendekatan ékspérimén, Einav sareng kolega nyokot pendekatan katilu: cocog. Nu trik utama strategi maranéhanana nyaéta pikeun manggihan hal nu sarupa jeung percobaan widang nu geus kajadian dina eBay. Contona, Gambar 2.6 nembongkeun sababaraha 31 listings keur persis golf klub-a sarua Taylormade burner 09 Supir-keur dijual ku persis seller- "budgetgolfer" sarua. Tapi, listings ieu boga ciri rada beda. Sabelas eta nawarkeun supir keur harga tetep $ 124,99, sedengkeun lianna 20 nu auctions jeung kaping ahir beda. Oge, listings boga waragad pengiriman barang anu béda, boh $ 7,99 atawa $ 9,99. Dina basa sejen, eta lamun "budgetgolfer" anu ngajalankeun percobaan pikeun panalungtik.

Nu listings tina Taylormade burner 09 Supir keur dijual ku "budgetgolfer" mangrupakeun salah conto susunan loyog tina listings, di mana item sarua pasti keur dijual ku seller sarua pasti tapi unggal waktu jeung ciri rada beda. Dina log masif ti eBay aya hartina ratusan rébu susunan loyog ngalibetkeun jutaan listings. Ku kituna, tinimbang ngabandingkeun harga final pikeun sadaya auctions dina harga mimiti dibikeun, Einav sareng kolega nyieun babandinganana dina susunan loyog. Dina raraga ngagabung hasil ti babandinganana dina ratusan ieu rébu susunan loyog, Einav sareng kolega re-nganyatakeun harga awal jeung harga final dina watesan nilai rujukan unggal item (misalna harga dijual rata anak). Contona, lamun Taylormade burner 09 Supir ngabogaan nilai rujukan tina $ 100 (dumasar kana penjualan anak), mangka harga awal $ 10 bakal ditembongkeun salaku 0,1 jeung harga ahir $ 120 bakal ditembongkeun salaku 1.2.

Gambar 2.6: Hiji conto tina susunan loyog. Ieu pasti klub golf sarua (a Taylormade burner 09 Supir) keur dijual ku jalmi sarua pasti (budgetgolfer), tapi sababaraha penjualan kasebut dipigawé kaayaan beda (e.g., harga mimiti beda). Gambar dicokot tina Einav et al. (2015).

Gambar 2.6: Hiji conto tina susunan loyog. Ieu pasti klub golf sarua (a Taylormade burner 09 Supir) keur dijual ku jalmi sarua pasti ( "budgetgolfer"), tapi sababaraha penjualan kasebut dipigawé kaayaan beda (misalna harga mimiti beda). Gambar dicokot tina Einav et al. (2015) .

Ngelingan yen Einav sareng kolega éta kabetot dina pangaruh harga mimiti di hasil lelang. Kahiji, maké régrési liniér maranehna diperkirakeun yén harga mimiti luhur ngurangan kamungkinan dijual, jeung nu harga mimiti luhur ngaronjatkeun harga dijual final, kondisional diobral hiji kajadian. Ku sorangan, perkiraan-nu ieu averaged leuwih sadaya produk jeung nganggap hubungan linier antara harga awal jeung ahir hasil-teu sagala rupa nu metot. Tapi, Einav sareng kolega ogé maké ukuran masif data maranéhna pikeun estimasi rupa-rupa papanggihan leuwih halus. Kahiji, Einav sareng kolega dijieun perkiraan ieu misah item harga beda jeung tanpa ngagunakeun régrési liniér. Maranéhanana manggihan yén bari hubungan antara harga mimiti jeung kamungkinan dijual nyaéta liniér, hubungan antara harga awal jeung harga dijual téh jelas non-linier (Gambar 2.7). Dina sababaraha hal, pikeun dimimitian harga antara 0.05 jeung 0,85, harga mimiti ngabogaan saeutik pisan dampak dina harga dijual, hiji Pananjung nu réngsé lasut dina analisis nu geus dianggap hubungan linier.

Angka 2,7: Hubungan antara harga mimiti lelang jeung probability hiji dijual (panel kenca) jeung harga dijual (panel katuhu). Aya kasarna hubungan linier antara harga mimiti jeung kamungkinan dijual, tapi aya hubungan non-linier antara harga mimiti jeung harga dijual; keur dimimitian harga antara 0.05 jeung 0,85, harga mimiti ngabogaan saeutik pisan dampak dina harga dijual. Dina boh kasus, hubungan anu dasarna bebas nilai item. grafik ieu baranahan Gbr 4a jeung 4b Einav et al. (2015).

Angka 2,7: Hubungan antara harga mimiti lelang jeung probability hiji dijual (panel kenca) jeung harga dijual (panel katuhu). Aya kasarna hubungan linier antara harga mimiti jeung kamungkinan dijual, tapi aya hubungan non-linier antara harga mimiti jeung harga dijual; keur dimimitian harga antara 0.05 jeung 0,85, harga mimiti ngabogaan saeutik pisan dampak dina harga dijual. Dina boh kasus, hubungan anu dasarna bebas nilai item. Grafik ieu baranahan Gbr 4a jeung 4b Einav et al. (2015) .

Kadua, tinimbang averaging leuwih sadaya item, Einav sareng kolega oge make skala masif data maranéhna pikeun estimasi dampak harga dimimitian pikeun 23 kategori nu beda-beda item (misalna suplai piaraan, éléktronika jeung memorabilia olahraga) (Gambar 2.8). perkiraan ieu nunjukkeun yen leuwih has barang-saperti harga memorabilia-mimiti miboga éfék leutik dina probabiliti dijual jeung éfék badag dina harga dijual final. Salajengna, leuwih commodified item-saperti DVD jeung video-harga mimiti miboga ampir euweuh dampak dina harga final. Dina basa sejen, hiji rata-rata nu ngagabungkeun hasil ti 23 kategori nu beda-beda item hides informasi penting ngeunaan béda antara item ieu.

Angka 2.8: Hasil némbongkeun perkiraan ti saban kategori individual; titik padet dina estimasi keur sakabeh kategori pooled babarengan, Table 11 (Einav et al. 2015, Table 11). perkiraan ieu nunjukkeun yen leuwih has barang-saperti memorabilia-harga mimiti miboga éfék leutik dina probability hiji dijual (x sumbu-) jeung éfék badag dina harga dijual final (y sumbu-).

Angka 2.8: Hasil némbongkeun perkiraan ti saban kategori individual; titik padet dina estimasi keur sakabeh kategori pooled babarengan (Einav et al. 2015, Table 11) . perkiraan ieu nunjukkeun yen leuwih has barang-saperti memorabilia-harga mimiti miboga éfék leutik dina probability hiji dijual (x sumbu-) jeung éfék badag dina harga dijual final (y sumbu-).

Komo lamun teu utamana kabetot dina auctions dina eBay, Anjeun kudu admire cara anu Gambar 2.7 jeung Gambar 2.8 tawaran hiji pamahaman richer tina eBay ti perkiraan régrési liniér sederhana nu nganggap hubungan linier jeung ngagabung loba kategori nu beda-beda item. Ieu estimasi leuwih halus ngagambarkeun kakawasaan cocog dina data masif; perkiraan ieu geus tangtu teu mungkin tanpa nomer pisan percobaan widang, nu geus tangtu dimeunangkeun.

Tangtu, urang kudu boga kurang kapercayaan dina hasil nu mana wae ulikan cocog husus ti urang ngalakukeunana dina hasil tina percobaan comparable. Lamun assessing hasil ti mana wae ulikan cocog, aya dua masalah penting. Kahiji, urang kudu inget yen urang ngan bisa mastikeun babandinganana adil dina hal nya éta dipaké pikeun cocog. Dina hasil utama maranéhanana, Einav sareng kolega teu pasti cocog dina opat ciri: seller ID nomer, kategori item, judul item, sarta subjudul. Lamun item éta beda dina cara anu teu dipaké pikeun cocog, nu bisa nyieun hiji ngabandingkeun adil. Contona, lamun "budgetgolfer" lowered harga pikeun Taylormade burner 09 Supir dina usum tiis (lamun klub golf kurang populér), mangka bisa mucunghul nu harga mimiti handap ngakibatkeun nurunkeun harga final, lamun dina kanyataan ieu bakal jadi artefak tina musiman variasi dina paménta. Sacara umum, pendekatan pangalusna pikeun masalah ieu jigana bisa nyoba rupa-rupa nu beda-beda cocog. Contona, Einav sareng kolega malikan analisis maranéhanana mana susunan loyog antarana item diobral dina sataun, dina sabulan, sarta contemporaneously. Nyieun jandela waktu tighter nurun jumlah susunan loyog, tapi ngurangan kasalempang variasi usumna. Untungna, maranéhanana manggihan nu hasilna unchanged ku robah ieu di patokan cocog. Dina literatur cocog, jenis ieu patalina jeung masalah biasana ditembongkeun dina watesan observables jeung unobservables, tapi pamanggih konci bener nu panalungtik ngan nyieun babandinganana adil dina fitur dipaké dina cocog.

Nu patalina jeung masalah utama kadua lamun alih basa hasil cocog nyaeta aranjeunna ngan dilarapkeun ka data loyog; teu dilarapkeun ka kasus nu teu bisa loyog. Contona, ku ngawatesan panalungtikan maranéhanana item nu tadi sababaraha listings Einav sareng kolega anu fokus dina sellers professional jeung semi-professional. Ku kituna, lamun alih basa babandinganana ieu urang kudu inget yen maranehna ngan dilarapkeun ka sawaréh ieu eBay.

Cocog nyaeta strategi kuat pikeun manggihan babandinganana adil dina datasets badag. Pikeun loba élmuwan sosial, cocog karasaeun kawas kadua pangalusna pikeun percobaan, tapi nu hiji kapercayaan anu kudu dirévisi, rada. Cocog dina data masif bisa jadi leuwih hade tinimbang sajumlah leutik percobaan widang lamun: 1) heterogeneity dina pangaruh penting jeung 2) aya observables alus pikeun cocog. Table 2.4 nyadiakeun sababaraha conto séjénna kumaha cocog bisa dipaké jeung sumber data gedé.

Table 2.4: Conto studi anu ngagunakeun cocog pikeun manggihan babandinganana adil dina ngambah digital.
fokus Substantive sumber data Big nyalukan
Pangaruh shootings dina kekerasan pulisi Ngeureunkeun-jeung-frisk catetan Legewie (2016)
Pangaruh September 11, 2001 dina kulawarga jeung tatanggana catetan voting jeung rékor tutulung Hersh (2013)
contagion Sosial Komunikasi jeung nyoko produk data Aral, Muchnik, and Sundararajan (2009)

Dina kacindekan, deukeut naif ka estimasi pangaruh kausal ti data non-ékspérimén nu bahaya. Tapi, strategi pikeun nyieun perkiraan kausal bohong sapanjang continuum ti neneng ka weakest, jeung panalungtik bisa ngajalajah babandinganana adil dina data non-ékspérimén. Tumuwuhna sok-on, sistem data gedé ngaronjatkeun pangabisa urang éféktif make dua métode aya: percobaan alami jeung cocog.