Pagtutugma lumikha makatwirang paghahambing sa pamamagitan ng pruning ang layo kaso.
Fair paghahambing ay maaaring dumating mula sa alinman sa randomized kinokontrol eksperimento o natural na mga eksperimento. Subalit, may mga maraming mga sitwasyon kung saan hindi mo maaaring tumakbo ang ideal eksperimento at likas na katangian ay hindi ibinigay ng isang natural na eksperimento. Sa mga setting na ito, ang pinakamahusay na paraan upang lumikha ng isang makatarungang paghahambing ay tumutugma. Sa matching, ang researcher na tingin sa pamamagitan non-eksperimentong data upang lumikha ng mga pares ng mga tao na katulad maliban sa isa na ay nakatanggap ng paggamot at ang isa ay may hindi. Sa proseso ng pagtutugma, mga mananaliksik ay aktwal din pruning; iyon ay, discarding mga kaso kung saan walang mga halatang paghahambing. Kaya, ang paraan na ito ay mas tumpak na tinatawag pagtutugma-and-pruning, ngunit Kukunin ko stick sa tradisyonal na termino: matching.
Isang magandang halimbawa ng kapangyarihan ng pagtutugma ng mga estratehiya na may napakalaking non-eksperimentong data sources dumating mula sa pananaliksik sa consumer pag-uugali sa pamamagitan ng Liran Einav at kasamahan (2015) . Einav at kasamahan ay interesado sa mga auction na nagaganap sa eBay, at nang ilarawan ang kanilang trabaho, kukunin ko na tumutok sa isang partikular na aspeto: ang epekto ng auction panimulang presyo sa kinalabasan auction, tulad ng pagbebenta ng presyo o ang posibilidad ng isang benta.
Ang pinaka-walang muwang na paraan upang sagutin ang tanong tungkol sa epekto ng panimulang presyo sa presyo ng pagbebenta ay para lang kalkulahin ang panghuling presyo para sa mga auction na may iba't ibang mga panimulang presyo. Diskarte na ito ay magiging masarap kung gusto mo lang upang mahulaan ang presyo ng pagbebenta ng isang naibigay na item na ay ilagay sa eBay sa isang binigay na panimulang presyo. Ngunit, kung ang iyong tanong ay kung ano ang epekto ng panimulang presyo sa kinalabasan market diskarte na ito ay hindi gagana dahil ito ay hindi batay sa makatarungang paghahambing; ang mga auction na may mas mababang panimulang presyo ay maaaring maging lubos na naiiba mula sa mga auction na may mas mataas na panimulang presyo (eg, maaaring sila ay para sa iba't ibang mga uri ng mga kalakal o maglakip ng iba't ibang uri ng mga nagbebenta).
Kung ikaw ay isa-aalala tungkol sa paggawa ng makatarungang paghahambing, maaari mong laktawan ang simpleng pamamaraan ng pagharap at isaalang-alang ang pagpapatakbo ng isang field eksperimento kung saan nais mong magbenta ng isang partikular na item-sabihin, ang isang golf club-na may isang nakapirming hanay ng mga auction parameter-halimbawa, libreng pagpapadala, auction bukas para sa dalawang linggo, at iba pa-ngunit may random set simula presyo. Sa pamamagitan ng paghahambing ang mga nagresultang kinalabasan merkado, ang patlang na ito eksperimento ay nag-aalok ng isang napaka-malinaw na sukatan ng ang epekto ng panimulang presyo sa pagbebenta presyo. Ngunit, pagsukat na ito ay nalalapat lamang sa isang partikular na produkto at hanay ng mga parameter auction. Ang mga resulta ay maaaring naiiba, halimbawa, para sa iba't ibang uri ng mga produkto. Walang malakas na teorya, ito ay mahirap na intindihin mula sa data mula sa solong eksperimento ang buong hanay ng mga posibleng mga eksperimento na maaaring ay tumakbo. Dagdag dito, ang patlang eksperimento ay may sapat na mahal na magiging infeasible na tumakbo ng sapat na ng mga ito hanggang sa masakop ang buong parameter space ng mga produkto at mga uri auction.
Sa kaibahan sa walang muwang diskarte at pang-eksperimentong mga diskarte, Einav at kasamahan kumuha ng ikatlong diskarte: matching. Ang pangunahing linlangin ng kanilang mga diskarte ay upang matuklasan ang mga bagay na katulad ng field eksperimento na nai nangyari sa eBay. Halimbawa, Figure 2.6 ay nagpapakita ng ilan sa mga 31 mga listahan para sa eksakto ang parehong golf club-a Taylormade mitsero 09 Driver-na ibinebenta sa pamamagitan ng eksakto ang parehong seller- "budgetgolfer". Subalit, ang mga listahan ay may bahagyang iba't-ibang mga katangian. Eleven sa kanila nag-aalok ang driver para sa isang nakapirming presyo ng $ 124,99, habang ang iba pang mga 20 mga auction na may iba't ibang mga petsa ng pagtatapos. Gayundin, sa talaan ay may iba't ibang mga bayad sa pagpapadala, alinman sa $ 7.99 o $ 9.99. Sa ibang salita, ito ay bilang kung "budgetgolfer" ay tumatakbo eksperimento para sa mga mananaliksik.
Ang mga listahan ng Taylormade mitsero 09 Driver na ibinebenta sa pamamagitan ng "budgetgolfer" ay isang halimbawa ng isang tugmang set ng mga listahan, kung saan ang eksaktong parehong item ay na ibinebenta sa pamamagitan ng eksaktong parehong nagbebenta ngunit sa bawat oras na may bahagyang iba't ibang katangian. Sa loob ng napakalaking mga tala ng eBay may mga literal daan-daang libo ng naitugmang mga hanay na kinasasangkutan milyon-milyong mga listahan. Kaya, sa halip na paghahambing ng ang pangwakas na presyo para sa lahat ng mga auction sa loob ng isang naibigay na panimulang presyo, Einav at kasamahan gumawa ng mga paghahambing sa loob naitugmang set. Upang pagsamahin ang mga resulta mula sa mga paghahambing sa loob ng mga daan-daang libo ng naitugmang sets, Einav at kasamahan muling ipahayag ang panimulang presyo at pangwakas na presyo sa mga tuntunin ng reference na halaga ng bawat item (eg, ang average na presyo ng pagbebenta). Halimbawa, kung ang Taylormade mitsero 09 Driver ay may isang reference na halaga ng $ 100 (batay sa kanyang mga benta), pagkatapos ay isang panimulang presyo ng $ 10 ay ipinahayag bilang 0.1 at pangwakas na presyo ng $ 120 ay ipinahiwatig bilang 1.2.
Sariwain sa alaala na Einav at kasamahan ay interesado sa ang epekto ng start na presyo sa kinalabasan auction. Una, ang paggamit ng linear pagbabalik nila tinatayang na mas mataas na panimulang presyo bawasan ang posibilidad ng isang benta, at na mas mataas na panimulang presyo dagdagan ang pangwakas na presyo sale, kondisyon sa isang benta sa nangyari. Sa pamamagitan ng kanilang sarili, ang mga estima-na-average sa lahat ng mga produkto at ipalagay ang isang linear na relasyon sa pagitan panimulang presyo at huling kinalabasan-ay hindi lahat na kawili-wili. Ngunit, Einav at kasamahan ring gamitin ang napakalaking sukat ng kanilang data upang matantya ng isang iba't ibang mga mas pino mga natuklasan. Una, Einav at kasamahan ginawa ang mga estima nang hiwalay para sa mga item ng iba't ibang mga presyo at nang hindi gumagamit ng linear pagbabalik. Sila ay natagpuan na habang ang relasyon sa pagitan ng start presyo at posibilidad ng isang benta ay linear, ang relasyon sa pagitan panimulang presyo at presyo ng pagbebenta ay malinaw na non-linear (Figure 2.7). Sa partikular, para sa pagsisimula ng mga presyo sa pagitan 0.05 at 0.85, ang panimulang presyo ay napaka-maliit na epekto sa presyo ng pagbebenta, isang paghahanap na ay natapos hindi nakuha sa pagtatasa na ay ipinapalagay ng isang linear relasyon.
Pangalawa, sa halip na pag-average ng higit sa lahat ng mga item, Einav at kasamahan ring gamitin ang napakalaking sukat ng kanilang data upang matantya ang epekto ng panimulang presyo para sa 23 iba't ibang mga kategorya ng mga item (eg, pet supplies, electronics, at sports memorabilia) (Figure 2.8). Ang mga pagtatantya ay nagpapakita na para sa karagdagang mga natatanging mga item-tulad ng memorabilia-start presyo ay may isang mas maliit na epekto sa ang posibilidad ng isang benta at isang mas malaking epekto sa ang pangwakas na presyo sale. Dagdag dito, para sa karagdagang commodified item-tulad ng mga DVD at video-the start presyo ay halos walang epekto sa panghuling presyo. Sa ibang salita, ang isang average na pinagsasama resulta mula sa 23 iba't ibang mga kategorya ng mga item Itinatago mahalagang impormasyon tungkol sa mga pagkakaiba sa pagitan ng mga item.
Kahit na ikaw ay hindi partikular na interesado sa mga auction sa eBay, ikaw ay may upang humanga sa paraan na Figure 2.7 at Figure 2.8 alok ng isang mas mayamang pag-unawa sa eBay kaysa sa mga simpleng linear pagbabalik estima na ipalagay linear relasyon at pagsamahin ang maraming iba't ibang mga kategorya ng mga item. Ang mga mas pino pagtatantya ilarawan ang kapangyarihan ng pagtutugma sa napakalaking data; ang mga estima ay ay imposible nang walang isang malaking bilang ng mga field eksperimento, na sana ay naging prohibitively mahal.
Of course, dapat naming magkaroon ng mas mababa confidence sa ang mga resulta ng anumang partikular na tumutugma sa pag-aaral kaysa sa gagawin namin sa mga resulta ng isang maihahambing na eksperimento. Kapag pagtatasa ng mga resulta mula sa anumang matching pag-aaral, may mga dalawang mahahalagang mga alalahanin. Una, kailangan nating tandaan na maaari lamang naming matiyak makatwirang paghahambing sa mga bagay na ginamit para sa pagtutugma. Sa kanilang mga pangunahing resulta, Einav at kasamahan ay eksaktong tumutugma sa apat na katangian: number nagbebenta ID, kategorya item, item pamagat, at subtitle. Kung ang mga item ay naiiba sa mga paraan na ay hindi na ginagamit para sa pagtutugma, na maaaring lumikha ng isang hindi patas na paghahambing. Halimbawa, kung "budgetgolfer" lowered presyo para sa Taylormade mitsero 09 Driver sa taglamig (kapag golf klub ay mas popular), pagkatapos ito ay maaaring lumitaw na mas mababang panimulang presyo humantong sa mas mababang final presyo, kapag sa katunayan ito ay magiging isang artepakto ng seasonal pagkakaiba-iba sa demand. Sa pangkalahatan, ang pinakamahusay na diskarte sa problemang ito ay anyong sinusubukan maraming iba't ibang mga uri ng pagtutugma. Halimbawa, Einav at kasamahan ulitin ang kanilang mga pagtatasa kung saan kasama sa mga item sa pagbebenta sa loob ng isang taon, sa loob ng isang buwan, at contemporaneously naitugmang set. Paggawa ng oras window tighter nababawasan ang bilang ng naitugmang sets, ngunit binabawasan alalahanin tungkol seasonal pagkakaiba-iba. Sa kabutihang palad, na mahanap sila na mga resulta ay hindi magbabago sa pamamagitan ng mga pagbabagong ito sa pagtutugma pamantayan. Sa matching panitikan, ang ganitong uri ng pag-aalala ay karaniwang ipinahayag sa mga tuntunin ng observables at unobservables, ngunit ang susi ideya ay tunay na mga mananaliksik ay lamang paglikha makatwirang paghahambing sa mga katangian na ginagamit sa matching.
Ang ikalawang pangunahing pag-aalala kapag nagbibigay pakahulugan tumutugmang mga resulta ay na sila ay nalalapat lamang sa naitugmang data; hindi nila mag-aplay sa mga kaso na hindi maaaring maitugma. Halimbawa, sa pamamagitan ng paglilimita ang kanilang mga pananaliksik sa mga item na nagkaroon ng maramihang mga listahan Einav at kasamahan ay tumututok sa propesyonal at semi-propesyonal na sellers. Kaya, kapag pagbibigay-kahulugan mga paghahambing kailangan naming tandaan na ang mga ito ay nalalapat lamang sa ito subset ng eBay.
Pagtutugma ay isang malakas na diskarte para sa paghahanap ng makatwirang paghahambing sa mga malalaking dataset. Upang maraming mga social siyentipiko, pagtutugma nararamdaman tulad second-best sa mga eksperimento, ngunit iyon ay isang paniniwala na dapat ay binagong, na bahagyang. Matching sa napakalaking data ay maaaring maging mas mahusay kaysa sa isang maliit na bilang ng mga patlang na mga eksperimento kapag: 1) heterogeneity in na mga epekto ay mahalaga at 2) may mga magandang observables para sa pagtutugma. Table 2.4 ay nagbibigay ng ilang mga iba pang halimbawa ng kung paano pagtutugma ay maaaring gamitin na may malaking pinagkukunan ng data.
mahalagang focus | Big data source | banggit |
---|---|---|
Epekto ng shootings sa karahasan ng pulis | Stop-and-sumayaw-sayaw talaan | Legewie (2016) |
Effect noong Setyembre 11, 2001 sa mga pamilya at mga kapitbahay | rekord ng pagboto at donation talaan | Hersh (2013) |
Social lalin | Communication at produkto pag-aampon data | Aral, Muchnik, and Sundararajan (2009) |
Sa wakas, walang muwang pamamaraang sa estimating pananahilan epekto mula sa mga di-pang-eksperimentong data ay mapanganib. Gayunman, mga diskarte para sa paggawa ng pananahilan pagtatantya nakahiga sa kahabaan ng isang continuum mula sa pinakamatibay sa pinakamahina, at mga mananaliksik ay maaaring matuklasan makatwirang paghahambing loob non-eksperimentong data. Ang paglago ng palaging-on, malaking sistema ng data ay nagdaragdag ang aming kakayahan upang epektibong gamitin ang dalawang umiiral na mga pamamaraan: natural eksperimento at matching.