Појавување создаде фер споредби од градинарски далеку случаи.
Фер споредби може да дојде или рандомизирани контролирани експерименти или природни експерименти. Но, постојат многу ситуации каде што не може да работи на идеален експеримент и природата не обезбеди природен експеримент. Во овие подесувања, најдобар начин да се создаде фер однос е појавување. Во појавување, истражувачот гледа низ не-експериментални податоци да се создаде парови на луѓе кои се слични, освен дека еден доби третман и никој не го има. Во процесот на појавување, истражувачите се, всушност, исто така, кроење; што е, отфрлајќи ги случаите каде што не постојат очигледни споредба. Така, овој метод ќе биде попрецизно наречен појавување на-и-градинарски, но јас ќе се држи со традиционалниот термин: појавување.
Еден прекрасен пример за моќта на појавување на стратегии со голем не-експериментален извори на податоци доаѓаат од истражување на однесувањето на потрошувачите од страна на Liran Einav и колеги (2015) . Einav и неговите колеги беа заинтересирани за аукции кои се одвиваат на eBay, и во описот на нивната работа, ќе се фокусира на еден одреден аспект: ефектот на аукција Почетната цена на аукција резултати, како што се продажба на цените или на веројатноста за продажба.
Најмногу наивен начин да се одговори на прашањето за влијанието на почетна цена на продажната цена ќе биде едноставно да се пресмета на крајната цена на аукција со почетна различни цени. Овој пристап ќе биде во ред ако едноставно сакаат да се предвиди продажната цена на даден елемент, кој беше ставен на eBay со дадена почетна цена. Но, ако вашето прашање е кој е ефектот на почетна цена на резултати на пазарот на овој пристап нема да работи, бидејќи тоа не е врз основа на фер споредба; на аукциите со пониска почетна цените може да бидат сосема различни од аукциите со повисока почетна цена (на пример, тие може да биде за различни видови на стока или вклучуваат различни видови на продавачи).
Ако веќе сте загрижени за правење на фер споредба, може да прескокнете наивен пристап и сметаат дека водење на областа експеримент каде што ќе го продаде одредена точка, да речеме, еден голф клуб со фиксна сет на аукција параметрите-велат, бесплатен превозот, аукција отворени за две недели, итн, но со случајно поставени почнувајќи цени. Со споредување на резултат резултати на пазарот, оваа област експеримент ќе понуди многу јасна мерење на ефектот на почетна цена за продажба цена. Но, оваа мерка ќе се применуваат само на еден одреден производ и го постави на аукција параметри. Резултатите може да биде различна, на пример, за различни видови на производи. Без силна теорија, тоа е тешко да се екстраполираат од овој единствен експеримент на целиот спектар на можни експерименти, кои би можеле да се кандидира. Понатаму, полето експерименти се доволно скапи дека тоа ќе биде неизводливо да се кандидира доволно од нив се да се покрие целата параметар простор на производи и видови аукција.
За разлика од наивен пристап и експериментален пристап, Einav и неговите колеги ги Третиот пристап: појавување. Главната трик на нивната стратегија е да се откријат работите слични на полето експерименти, кои веќе се случиле на eBay. На пример, Слика 2.6 покажува некои од 31 огласи за иста голф-клуб-a TaylorMade режач 09 управувачи се продаваат од страна на ист seller- "budgetgolfer". Сепак, овие листи имаат малку различни карактеристики. Единаесет од нив нудат на возачот за фиксна цена од $ 124,99, додека останатите 20 се аукциите со различни крајни датуми. Исто така, на листите имаат различни такси превозот, или $ 7,99 или $ 9,99. Со други зборови, тоа е како "budgetgolfer" работи експерименти за истражувачите.
На огласи на TaylorMade режач 09 возач се продаваат од страна на "budgetgolfer" се еден пример за исти сет на огласи, каде што на иста ставка се продава по иста продавачот но секој пат со малку различни карактеристики. Во рамките на масивни дневници на eBay постојат буквално стотици илјадници исти комплети вклучи милиони огласи. Така, наместо споредување на крајната цена за сите аукции во рамките на дадена почетна цена, Einav и колеги прават споредби исти комплети. Со цел да се комбинираат резултатите од споредби овие стотици илјади исти сетови, Einav и колеги повторно изразување на почетна цена и конечната цена во однос на референтната вредност од секој вид (на пример, неговата просечна продажна цена). На пример, ако TaylorMade режач 09 возач има референтна вредност од $ 100 (врз основа на неговата продажба), а потоа со почетна цена од $ 10 ќе се изрази како 0,1 и крајна цена од $ 120 ќе бидат изразени како 1.2.
Потсетиме дека Einav и неговите колеги беа заинтересирани за ефектот на почетна цена на аукција резултати. Прво, со користење на линеарна регресија се проценува дека повисока почетна цена се намали веројатноста за продажба, и дека повисока почетна цени се зголемуваат крајната продажна цена, условена од продажба се случуваат. Сами по себе, овие проценки, кои се во просек на сите производи и да се претпостави линеарен однос помеѓу почетна цена и конечниот не-резултати се сите толку интересно. Но, Einav и неговите колеги, исто така, го користат масивна големина на нивните податоци за да се процени на различни посуптилно наоди. Прво, Einav и неговите колеги направија овие проценки одделно за предмети од различни цени и без користење на линеарна регресија. Тие откриле дека додека односот помеѓу почетна цена и веројатноста за продажба е линеарна, односот помеѓу почетна цена и продажната цена е јасно не-линеарни (Слика 2.7). Конкретно, за почеток на цените помеѓу 0,05 и 0,85, почетна цена има многу мало влијание врз продажната цена, наод кој беше завршен пропушти во анализата, која имала линеарен однос.
Второ, наместо во просек во текот на сите предмети, Einav и неговите колеги, исто така, се користи на огромниот размер на своите податоци за да се процени влијанието на почетна цена за 23 различни категории на предмети (на пример, миленичиња резерви, електроника, и спортски сувенири) (Слика 2.8). Овие проценки покажуваат дека повеќе различни предмети, како што се спомен-почетна цена има помал ефект на веројатноста за продажба и поголем ефект врз крајната продажна цена. Понатаму, за повеќе распространет предмети, како што се ДВД-а и видео цената почеток има речиси и да нема влијание врз крајната цена. Со други зборови, во просек, кои ги комбинира резултатите од 23 различни категории на предмети крие важни информации за разликите помеѓу овие елементи.
Дури и ако не се особено заинтересирани за аукции на eBay, ќе мора да му се восхитуваат на начинот на кој Слика 2.7 и 2.8 Слика понуда обезбедат подлабоко разбирање на eBay отколку едноставно проценки линеарна регресија се претпостави дека линеарна односи и да се комбинираат многу различни категории на предмети. Овие посуптилно проценки илустрира моќта на појавување во масивни податоци; овие проценки би било невозможно без огромен број на полето експерименти, кои би биле премногу скапи.
Се разбира, ние треба да имаме помалку доверба во резултатите од која било поединечна појавување студија отколку што би во резултатите од споредливи експеримент. При оценување на резултатите од било појавување на студии, постојат две важни проблеми. Прво, ние треба да се запамети дека ние може да се обезбеди само фер споредби на работи што се користи за пребарување. Во главниот нивните резултати, Einav и колегите го направија точно појавување на четири карактеристики: продавачот матичен број, категорија точка, наслов ставка и превод. Ако предметите се различни начини кои не се користи за пребарување, кои можат да предизвикаат нефер споредба. На пример, ако "budgetgolfer" намали цените за TaylorMade режач 09 возач во зима (кога голф клубови се помалку популарни), тогаш тоа може да се појави што пониска почетна цени да доведе до намалување на крајните цени, кога всушност тоа ќе биде артефакт на сезонски варијација на побарувачката. Во принцип, најдобар пристап кон овој проблем се чини дека се обидува многу различни видови на појавување. На пример, Einav и неговите колеги ја повторат својата анализа каде се исти комплети вклучуваат предмети на продажбата во рок од една година, во рок од еден месец, а истовремено. Изработка на прозорецот време построги намалува бројот на исти сета, но се намалува загриженоста за сезонските варијации. За среќа, тие сметаат дека резултатите се непроменети од овие промени во појавување на критериуми. Во појавување на литературата, овој вид на загриженост е обично изразена во смисла на observables и unobservables, но клучот идеја е навистина толку истражувачите се само создаде лојална споредби на функции кои се користат во појавување.
Втората голема грижа при толкување на појавување на резултати е дека тие се однесуваат само на исти податоци; тие не се однесува на случаи кои не можат да бидат исти. На пример, со ограничување на нивните истражувања на ставки кои имале повеќе огласи Einav и неговите колеги се фокусира на професионални и полу-професионален продавачи. Така, при толкување на овие споредби ние мора да се запамети дека тие се однесуваат само на оваа подгрупа на eBay.
Појавување е моќен стратегија за изнаоѓање фер споредби во големи бази на податоци. За многу научници од општествените науки, за појавување чувствува како второ најдобро со експерименти, но тоа е верувањето дека треба да се ревидира, малку. Појавување во масивни податоци може да биде подобро од мал број на полето експерименти, ако: 1) хетерогеност во ефекти е многу важно и 2) постојат добри observables за појавување. Табела 2.4 обезбедува некои други примери за тоа како појавување може да се користи со големи извори на податоци.
суштински фокус | Голем извор на податоци | цитат |
---|---|---|
Ефект на пукањето на полициското насилство | Стоп-и-frisk евиденција | Legewie (2016) |
Ефект од 11 септември 2001 година за семејства и соседи | евиденција на глас и донација евиденција | Hersh (2013) |
социјална зараза | Комуникација и донесување податоци за производот | Aral, Muchnik, and Sundararajan (2009) |
Во заклучок, наивни пристапи за проценка на причинско-последична ефекти од не-експериментални податоци се опасни. Сепак, стратегии за правење причинска проценки лежи по континуумот од најсилните најслабите и истражувачи може да се открие фер споредби не се експериментални податоци. Растот на ALWAYS-ON, големи системи на податоци се зголемува нашата способност ефикасно да се користат двата постоечки методи: природни експерименти и појавување.