Одговарајући створити фер поређења од резидбе далеко случајева.
Фер поређења могу доћи из било насумично контролисана експеримената или природних експеримената. Али, постоје многе ситуације у којима не могу да раде идеалан експеримент и природа није обезбедио природни експеримент. У овим подешавањима, најбољи начин за стварање фер поређење подудара. У подударања, истраживач гледа кроз не-експерименталних података за креирање пара људи који су слични само што нико није примио третман и не мора. У процесу упаривања, истраживачи су заправо и орезивање; То је, одбацујући случајеве где нема очигледних поређење. Тако, овај метод ће бити прецизније зове усклађивање-и-орезивање, али ја ћу се држати са традиционалним називом: подударања.
Диван пример моћи усклађивања стратегија са масивним неексперименталним извора података долазе из истраживања о понашању потрошача Лиран Еинав и колеге (2015) . Еинав и његове колеге били заинтересовани на аукцијама који се одвијају на еБаи, и у опису њиховог посла, ја ћу се фокусирати на један посебан аспект: ефектом аукцијске Почетна цена на аукцији исхода, као што су продајне цене или вероватноће продаје.
Највише наивни начин да одговори на питање о утицају почетне цене на продајне цене ће бити једноставно израчунати коначну цену за аукције са различитих почетних цена. Овај приступ би било у реду ако једноставно желите да предвиди продајну цену датог ставке које су подигнуте на еБаи са датом почетном ценом. Али, ако је ваше питање је шта је ефекат почетна цена на тржишту исхода овај приступ неће радити јер се не заснива на фер поређења; Аукције са нижим почетним цијенама може бити сасвим другачији од аукција са вишим почетне цене (нпр, они могу бити за различите врсте роба или укључују различите врсте продаваца).
Ако сте већ забринути за прављење фер поређење, можда прескочите наивно приступ и размотрити покретање поља експеримент у коме би продати посебан предмет-рећи, голф клуб-са фиксном скуп аукције параметара-саи, Фрее схиппинг, аукција отворен за две недеље, итд-а са случајно сет почев цене. Поредећи настале на тржишту резултате, ово поље експеримент ће понудити веома јасан мерење ефекта почетна цена на продајној цени. Али, ово мерење ће се примењивати само на једном одређеном производу и сет параметара аукције. Резултати могу бити различити, на пример, за различите врсте производа. Без јаке теорији, да је тешко извући из овог јединственог експеримента пун опсег могућих експеримената који су се могли покренути. Даље, на терену експерименти су довољно скупи да би било неизводљиво да покренете довољно њих до покрије цео параметар простор производе и врсте аукције.
Насупрот наивне приступа и експерименталном приступу, Еинав и колеге изводи трећи приступ: подударања. Главни трик њихове стратегије је да открије ствари сличне на терену експеримената који су већ догодиле на еБаи. На пример, на слици 2.6 показује неке од 31 листингс фор потпуно исти голф клуб-а Таилормаде горионика 09 возача-се продаје по потпуно истом селлер- "будгетголфер". Међутим, ови огласи имају нешто другачије карактеристике. Једанаест од њих нуде драјвер за фиксну цену од $ 124.99, док је осталих 20 су аукције са различитим датумима крајњих. Такође, огласи имају различите таксе схиппинг, или $ 7.99 или $ 9.99. Другим речима, то је као да "будгетголфер" ради експерименте за истраживача.
У уноса у ТаилорМаде Бурнер 09 Дривер се продаје по "будгетголфер" су један пример подударање сет листама, где је потпуно исти предмет се продају по идентичним продавца, али сваки пут са мало различитим карактеристикама. У оквиру масивних подацима о еБаи постоје буквално стотине хиљада поклапају сетовима који укључују милионе уноса. Тако, уместо у односу на коначну цијену за све аукције у датој почетној цени, Еинав и колеге прави поређења унутар поклапају сетовима. Да би се комбинује резултате из поређења у овим стотина хиљада подударних скупова, Еинав и колеге поново изражавају почетну цену и коначну цијену по питању референтне вредности сваке ставке (на пример, просечна продајна цена). На пример, ако је Таилормаде горионика 09 возача има референтну вредност од $ 100 (на основу њене продаје), затим почетној цени од $ 10 ће бити изражена као 0.1 и коначна цена од $ 120 ће бити изражена као 1.2.
Подсетимо се да Еинав и његове колеге били заинтересовани за ефекат Почетна цена на аукцији исхода. Прво, користећи линеарне регресије су проценили да више цене полазне смањити вероватноћу продаје, и да више цене полазне повећати коначну продајну цену, услов за продају дешава. Сами по себи, ове процене-који се просечна вредност за све производе и преузме линеаран однос између почетној цени и коначних исхода-нису толико интересантно. Али, Еинав и његове колеге такође користе масовни величину својих података да се процени разних прикривене налаза. Прво, Еинав и колеге су ове процјене, засебно за ставке различитим ценама и без употребе линеарне регресије. Они су утврдили да док је однос између Почетна цена и вероватноће продаје је линеарна, однос између почетној цени и продајне цене је јасно нелинеарна (слика 2.7). Посебно, за почетак цена између 0,05 и 0,85, почетна цена је веома мали утицај на продајне цене, а налаз који је завршен пропуштена у анализи која је преузела линеаран однос.
Друго, уместо у просеку више од свих ствари, Еинав и његове колеге такође користе масовно својих података да се процени утицај почетна цена за 23 различитих категорија предмета (нпр Пет Супплиес, електронике и спортске сувенирница) (Слика 2.8). Ове процене показују да више посебних ставки-као што су сувенири-за цену има мањи утицај на вероватноћу продаје и већег утицаја на коначну продајну цену. Даље, за више роба, ствари-као што ДВД-а и видео-старт цени нема скоро никакав утицај на коначну цијену. Другим речима, просечна која комбинује резултате од укупно 23 различите врсте пошиљака крије важне информације о разлика између ових предмета.
Чак и ако нисте посебно заинтересовани за аукције на еБаи, мораш се дивити начин на који Слика 2.7 и Слика 2.8 понуду богатији разумевање еБаи од једноставних линеарних процена регресије да преузму линеарне везе и комбинују различите категорије предмета. Ове Суптилније процене илуструје моћ одговарају у масовном података; ове процјене би било немогуће без огромног броја теренских експеримената, који би био изузетно скупа.
Наравно, требало би да имају мање поверења у резултате било које студије поређења него што би у резултатима сличној експеримента. Приликом процене резултата из било ког одговарајући истраживању, постоје два важна забринутост. Прво, морамо имати на уму да можемо обезбедити само фер поређења о стварима које су коришћене за подударање. У својим главним резултатима, Еинав и колеге нису тачне одговарају на четири карактеристике: продавац ИД број, тачка категорија, Наслов, и титл. Ако су ствари биле другачије на начин да се не користе за подударање, који би могли створити неправедну поређење. На пример, ако "будгетголфер" снизио цене за ТаилорМаде Бурнер 09 Дривер зими (када голф клубови су мање популарни), онда би то могло изгледати да ниже почетне цене доводи до нижег коначне цене, док је у стварности то ће бити артефакт сезонски варијације у потражњи. У принципу, најбољи приступ овом проблему изгледа да се покушава много различитих врста упаривања. На пример, Еинав и колеге поновити своје анализе где се подударају сетови укључују ставке на продају у року од годину, у року од месец дана, и истовремено. Израда прозор време чвршће смањује број подударних скупова, али смањује забринутост сезонских варијација. Срећом, сматрају да су резултати непромењени овим променама подударају са критеријумима. У истом литератури, ова врста бриге обично се изражава у смислу уочљивости и унобсерваблес, али је кључна идеја је заиста да се истраживачи стварају само фер поређења о карактеристикама које се користе у упаривања.
Други велики проблем када се тумаче одговарају резултата је да се они односе само на поклапају података; не односе на случајеве који нису могли да се поклапају. На пример, ограничавањем њиховог истраживања на ставке које су имале више огласа Еинав и његове колеге се фокусирају на професионални и полу-професионални продаваца. Тако, приликом тумачења ових поређења морамо имати на уму да се они односе само на овај подскуп од еБаи.
Усклађивање је моћна стратегија за проналажење фер поређења у великим скуповима података. За многе друштвених наука, одговарајући се осећа као други најбољи у експериментима, али то је веровање да треба ревидирати, мало. Одговарајући на масивним података, може бити боље од малог броја теренских експеримената када: 1) хетерогеност у ефектима је важан и 2) да постоје добри опсервабле за упаривања. Табела 2.4 даје неке примере како може да се користи са великим изворима података који одговарају.
материјално фокус | Велики извор података | цитат |
---|---|---|
Утицај пуцњаве на полицијског насиља | Стоп-анд-Фриск евиденције | Legewie (2016) |
Утицај 11. септембра 2001. године на породице и комшије | гласања документима и донације | Hersh (2013) |
socijalno зараза | Комуникација и усвајање производа подаци | Aral, Muchnik, and Sundararajan (2009) |
У закључку, наивни приступи процени узрочно-последичне ефекте од не-експерименталних података су опасни. Међутим, стратегија за прављење узрочно-последичне процене леже дуж континуума од најјаче до најслабије, а истраживачи могу открити фер поређења унутар не-експерименталних података. Раст увек, велики системи података повећава нашу способност да ефикасно користе два постојећа методе: природне експерименте и подударања.