Vinavyolingana kuunda kulinganisha haki na kupogoa mbali kesi.
kulinganisha Fair wanaweza kuja kutoka aidha majaribio randomized kudhibitiwa au majaribio ya asili. Lakini, kuna hali nyingi ambapo huwezi kuendesha majaribio bora na asili haijatoa majaribio ya asili. Katika mazingira haya, njia bora ya kujenga kulinganisha haki ni vinavyolingana. Katika vinavyolingana, mtafiti inaonekana kupitia data zisizo majaribio ya kuunda jozi ya watu kwamba ni sawa ila kwa kuwa mmoja amepokea matibabu na moja hana. Katika mchakato wa vinavyolingana, watafiti ni kweli pia kupogoa; yaani, Kassering kesi ambapo hakuna kulinganisha dhahiri. Hivyo, njia hii itakuwa usahihi zaidi huitwa vinavyolingana-na-kupogoa, lakini mimi itabidi fimbo na mrefu jadi: vinavyolingana.
Mfano mzuri wa nguvu za vinavyolingana mikakati na mkubwa vyanzo visivyo vya majaribio data wanatoka utafiti juu ya matumizi ya tabia na Liran Einav na wenzake (2015) . Einav na wenzake walikuwa na shauku katika mnada wa kuchukua nafasi ya juu eBay, na katika kuelezea kazi zao, nitalenga hasa suala moja: athari za mnada kuanzia bei juu ya matokeo ya mnada, kama vile bei ya kuuza au uwezekano wa kuuza.
njia wengi wasiojua kujibu swali kuhusu athari za bei ya kuanzia juu ya kuuza bei itakuwa tu mahesabu ya bei ya mwisho kwa minada na bei tofauti kuanzia. Mbinu hii itakuwa nzuri kama wewe tu unataka kutabiri bei ya uuzaji wa bidhaa kutokana na kwamba ametiwa on eBay na kupewa bei ya kuanzia. Lakini, kama swali lako ni nini ni athari za kuanzia bei juu ya matokeo ya soko mbinu hii si kazi kwa sababu si msingi kulinganisha haki; mnada wa kwa bei ya chini kuanzia inaweza kuwa tofauti kabisa na minada kwa bei ya juu kuanzia (kwa mfano, wanaweza kuwa kwa aina mbalimbali za bidhaa au ni pamoja na aina mbalimbali za wauzaji).
Kama tayari wasiwasi kuhusu maamuzi kulinganisha haki, unaweza ruka mbinu wasiojua na kufikiria mbio uwanja majaribio ambapo ingekuwa kuuza maalum item-kusema, klabu ya gofu-na seti ya kudumu ya mnada vigezo-kusema, bure meli, mnada wazi kwa wiki mbili, nk-lakini kwa nasibu kuweka kuanzia bei. Kwa kulinganisha na kusababisha matokeo ya soko, jaribio hili shamba bila kutoa kipimo wazi sana ya athari za kuanzia bei ya kuuza bei. Lakini, kipimo hii itakuwa tu yanahusu bidhaa ya mtu fulani na kuweka ya vigezo mnada. matokeo inaweza kuwa tofauti, kwa mfano, kwa aina mbalimbali za bidhaa. Bila nadharia na nguvu, ni vigumu extrapolate kutoka jaribio hili single mbalimbali kamili ya majaribio inawezekana kwamba wangeweza kukimbia. Zaidi ya hayo, majaribio uwanja ni ghali kutosha kwamba itakuwa ni infeasible kuendesha kutosha yao hadi kufunika wote parameter nafasi ya bidhaa na aina mnada.
Tofauti na mbinu wasiojua na njia ya majaribio, Einav na wenzake kuchukua mbinu tatu: vinavyolingana. hila kuu ya mkakati wao ni kugundua mambo sawa na majaribio shamba ambayo tayari kilichotokea kwenye eBay. Kwa mfano, Kielelezo 2.6 inaonyesha baadhi ya nyimbo 31 kwa sawa klabu ya gofu-Taylormade Burner 09 Dereva-kuwa kuuzwa kwa sawa seller- "budgetgolfer". Hata hivyo, nyimbo hizi kuwa na tabia tofauti kidogo. Eleven wao kutoa dereva kwa bei ya kudumu ya $ 124.99, wakati mwingine 20 ni mnada wa pamoja tarehe tofauti mwisho. Pia, Orodha ya kuwa na ada mbalimbali meli, ama $ 7.99 au $ 9.99. Kwa maneno mengine, ni kana kwamba "budgetgolfer" ni mbio majaribio kwa watafiti.
orodha ya Taylormade Burner 09 Dereva kuwa kuuzwa kwa "budgetgolfer" ni mfano mmoja wa seti kuendana ya nyimbo, ambapo halisi bidhaa hiyo ni kuwa kuuzwa na halisi muuzaji sawa lakini kila wakati na sifa tofauti kidogo. Ndani ya magogo mkubwa wa eBay kuna literally mamia ya maelfu ya seti kuendana kuwashirikisha mamilioni ya nyimbo. Hivyo, badala ya kulinganisha bei ya mwisho kwa minada yote ndani kutokana na bei ya kuanzia, Einav na wenzake kufanya kulinganisha ndani ya seti kuendana. Ili kuchanganya matokeo kutoka kulinganisha ndani ya mamia ya maelfu ya hizi seti kuendana, Einav na wenzake re-kueleza bei ya kuanzia na bei ya mwisho katika suala la thamani ya kumbukumbu ya kila kitu (kwa mfano, yake wastani kuuza bei). Kwa mfano, kama Taylormade Burner 09 Dereva ana thamani ya kumbukumbu ya $ 100 (kulingana na mauzo yake), basi bei ya kuanzia ya $ 10 itakuwa walionyesha kama 0.1 na bei ya mwisho ya $ 120 itakuwa walionyesha kama 1.2.
Kumbuka kwamba Einav na wenzake walikuwa na shauku katika athari za bei kuanza juu ya matokeo ya mnada. Kwanza, kwa kutumia linear regression wao inakadiriwa kuwa bei ya juu kuanzia kupunguza uwezekano wa kuuza, na kwamba bei ya juu kuanzia kuongeza mwisho bei ya mauzo, masharti juu ya kuuzwa kutokea. Kwa wenyewe, hizi makadirio-ambayo ni wastani wa bidhaa zote na kudhani uhusiano linear kati bei ya kuanzia na ya mwisho ya matokeo-si wote kwamba kuvutia. Lakini, Einav na wenzake pia kutumia ukubwa mkubwa wa data zao kukadiria aina ya matokeo mwerevu. Kwanza, Einav na wenzake alifanya makadirio haya tofauti kwa ajili ya vitu ya bei tofauti na bila kutumia linear regression. Waligundua kuwa wakati uhusiano kati ya bei kuanza na uwezekano wa mauzo ni linear, uhusiano kati ya bei ya kuanzia na bei ya mauzo ni wazi mashirika yasiyo ya linear (Kielelezo 2.7). Hasa, kwa ajili ya kuanza bei kati ya 0.05 na 0.85, bei ya kuanzia ina athari kidogo sana juu ya kuuza bei, kutafuta kuwa kukamilika amekosa katika uchambuzi kwamba alikuwa kudhani uhusiano linear.
Pili, badala ya wastani juu ya vitu vyote, Einav na wenzake pia kutumia kiasi kikubwa cha data zao kukadiria athari za kuanzia bei kwa makundi 23 tofauti ya vitu (kwa mfano, pet vifaa, vifaa vya umeme, na michezo memorabilia) (Kielelezo 2.8). Makadirio haya yanaonyesha kwamba kwa zaidi tofauti vitu-kama vile bei memorabilia-kuanza ina athari ndogo juu ya uwezekano wa kuuza na athari kubwa juu ya bei ya mwisho ya kuuza. Zaidi ya hayo, kwa zaidi commodified vitu-kama vile DVDs na video-bei kuanza ina karibu hakuna athari kwenye bei ya mwisho. Kwa maneno mengine, wastani unachanganya matokeo kutoka makundi 23 tofauti ya vitu ngozi taarifa muhimu kuhusu tofauti kati ya vitu hivi.
Hata kama wewe si nia hasa katika mnada wa eBay, una admire njia hiyo Kielelezo 2.7 na Kielelezo 2.8 kutoa uelewa tajiri ya eBay kuliko makadirio rahisi linear regression kwamba kudhani mahusiano linear na kuchanganya makundi mbalimbali ya vitu. Makadirio haya mwerevu kuonyesha nguvu ya vinavyolingana katika data mkubwa; makadirio haya ingekuwa vigumu bila idadi kubwa ya majaribio uwanja, ambayo ingekuwa gharama kubwa mno.
Bila shaka, tunapaswa kuwa chini ya kujiamini katika matokeo ya utafiti fulani vinavyolingana kuliko sisi ingekuwa katika matokeo ya majaribio kulinganishwa. Wakati wa kutathmini matokeo ya utafiti wowote vinavyolingana, kuna wasiwasi mawili muhimu. Kwanza, tuna kukumbuka kwamba tunaweza tu kuhakikisha kulinganisha haki juu ya mambo ambayo walikuwa kutumika kwa ajili ya vinavyolingana. Katika matokeo yao kuu, Einav na wenzake hawakuwa halisi vinavyolingana juu ya sifa nne: muuzaji ID posta, item jamii, cheo bidhaa, na Subtitle. Kama vitu yalikuwa tofauti kwa njia ambazo walikuwa si kutumika kwa ajili ya vinavyolingana, ambayo inaweza kujenga kulinganisha haki. Kwa mfano, kama "budgetgolfer" dari bei kwa Taylormade Burner 09 Dereva katika majira ya baridi (wakati klabu ya gofu ni chini maarufu), basi inaweza kuonekana kuwa chini bei kuanzia kusababisha kupunguza bei ya mwisho, wakati ukweli hii itakuwa artifact ya msimu tofauti katika mahitaji. Kwa ujumla, mbinu bora wa tatizo hili inaonekana kuwa inajaribu aina mbalimbali ya vinavyolingana. Kwa mfano, Einav na wenzake kurudia uchambuzi wao ambapo seti kuendana ni pamoja na vitu juu ya kuuza ndani ya mwaka mmoja, ndani ya mwezi mmoja, na sambamba kabisa. Kufanya wakati dirisha stramare itapungua idadi ya seti kuendana, lakini inapunguza wasiwasi juu ya tofauti za msimu. Kwa bahati nzuri, wanajikuta kwamba matokeo ni unchanged na mabadiliko haya katika vigezo vinavyolingana. Katika maandiko vinavyolingana, aina hii ya wasiwasi ni kawaida yaliyotolewa katika suala la observables na unobservables, lakini wazo la msingi ni kweli kwamba watafiti ni tu kujenga kulinganisha haki juu ya makala kutumika katika vinavyolingana.
kuu wasiwasi pili wakati kutafsiri matokeo vinavyolingana ni kwamba wao kuomba tu na data kuendana; hawana kuomba kesi ambayo inaweza kuwa kuendana. Kwa mfano, kwa kupunguza utafiti wao kwa vitu kwamba alikuwa na nyimbo nyingi Einav na wenzake ni kulenga wauzaji wa kitaalamu na nusu mtaalamu. Hivyo, wakati kutafsiri kulinganisha hizi tunapaswa kukumbuka kwamba wao kuomba tu na subset hii ya eBay.
Matching ni mkakati wa nguvu kwa ajili ya kutafuta kulinganisha haki katika seti kubwa. Na wanasayansi wengi wa jamii, vinavyolingana anahisi kama pili bora kwa majaribio, lakini hiyo ni imani kwamba lazima kupitiwa upya, kidogo. Matching katika data mkubwa inaweza kuwa bora kuliko idadi ndogo ya majaribio shamba wakati: 1) heterogeneity katika madhara ni muhimu na 2) kuna watu observables nzuri kwa ajili ya vinavyolingana. Jedwali 2.4 hutoa baadhi ya mifano ya jinsi vinavyolingana inaweza kutumika kwa vyanzo kubwa data.
lengo makubwa | Big data chanzo | citation |
---|---|---|
Athari za shootings juu ya ukatili wa polisi | Kuacha-na-frisk rekodi | Legewie (2016) |
Athari ya Septemba 11, 2001 juu ya familia na majirani | rekodi ya kupiga kura na rekodi mchango | Hersh (2013) |
contagion kijamii | Mawasiliano na bidhaa kupitishwa data | Aral, Muchnik, and Sundararajan (2009) |
Kwa kumalizia, mbinu naive kukadiria madhara causal kutoka data zisizo majaribio ni hatari. Hata hivyo, mikakati ya kufanya makadirio causal uongo pamoja mwendelezo kutoka nguvu na dhaifu, na watafiti wanaweza kugundua kulinganisha haki ndani ya data zisizo majaribio. ukuaji wa, mifumo daima-on big data huongezeka uwezo wetu wa kutumia kwa ufanisi njia mbili zilizopo: majaribio ya asili na vinavyolingana.