Tunaweza majaribio ya takriban ambayo hatujui au hatuwezi kufanya. Mbinu mbili zinazofaidika hasa kutokana na vyanzo vya data kubwa ni majaribio ya asili na vinavyolingana.
Maswali muhimu ya kisayansi na sera ni causal. Kwa mfano, ni matokeo gani ya programu ya mafunzo ya kazi juu ya mshahara? Mtafiti anajaribu kujibu swali hili anaweza kulinganisha mapato ya watu waliojiunga na mafunzo kwa wale ambao hawakuwa. Lakini ni kiasi gani cha mshahara wowote kati ya makundi haya ni kwa sababu ya mafunzo na ni kiasi gani kinachosababishwa na tofauti kati ya watu wanaojiandikisha na wale ambao hawana? Huu ni swali ngumu, na ni moja ambayo haitoi moja kwa moja na data zaidi. Kwa maneno mengine, wasiwasi juu ya kutokea tofauti tofauti hutokea bila kujali wangapi wafanyakazi wako katika data yako.
Katika hali nyingi, njia kali zaidi ya kukadiria athari ya causal ya matibabu, kama mafunzo ya kazi, ni kukimbia jaribio la kudhibitiwa randomized ambapo mtafiti nasibu hutoa matibabu kwa watu wengine na sio wengine. Nitajishughulisha na sura ya 4 kwa majaribio, kwa hiyo hapa nitazingatia mikakati miwili ambayo inaweza kutumika kwa data zisizo za majaribio. Mkakati wa kwanza unategemea kuangalia kitu kinachotokea ulimwenguni ambacho kwa nasibu (au karibu kwa nasibu) huwapa matibabu kwa watu wengine na sio wengine. Mkakati wa pili inategemea takwimu za kurekebisha data zisizo za majaribio katika jaribio la kuhesabu tofauti za tofauti kati ya wale waliofanya na hawakupata matibabu.
Skeptic anaweza kudai kuwa mikakati yote hii inapaswa kuepukwa kwa sababu inahitaji mawazo madhubuti, mawazo ambayo ni vigumu kutathmini na kwamba, kwa kawaida, mara nyingi hukiuka. Ingawa nina huruma kwa madai haya, nadhani inakwenda mbali sana. Ni hakika kwamba ni vigumu kuaminika kufanya makisio ya causal kutoka kwenye data isiyo ya majaribio, lakini sidhani hiyo ina maana kwamba hatupaswi kamwe kujaribu. Hasa, mbinu zisizo za majaribio zinaweza kuwasaidia ikiwa kikwazo cha vifaa kinakuzuia kuendesha jaribio au ikiwa vikwazo vya maadili inamaanisha kwamba hutaki kuendesha jaribio. Zaidi ya hayo, mbinu zisizo za majaribio zinaweza kuwa na manufaa ikiwa unataka kutumia faida zilizopo tayari ili ujaribu jaribio la kudhibitiwa randomized.
Kabla ya kuendelea, ni muhimu pia kutambua kuwa kufanya makadirio ya causal ni moja ya mada ngumu katika utafiti wa kijamii, na moja ambayo inaweza kusababisha mjadala mkali na kihisia. Katika ifuatavyo, nitatoa maelezo ya matumaini ya kila njia ili kujenga intuition juu yake, basi mimi kuelezea baadhi ya changamoto zinazojitokeza wakati wa kutumia njia hiyo. Maelezo zaidi juu ya kila mbinu inapatikana katika vifaa mwishoni mwa sura hii. Ikiwa una mpango wa kutumia njia hizi moja katika utafiti wako mwenyewe, mimi sana kupendekeza kusoma moja ya vitabu bora zaidi juu ya causal inference (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Njia moja ya kufanya makadirio ya causal kutoka data isiyo ya majaribio ni kuangalia tukio ambalo limetoa matibabu kwa watu wengine na si kwa wengine. Hali hizi huitwa majaribio ya asili . Moja ya mifano ya wazi ya jaribio la asili linatoka kwa utafiti wa Joshua Angrist (1990) kupima athari za huduma za kijeshi kwa mapato. Wakati wa vita nchini Vietnam, Umoja wa Mataifa iliongezeka ukubwa wa majeshi yake kupitia rasimu. Ili kuamua ni nani wananchi watakaoingia katika huduma, serikali ya Marekani ilifanya bahati nasibu. Tarehe ya kuzaliwa kila ilikuwa imeandikwa kwenye kipande cha karatasi, na, kama inavyoonekana katika sura ya 2.7, vipande hivi vya karatasi vilichaguliwa moja kwa wakati ili kuamua utaratibu ambao vijana wataitwa kutumikia (wanawake wadogo hawakuwa chini kwa rasimu). Kulingana na matokeo, wanaume waliozaliwa mnamo Septemba 14 waliitwa kwanza, wanaume waliozaliwa Aprili 24 waliitwa pili, na kadhalika. Hatimaye, katika bahati nasibu hii, wanaume waliozaliwa siku 195 tofauti waliandikwa, wakati watu waliozaliwa siku 171 hawakuwa.
Ingawa haiwezi kuwa dhahiri, bahati nasibu ina ufananisho muhimu na jaribio la kudhibitiwa randomized: katika hali zote mbili, washiriki ni nasibu kupewa kupewa matibabu. Ili kujifunza athari za matibabu haya ya random, Angrist alitumia mfumo wa data daima juu: Utawala wa Usalama wa Jamii wa Marekani, ambao unakusanya habari karibu na kila mapato ya Marekani kutoka kwa ajira. Kwa kuchanganya taarifa kuhusu nani aliyechaguliwa kwa nasibu katika bahati nasibu ya takwimu na data ya mapato yaliyokusanywa katika rekodi za utawala za serikali, Angrist alihitimisha kuwa mapato ya veterani yalikuwa chini ya asilimia 15% kuliko mapato ya wasio na veterani wanaofanana.
Kama mfano huu unaonyesha, wakati mwingine majeshi ya kijamii, kisiasa, au asili hutoa matibabu kwa namna ambayo inaweza kuhamasishwa na watafiti, na wakati mwingine madhara ya matibabu haya yanachukuliwa katika vyanzo vingi vya data. Mkakati huu wa utafiti unaweza kuwa muhtasari kama ifuatavyo: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Kuelezea mkakati huu katika umri wa digital, hebu tuchunguze utafiti na Alexandre Mas na Enrico Moretti (2009) ambao walijaribu kulinganisha athari za kufanya kazi na wenzake wazalishaji kwa uzalishaji wa mfanyakazi. Kabla ya kuona matokeo, ni muhimu kuashiria kwamba kuna matarajio yanayopingana ambayo unaweza kuwa nayo. Kwa upande mmoja, unaweza kutarajia kuwa kufanya kazi na wenzake wenye ufanisi kunaweza kumfanya mfanyakazi kuongeza uzalishaji wake kwa sababu ya shinikizo la wenzao. Au, kwa upande mwingine, unaweza kutarajia kuwa kuwa na rika zenye kazi ngumu zinaweza kumfanya mfanyakazi kusitisha kwa sababu kazi itafanywa na wenzao hata hivyo. Njia ya wazi ya kujifunza madhara ya rika kwenye uzalishaji itakuwa ni jaribio la kudhibitiwa randomized ambako wafanyakazi huwa na nasibu ya kubadilisha na wafanyakazi wa viwango vya uzalishaji tofauti na kisha uzalishaji hutolewa kwa kila mtu. Watafiti, hata hivyo, hawana kudhibiti ratiba ya wafanyakazi katika biashara yoyote halisi, na hivyo Mas na Moretti walipaswa kutegemea jaribio la asili lililoshirikisha wafadhili kwenye maduka makubwa.
Katika maduka makubwa haya, kwa sababu ya ratiba iliyofanyika na njia ambazo mabadiliko yalikuwa yamepigwa, kila mshirikaji alikuwa na wafanyakazi washirika tofauti kwa nyakati tofauti za siku. Zaidi ya hayo, katika maduka makubwa haya, kazi ya waajiri haikuhusiana na uzalishaji wa wenzao au jinsi busy ilikuwa duka. Kwa maneno mengine, ingawa ratiba ya wakopaji haijatambuliwa na bahati nasibu, ilikuwa ni kama wafanyakazi wakati mwingine walitumiwa kufanya kazi na wenzao wa juu (au chini). Kwa bahati nzuri, maduka makubwa hii pia yalikuwa na mfumo wa checkout wa umri wa miaka ambao ulifuatilia vitu ambavyo kila mtu mwenye sarafu alipiga skanning wakati wote. Kutoka kwa data hii ya kumbukumbu ya logi, Mas na Moretti waliweza kuunda ufanisi, ufanisi, na daima juu ya ufanisi: idadi ya vitu zilizopigwa kwa kila pili. Kuchanganya mambo haya mawili-tofauti ya asili katika uzalishaji wa rika na daima-kwa kiwango cha uzalishaji-Mas na Moretti walidhani kuwa ikiwa cashier ilipewa wafanyakazi wa ushirikiano ambao walikuwa zaidi ya 10% ya uzalishaji zaidi kuliko wastani, uzalishaji wake utaongezeka kwa 1.5% . Zaidi ya hayo, walitumia ukubwa na utajiri wa data zao ili kuchunguza masuala mawili muhimu: uharibifu wa athari hii (Kwa aina gani ya wafanyakazi ni athari kubwa?) Na taratibu zilizosababisha athari (Kwa nini kuwa na washirika wa uzalishaji wa juu husababisha uzalishaji wa juu?). Tutarudi kwenye masuala haya mawili-uharibifu wa madhara ya tiba na taratibu-katika sura ya 4 tunapojadili majaribio kwa undani zaidi.
Kuzalisha kutoka kwa masomo haya mawili, meza 2.3 inafupisha masomo mengine ambayo yana muundo huu huo: kutumia chanzo cha data kila mara kupima athari za mabadiliko tofauti. Katika mazoezi, watafiti hutumia mikakati miwili tofauti ya kutafuta majaribio ya asili, ambayo yote yanaweza kuzaa. Watafiti wengine huanza na chanzo cha data daima na kuangalia matukio ya random duniani; wengine huanza tukio la random duniani na kutafuta vyanzo vya data vinavyoathiri athari zake.
Lengo la msingi | Chanzo cha jaribio la asili | Daima kwenye chanzo cha data | Kumbukumbu |
---|---|---|---|
Madhara ya rika kwenye uzalishaji | Mchakato wa ratiba | Data ya Checkout | Mas and Moretti (2009) |
Uhusiano wa urafiki | Vimbunga | Phan and Airoldi (2015) | |
Kuenea kwa hisia | Mvua | Lorenzo Coviello et al. (2014) | |
Uhamisho wa kiuchumi kwa rika | Tetemeko la ardhi | Data ya pesa ya simu | Blumenstock, Fafchamps, and Eagle (2011) |
Tabia ya matumizi ya kibinafsi | Serikali ya Marekani imezuia | Data ya kibinafsi ya fedha | Baker and Yannelis (2015) |
Athari za kiuchumi za mifumo ya kupendekeza | Mbalimbali | Inatafuta data kwenye Amazon | Sharma, Hofman, and Watts (2015) |
Athari ya shida juu ya watoto wasiozaliwa | 2006 Israeli-Hezbollah vita | Rekodi ya kuzaliwa | Torche and Shwed (2015) |
Tabia ya kusoma kwenye Wikipedia | Aya za Snowden | Wikipedia kumbukumbu | Penney (2016) |
Madhara ya rika kwenye zoezi | Hali ya hewa | Watazamaji wa Fitness | Aral and Nicolaides (2017) |
Katika mazungumzo hadi sasa juu ya majaribio ya asili, nimeacha jambo muhimu: kutoka kwa asili gani iliyotolewa kwa kile unachotaka wakati mwingine kuwa ngumu sana. Hebu kurudi mfano wa rasimu ya Vietnam. Katika kesi hii, Angrist alikuwa na nia ya kukadiria athari za huduma ya kijeshi kwa mapato. Kwa bahati mbaya, huduma ya kijeshi haikupewa nasibu; badala ilikuwa imeandikwa ambayo ilikuwa nasibu kupewa. Hata hivyo, si kila mtu aliyeandikwa alihudumiwa (kulikuwa na aina nyingi za msamaha), na sio kila mtu aliyehudumu aliandikwa (watu wanaweza kujitolea kutumika). Kwa kuwa kuandikwa kwa mara kwa mara kulipwa kwa nasibu, mtafiti anaweza kulinganisha athari za kuandikwa kwa watu wote katika rasimu. Lakini Angrist hakutaka kujua athari za kuandikwa; alitaka kujua athari za kutumikia jeshi. Ili kufanya makadirio haya, hata hivyo, mawazo ya ziada na matatizo yanahitajika. Kwanza, watafiti wanahitaji kudhani kuwa njia pekee ambayo kuandikwa imeathiri mapato ni kupitia huduma ya kijeshi, dhana inayoitwa kizuizi cha kutengwa . Dhana hii inaweza kuwa mbaya ikiwa, kwa mfano, wanaume waliosajiliwa walikaa shuleni kwa muda mrefu ili kuepuka kutumikia au kama waajiri hawakuwa na uwezekano mdogo wa kuajiri wanaume walioandikwa. Kwa ujumla, kizuizi cha kutengwa ni dhana muhimu, na ni vigumu kuthibitisha. Hata kama kizuizi cha kutengwa ni sahihi, bado haiwezekani kukadiria athari za huduma kwa wanaume wote. Badala yake, inaonyesha kuwa watafiti wanaweza kukadiria tu athari kwenye sehemu ndogo ya wanaume inayoitwa compliers (wanaume ambao watatumikia wakati wa kuandikwa, lakini (Angrist, Imbens, and Rubin 1996) ) (Angrist, Imbens, and Rubin 1996) . Wafanyabiashara, hata hivyo, hawakuwa watu wa awali wa riba. Ona kwamba matatizo haya yanatokea hata katika kesi safi ya bahati nasibu ya rasimu. Seti zaidi ya matatizo hutokea wakati matibabu hayajapewa na bahati nasibu ya kimwili. Kwa mfano, katika masomo ya Mas na Moretti ya wahalifu, maswali ya ziada yanatokea kuhusu dhana kwamba kazi ya wenzao ni kimsingi. Ikiwa dhana hii imeshambuliwa sana, inaweza kupendeza makadirio yao. Ili kuhitimisha, majaribio ya asili yanaweza kuwa mkakati wenye nguvu wa kufanya makadirio ya causal kutoka kwa data isiyo ya majaribio, na vyanzo vingi vya data huongeza uwezo wetu wa kujitahidi kwa majaribio ya asili wakati yanapotokea. Hata hivyo, labda itahitaji uangalifu mkubwa-na wakati mwingine nguvu-kwenda kutoka kwa hali gani iliyotolewa kwa makadirio ambayo unataka.
Mkakati wa pili ningependa kukuambia juu ya kufanya makadirio ya causal kutoka kwa data isiyo ya majaribio inategemea takwimu kurekebisha data zisizo za majaribio katika jaribio la kuhesabu tofauti za tofauti kati ya wale waliofanya na hawakupata matibabu. Kuna njia nyingi za marekebisho, lakini nitazingatia moja inayoitwa vinavyolingana . Kwa kulinganisha, mtafiti huangalia kupitia data isiyo ya majaribio ili kuunda jozi ya watu ambao ni sawa isipokuwa kwamba mtu amepokea tiba na moja hajapata. Katika mchakato wa kulinganisha, watafiti ni kweli pia kupogoa ; yaani, kukataa kesi ambapo hakuna mechi inayoonekana. Hivyo, njia hii ingeitwa usawa na kupogoa kwa usahihi, lakini nitashika kwa muda wa jadi: vinavyolingana.
Mfano mmoja wa nguvu za mikakati inayofanana na vyanzo vya data visivyo na majaribio hutoka kwa utafiti juu ya tabia ya walaji na Liran Einav na wenzake (2015) . Walipendezwa na mnada uliofanyika kwenye eBay, na katika kuelezea kazi yao, nitazingatia matokeo ya mnada wa kuanza bei juu ya matokeo ya mnada, kama vile bei ya kuuza au uwezekano wa uuzaji.
Njia nzuri zaidi ya kukadiria athari za bei ya kuanza kwa bei ya kuuza itakuwa tu kuhesabu bei ya mwisho ya minada yenye bei tofauti za kuanzia. Njia hii itakuwa nzuri kama unataka kutabiri bei ya kuuza iliyotolewa bei ya mwanzo. Lakini ikiwa swali lako linahusu athari ya bei ya mwanzo, basi mbinu hii haiwezi kufanya kazi kwa sababu haikuwepo kulinganisha kwa haki; minada yenye bei za kuanzia chini inaweza kuwa tofauti kabisa na wale walio na bei za juu za kuanzia (kwa mfano, wanaweza kuwa aina tofauti za bidhaa au ni pamoja na aina tofauti za wauzaji).
Ikiwa tayari unafahamu matatizo ambayo yanaweza kutokea wakati wa kufanya makadirio ya causal kutoka kwenye data isiyo ya majaribio, unaweza kuruka mbinu ya ujinga na kufikiria kuendesha jaribio la shamba ambako ungeuza bidhaa fulani-kusema, klabu ya golf-yenye fasta seti ya vigezo vya mnada - kusema, usafiri wa bure na mnada uliofunguliwa kwa wiki mbili - lakini kwa bei za kuanza kwa nasibu. Kwa kulinganisha matokeo ya soko yaliyotokana, jaribio la shamba hili lingeweza kutoa kipimo cha wazi sana cha athari za bei ya kuanza kwa bei ya kuuza. Lakini kipimo hiki kitatumika tu kwenye bidhaa moja na kuweka vigezo vya mnada. Matokeo inaweza kuwa tofauti, kwa mfano, kwa aina tofauti za bidhaa. Bila nadharia imara, ni vigumu kuzichunguza kutokana na jaribio hili moja kwa upeo kamili wa majaribio iwezekanavyo ambayo ingekuwa imetumika. Zaidi ya hayo, majaribio ya shamba ni ghali kwa kutosha kwamba itakuwa infeasible kuendesha kila aina ambayo unaweza kutaka kujaribu.
Tofauti na mbinu za ujinga na za majaribio, Einav na wenzake walichukua mbinu ya tatu: vinavyolingana. Hila kuu katika mkakati wao ni kugundua mambo sawa na majaribio ya shamba yaliyotokea tayari kwenye eBay. Kwa mfano, sura ya 2.8 inaonyesha baadhi ya orodha 31 za klabu sawa ya golf-Taylormade Burner 09-ya kuuzwa kwa wauzaji sawa- "bajeti ya galafa." Hata hivyo, orodha hizi 31 zina tabia tofauti, kama vile kuanzia tofauti bei, tarehe za mwisho, na ada za usafirishaji. Kwa maneno mengine, ni kama "bajeti ya bajeti" inaendesha majaribio kwa watafiti.
Orodha hizi za Taylormade Burner 09 Dereva inayotumiwa na "bajeti ya bajeti" ni mfano mmoja wa orodha zinazofanana ya orodha, ambapo bidhaa halisi ni kuuzwa kwa muuzaji sawa, lakini kila wakati na tabia tofauti. Ndani ya magogo makubwa ya eBay kuna literally mamia ya maelfu ya seti zinazofanana zinazohusisha mamilioni ya orodha. Kwa hiyo, badala ya kulinganisha bei ya mwisho ya mnada wote na bei ya kuanzia iliyotolewa, Einav na wenzake walilinganishwa ndani ya seti zinazoendana. Ili kuchanganya matokeo kutoka kwa kulinganisha ndani ya mamia ya maelfu ya seti zinazoendana, Einav na wenzi wenzake walielezea bei ya mwanzo na bei ya mwisho kulingana na thamani ya kumbukumbu ya kila kitu (kwa mfano, bei ya wastani ya kuuza). Kwa mfano, ikiwa pikipiki cha Taylormade Burner 09 kilikuwa na thamani ya kumbukumbu ya $ 100 (kulingana na mauzo yake), basi bei ya mwanzo ya $ 10 itaonyeshwa kama 0.1 na bei ya mwisho ya $ 120 kama 1.2.
Kumbuka kwamba Einav na wenzake walivutiwa na matokeo ya bei ya kuanza kwenye matokeo ya mnada. Kwanza, walitumia udhibiti wa mstari wa kuhesabu kwamba bei za kuanzia kwa juu hupunguza uwezekano wa uuzaji, na kwamba bei za kuanzia juu zinaongeza bei ya mwisho ya kuuza (masharti ya uuzaji unatokea). Kwao wenyewe, makadirio haya-ambayo yanaelezea uhusiano wa mstari na ni wastani juu ya bidhaa zote-sio zote zinazovutia. Kisha, Einav na wenzake walitumia ukubwa mkubwa wa data zao ili kujenga makadirio mbalimbali ya hila. Kwa mfano, kwa kukadiria athari tofauti kwa bei mbalimbali za kuanzia tofauti, waligundua kuwa uhusiano kati ya bei ya kuanza na bei ya kuuza ni nonlinear (takwimu 2.9). Hasa, kwa kuanzia bei kati ya 0.05 na 0.85, bei ya kuanzia ina athari kubwa sana kwa bei ya kuuza, uchunguzi uliopotea kabisa na uchambuzi wao wa kwanza. Zaidi ya hayo, badala ya kugawa juu ya vitu vyote, Einav na wenzake walizingatia matokeo ya bei ya kuanzia kwa makundi 23 ya vitu (kwa mfano, vifaa vya pet, umeme, na kumbukumbu za michezo) (takwimu 2.10). Makadirio haya yanaonyesha kwamba kwa vitu vyenye tofauti-kama vile bei ya kuzingatia mapema ina athari ndogo juu ya uwezekano wa kuuza na athari kubwa kwenye bei ya mwisho ya kuuza. Zaidi ya hayo, kwa vitu vyema zaidi-kama vile DVD-bei ya mwanzo ina karibu hakuna athari kwa bei ya mwisho. Kwa maneno mengine, wastani unaochanganya matokeo kutoka kwa makundi 23 ya vitu huficha tofauti muhimu kati ya vitu hivi.
Hata kama huna nia ya vyuo vikuu kwenye eBay, unapaswa kupendeza njia ambayo takwimu 2.9 na takwimu 2.10 hutoa ufahamu mkubwa wa eBay kuliko makadirio rahisi ambayo yanaelezea uhusiano wa mstari na kuchanganya makundi mengi ya vitu. Zaidi ya hayo, ingawa itakuwa kisayansi iwezekanavyo kuzalisha makadirio haya ya hila na majaribio ya shamba, gharama inaweza kufanya majaribio hayo kwa kweli haiwezekani.
Kama ilivyo na majaribio ya asili, kuna njia kadhaa zinazolingana zinaweza kusababisha makadirio mabaya. Nadhani wasiwasi mkubwa kwa makadirio ya kulinganisha ni kwamba wanaweza kupendekezwa na vitu ambavyo havikutumiwa katika vinavyolingana. Kwa mfano, katika matokeo yao makuu, Einav na wenzake walifanya sawa kulingana na sifa nne: nambari ya ID ya muuzaji, kiwanja cha kipengee, kichwa cha kipengee, na kichwa cha chini. Ikiwa vitu vilikuwa tofauti kwa njia ambazo hazikutumiwa kulinganishwa, basi hii inaweza kuunda kulinganisha sawa. Kwa mfano, ikiwa "bajeti ya gesi" imepungua bei kwa Dereva wa Taylormade Burner 09 wakati wa baridi (wakati vilabu vya golf hazijulikani zaidi), basi inaweza kuonekana kwamba bei za chini za kuanzia husababisha bei ya mwisho ya mwisho, wakati kwa kweli hii itakuwa artifact ya tofauti ya msimu katika mahitaji. Njia moja ya kukabiliana na wasiwasi huu ni kujaribu aina nyingi za vinavyolingana. Kwa mfano, Einav na wenzake walirudia uchambuzi wao wakati tofauti ya dirisha la muda kutumika kwa vinavyolingana (seti zinazofanana zilijumuisha vitu vya kuuza ndani ya mwaka mmoja, ndani ya mwezi mmoja, na kwa kutafakari). Kwa bahati nzuri, walipata matokeo sawa kwa madirisha yote ya wakati. Wasiwasi zaidi na vinavyolingana hutoka kutoka tafsiri. Inapima kutoka vinavyolingana tu kuomba data iliyoendana; hawatumii kwenye kesi zisizoweza kuendana. Kwa mfano, kwa kupunguza utafiti wao kwa vitu ambavyo vilikuwa na orodha nyingi, Einav na wenzake wanalenga wataalamu wa kitaaluma na wa nusu. Kwa hiyo, wakati wa kutafsiri kulinganisha hizi tunapaswa kukumbuka kwamba hutumika tu kwenye sehemu hii ya eBay.
Kuzingatia ni mkakati wenye nguvu wa kupata kulinganisha kwa haki katika data isiyo ya majaribio. Kwa wanasayansi wengi wa jamii, vinavyolingana vinahisi kuwa ya pili kwa majaribio, lakini hiyo ni imani ambayo inaweza kurekebishwa, kidogo. Kufananisha na data kubwa inaweza kuwa bora zaidi kuliko idadi ndogo ya majaribio ya shamba wakati (1) madhara ya hterogeneity ni muhimu na (2) vigezo muhimu zinazohitajika kwa kulinganishwa vimehesabiwa. Jedwali 2.4 hutoa mifano mingine ya jinsi vinavyolingana vinaweza kutumika kwa vyanzo vya data kubwa.
Lengo la msingi | Chanzo cha data kubwa | Kumbukumbu |
---|---|---|
Athari ya kupigwa risasi kwa unyanyasaji wa polisi | Rekodi ya kuacha-na-frisk | Legewie (2016) |
Athari ya Septemba 11, 2001 kwa familia na majirani | Kumbukumbu za kupiga kura na rekodi za mchango | Hersh (2013) |
Utoaji wa kijamii | Mawasiliano na data ya kupitishwa kwa bidhaa | Aral, Muchnik, and Sundararajan (2009) |
Kwa kumalizia, kulinganisha madhara ya causal kutoka data zisizo za majaribio ni vigumu, lakini mbinu kama vile majaribio ya asili na marekebisho ya takwimu (kwa mfano, vinavyolingana) zinaweza kutumika. Katika hali fulani, mbinu hizi zinaweza kutendea vibaya, lakini wakati unatumika kwa uangalifu, njia hizi zinaweza kuwa na manufaa kwa mbinu ya majaribio ambayo mimi kuelezea katika sura ya 4. Zaidi ya hayo, njia hizi mbili zinaonekana hasa uwezekano wa kufaidika na ukuaji wa daima- juu, mifumo ya data kubwa.