Me saame ligikaudseid katseid, mida me ei ole või ei saa teha. Suured andmeallikad saavad eriti kasu kahte lähenemisviisi: looduslikud katsed ja sobitamine.
Mõned olulised teaduslikud ja poliitilised küsimused on põhjuslikud. Näiteks, milline on tööalase koolituse programmi mõju palkadele? Uurija, kes üritab sellele küsimusele vastata, võib võrrelda koolitust registreerinud inimeste sissetulekuid neile, kes seda ei teinud. Kuid kui suur osa palgaerinevusest nende rühmade vahel on koolituse tõttu ja kui palju on see, et eelnevalt esinevad erinevused registreerunud inimeste ja nende vahel, kes seda ei tee? See on keeruline küsimus ja see ei lähe automaatselt rohkemate andmetega. Teisisõnu tekib mure olemasolevate võimalike erinevuste pärast, olenemata sellest, kui palju töötajaid on teie andmetele.
Paljudes olukordades on mõne ravi, näiteks töökoolituse põhjusliku mõju hindamise tugevaim viis juhtida randomiseeritud kontrollitud eksperimenti, kus teadur suunab juhuslikult ravi mõnedele inimestele, mitte teistele. Ma pühendan kogu peatüki 4 eksperimentidele, nii et siin keskendutakse kahele strateegiale, mida saab kasutada mitte-eksperimentaalsete andmetega. Esimene strateegia sõltub sellest, et otsitakse midagi juhtival kohal maailmas, mis juhuslikult (või peaaegu juhuslikult) määrab ravi mõnedele inimestele, mitte teistele. Teine strateegia sõltub mitte-eksperimentaalsete andmete statistilist korrigeerimist, püüdes arvesse võtta olemasolevaid erinevusi nende vahel, kes tegid ja ei saanud ravi.
Skeptik võib väita, et mõlemat strateegiat tuleks vältida, sest see nõuab tugevaid eeldusi, eeldusi, mida on raske hinnata ja mida sageli rikutakse. Kuigi ma tunnen seda väidet mõistvalt, arvan, et see läheb natuke liiga kaugele. Kindlasti on tõsi, et raskete usaldusväärselt teha põhjuslikke hinnanguid mitte-eksperimentaalsetel andmetel, kuid ma ei usu, et see tähendab, et me ei peaks kunagi proovima. Eriti mitte-eksperimentaalsed lähenemisviisid võivad olla kasulikud, kui logistiline piirang takistab teil katset läbi viia või kui eetilised piirangud tähendavad seda, et te ei soovi katset käitada. Lisaks sellele võivad mittekatsektiivsed lähened olla kasulikud, kui soovite kasutada randomiseeritud kontrollitud eksperimendi kavandamiseks olemasolevaid andmeid.
Enne jätkamist väärib märkimist, et põhjuslike hinnangute tegemine on üks sotsiaalteaduslike teemade kõige keerulisemaid teemasid ning see võib põhjustada intensiivset ja emotsionaalset arutelu. Alljärgnevalt esitan iga lähenemisviisi optimistliku kirjelduse, et luua selle kohta intuitsiooni, siis kirjeldan mõnda selle lähenemisviisi kasutamisel tekkivaid probleeme. Üksikasjalikumat teavet iga lähenemise kohta leiate käesoleva peatüki lõpus olevatest materjalidest. Kui kavatsete oma uurimistöös kasutada mõnda neist lähenemisviisidest, soovitan ma väga lugeda üht suurepärastest raamatutest põhjusliku järelduse kohta (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Üheks lähenemisviisiks mitte-eksperimentaalsete andmete alusel põhjuslike hinnangute tegemisel on otsida sündmust, mis on juhuslikult määranud ravi mõnedele inimestele, mitte teistele. Neid olukordi nimetatakse looduslikeks eksperimentideks . Üks loodusliku katse selgeid näiteid tuleneb Joshua Angrise (1990) uurimustest, mis mõõdavad sõjaväeteenistuste mõju tuludele. Vietnami sõja ajal suurendas Ameerika Ühendriigid oma relvajõudude arvu eelnõu kaudu. Selleks, et otsustada, millised kodanikud hakatakse kasutama, korraldas USA valitsus loteriid. Iga sünnikuupäev oli kirjutatud paberilehele ja, nagu joonisel 2.7 on näidatud, valiti välja need paberitükid korraga, et määrata kindlaks, millises järjekorras nooremaid mehi kutsutakse teenima (noori naisi ei kuulu eelnõule). Tulemuste põhjal kutsuti esimest korda 14. septembril sündinud mehed, 24. aprillil sündinud mehed kutsuti teiseks ja nii edasi. Lõppkokkuvõttes koostati selles loteriumis 195 erineval päeval sündinud mehed, 171 päeval sündinud mehed ei olnud.
Kuigi see ei pruugi olla kohe selge, on loteriil on kriitiline sarnasus randomiseeritud kontrollkatsega: mõlemas olukorras loovutavad osalejad juhuvaliku, et saada ravi. Selle randomiseeritud ravi mõju uurimiseks kasutas Angrist alati alati suurt andmesüsteemi: USA sotsiaalkindlustusametit, mis kogub teavet praktiliselt iga Ameerika tööjõu teenimise kohta. Ühendades teabe, mis juhiloa eelistusest lootsis valiti, koos valitsuse administratiivsetes dokumentides kogutud tulude andmetega, järeldas Angrist, et veteranide sissetulek oli umbes 15% väiksem võrreldavate mitte-veteranide sissetulekust.
Nagu näide illustreerib, näitavad mõnikord sotsiaalsed, poliitilised või looduslikud jõud töötlemisviise selliselt, et teadlased saavad seda kasutada, ja mõnikord mõjutab neid ravimeid alati suuri andmeallikaid. See uurimisstrateegia võib kokku võtta järgmiselt: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Illustreerides seda strateegiat digitaalajastul, vaatleme Alexandre Mas ja Enrico Moretti (2009) uuringut, milles püüti hinnata tootjate kolleegidega töötamise mõju töötaja tootlikkusele. Enne tulemuste nägemist tuleb märkida, et teil on vastuolulised ootused. Ühelt poolt võite eeldada, et töötavate tootjatega kolleegidega töötamine aitaks töötajatel suurendada tootlikkust vastastikuse surve tõttu. Või teisest küljest võiksite eeldada, et raskesti töötavate eakaaslastega töötaja võib töölt maha jätta, sest töötab kõik tema eakaaslased. Selgeim võimalus uurida vastastikuseid mõjusid tootlikkusele oleks juhuslikult kontrollitud eksperiment, milles töötajad suunatakse juhuslikult ümber erineva tootlikkuse tasemega töötajatele ja seejärel hinnatakse tootlikkust kõigile. Kuid teadlased ei kontrolli tegelike ärivaldkondade töötajate ajakava, mistõttu Mas ja Moretti pidid tugineda loomulikule eksperimendile, milles kassapidajad olid supermarketis.
Selles konkreetses supermarketis, kuna ajakava koostamine ja nihutamiskord kattusid, oli igal kassal eri kellaaegadel erinevad kaaskodanikud. Veelgi enam, selles konkreetses supermarketis ei olnud kassapidajate määramine seotud eakaaslaste produktiivsusega või kui palju pood oli. Teisisõnu, kuigi loteriid ei määranud kassaatorite sõiduplaani, oli see, nagu oleksid töötajad mõnikord juhuslikult määratud tööle kõrge (või väikese) tootlikkusega eakaaslastega. Õnneks oli sel supermarketil digitaalajastustasu süsteem, mis jälgis punkte, mida iga kassapidaja kogu aeg skaneeris. Sellest kassasse tehtud logiandmetest suutsid Mas ja Moretti luua täpse individuaalse ja alati tööviljakuse näitaja: arvuteid, mis skaneeriti sekundis. Neid kahte asja ühendades - eakaaslaste tootlikkuse loomulikud erinevused ja tootlikkuse pidev mõõdupuu - Mas ja Moretti hinnangul suurenevad tema kasutegurid 1,5% võrra, kui kaassöörile määratakse 10% keskmisest tootlikumaks töötajad. . Lisaks kasutasid nad nende andmete suurust ja rikkust, et uurida kahte olulist probleemi: selle mõju heterogeensus (milliste töötajate jaoks on suurem mõju?) Ja mõju mehhanismid (miks kõrgetasemelised koostöövõimalused põhjustavad suurem tootlikkus?). Me pöördume tagasi nende kahe olulise probleemi - ravi efektide ja mehhanismide heterogeensuse juurde - 4. peatükki, kui arutame eksperimente üksikasjalikumalt.
Nende kahe uuringu põhjal on tabelis 2.3 võetud kokku muud uuringud, millel on sama struktuur: alati kasutatavate andmeallikate kasutamine mõne juhusliku variatsiooni mõju mõõtmiseks. Praktikas kasutavad teadlased looduslike katsete leidmiseks kahte erinevat strateegiat, millest mõlemad võivad olla viljakad. Mõned teadlased alustavad pidevalt andmeallikaga ja otsivad juhuslikke sündmusi maailmas; teised alustavad juhuslikku sündmust maailmas ja otsivad andmeallikaid, mis kajastavad selle mõju.
Põhiline keskendumine | Loodusliku katse allikas | Pidev andmeallikas | Viide |
---|---|---|---|
Koostöö mõju tootlikkusele | Ajastusprotsess | Checkout'i andmed | Mas and Moretti (2009) |
Sõpruskonna moodustamine | Orkaanid | Phan and Airoldi (2015) | |
Emotsioonide levik | Vihm | Lorenzo Coviello et al. (2014) | |
Rahaülekannete võrdõiguslikkus | Maavärin | Mobiilraamatute andmed | Blumenstock, Fafchamps, and Eagle (2011) |
Isikliku tarbimise käitumine | 2013 USA valitsuse seiskamine | Andmed isikliku finantseerimise kohta | Baker and Yannelis (2015) |
Soovitajate süsteemide majanduslik mõju | Erinevad | Amazoni andmete sirvimine | Sharma, Hofman, and Watts (2015) |
Tõve mõju sündimata lapsele | 2006 Iisraeli-Hezbollahi sõda | Sünnikuupäevikud | Torche and Shwed (2015) |
Kursuse lugemine Wikipedias | Snowden ilmutused | Wikipedia logid | Penney (2016) |
Mõõdukate efektide kasutamine | Ilm | Fitnessi jälgijad | Aral and Nicolaides (2017) |
Looduslike eksperimentidega seni arutatuis jättisin välja ühe olulise küsimuse: loodusest saab selle, mis loodusest on vaja, võib mõnikord olla keeruline. Lähme tagasi Vietnami projekti näitele. Sel juhul huvitas Angrist sõjaväeteenistuse mõju töötasule. Kahjuks ei määratud sõjaväeteenistust juhuslikult; pigem oli see ettevalmistamisel, mis oli juhuslikult määratud. Kuid mitte kõik, keda oli koostatud, olid kätte toimetatud (seal olid mitmesugused erandid), ja mitte kõik, kes teenisid, valmistati ette (inimesed võiksid vabatahtlikult teenida). Arvestades, et koostatud juhuslikult määrati, võib teadlane hinnata eelnõu koostamist kõigi meeste jaoks. Aga Angrond ei tahtnud teada saada, kas see on koostatud; ta tahtsin teada, milline on sõjaväes teenimise mõju. Selle hinnangu tegemiseks on vaja täiendavaid eeldusi ja komplikatsioone. Esiteks peavad teadlased eeldama, et ainus viis, kuidas koostatud mõjutatud tulu kujuneb, on ajateenistuse kaudu, eeldus on väljajätmise piirang . See eeldus võib olla vale, kui näiteks kavandatud mehed jäid kooli kauemaks, et vältida teenimist või kui tööandjad ei võta vähemal määral tööle mehi, kellel oli välja töötatud. Üldiselt on tõrjutuse piiramine kriitiline eeldus ja seda on tavaliselt raske kontrollida. Isegi kui väljajätmispiirang on õige, pole veel võimalik hinnata teenuse mõju kõigile meestele. Selle asemel selgub, et teadlased saavad hinnata ainult teatud meeste nimega komplikeerivate alamhulkade mõju (mehed, kes teeniksid selle koostamisel, kuid ei saaks neid koostada, kui neid ei koostata) (Angrist, Imbens, and Rubin 1996) . Sobivused ei olnud siiski algupärased huvigrupid. Pange tähele, et need probleemid tekivad isegi loterii eelnõu suhteliselt puhas juhtumil. Täiendavad komplikatsioonid tekivad, kui ravi ei ole määratud füüsilise loteriiga. Näiteks Mas ja Moretti kassiiride uurimises tekivad lisaküsimused eeldusel, et eakaaslaste loovutamine on sisuliselt juhuslik. Kui see eeldus oli tugevalt rikutud, võib see hinnangute kõrvalekaldeid. Kokkuvõtteks võib öelda, et looduslikud eksperimendid võivad olla jõulised strateegiad põhjuslike hinnangute tegemiseks mitte-eksperimentaalsetest andmetest, ja suured andmeallikad suurendavad meie võimet kasutada naturaalseid katseid nende tekkimisel. Kuid see nõuab ilmselt väga hoolikalt ja mõnikord tugevaid eeldusi, et minna sellest, mida loodus on andnud hinnangule, mida soovite.
Teine strateegia, mida ma peaksin teile põhjuseta hinnangute tegemiseks mitte-eksperimentaalsetest andmetest tegema, sõltub mitte-eksperimentaalsete andmete statistilist korrigeerimist, püüdes arvestada olemasolevate erinevustega nende vahel, kes tegid ja ei saanud ravi. Selliseid kohandamismeetodeid on palju, kuid ma keskendan ühele sobitamisele . Vastavuses uurib teadlane mitte-eksperimentaalseid andmeid, et luua paar inimesi, kes on sarnased, välja arvatud see, et üks on saanud ravi ja üks ei ole seda teinud. Sobivuse käigus on teadlased ka tegelikult pügamine ; see tähendab, loobudes juhtumitest, kus puudub selge vastavus. Seega oleks seda meetodit õigemini nimetanud sobivuse ja pügamise eesmärgil, kuid ma pean kinni traditsioonilise terminiga: sobitamine.
Üks näide massiivsete mitte-eksperimentaalsete andmeallikate sobivuse strateegiate võimsusest tuleneb Liran Einav ja tema kolleegide (2015) tarbijate käitumise uuringutest. Nad olid huvitatud eBay'is toimuvatest oksjonitest ja ma kirjeldan nende tööd, keskendudes enampakkumise tulemuste enampakkumise algushinna mõjule, näiteks müügihinnale või müügi tõenäosusele.
Müügihinna alghinda kõige naiivam viis oleks lihtsalt arvutada erinevate alghindadega oksjonite lõplik hind. Selline lähenemine oleks hea, kui sa tahaksid ennustada alghinnaga müügihinda. Kuid kui teie küsimus puudutab alghinna mõju, siis see lähenemine ei toimi, sest see ei põhine õiglastel võrdlustel; madalamate alghindadega oksjonid võivad olla suhteliselt erinevad kõrgemate alghindadega (nt võivad need olla erinevat liiki kaubad või hõlmavad eri liiki müüjaid).
Kui te olete juba teadlik probleemidest, mis tekivad mitte-eksperimentaalsete andmete alusel põhjuslike hinnangute tegemisel, võite vahele jätta naiivse lähenemisviisi ja kaaluda välikatset, kus müüte kindlat eset - näiteks golfiklubi - fikseeritud enampakkumise parameetrite kogum, näiteks tasuta saatmine ja enampakkumine kahe nädala jooksul, kuid juhuslikult määratud alghinnad. Saadud turutulemuste võrdlemisel pakub see välieksperiment väga selgelt alghinna mõju müügihinnale. Kuid see mõõtmine kehtib ainult ühe konkreetse toote ja enampakkumise parameetrite kohta. Tulemused võivad olla erinevad, näiteks eri tüüpi toodete puhul. Tugeva teooria puudumisel on seda üksikut eksperimenti raske ekstrapoleerida kogu võimalikesse eksperimentidesse, mida oleks võinud kasutada. Pealegi on välikatsed piisavalt kallid, et oleks võimalik teostada kõiki variatsioone, mida võiksite proovida.
Erinevalt naiivsest ja eksperimentaalsest lähenemisviisist läks Einav ja tema kolleegid kolmanda lähenemisega: sobitamine. Peamine trikk nende strateegias on avastada asju, mis sarnanevad eBay-ga juba toimunud välikatsetes. Näiteks joonis 2.8 näitab mõnda 31 täpselt sama golfiklubi loendit - Taylormade Burner 09 draiverit, mida müüb täpselt sama müüja - "budgetgolfer". Kuid need 31 loenditel on pisut erinevad omadused, näiteks erinevad algused hind, lõppkuupäevad ja laevandus tasud. Teisisõnu on see, nagu oleks "budgetgolfer" teadlastele eksperimente.
Need "budgetgolfer" poolt müüdud Taylormade Burner 09 draiverite nimekirjad on üks näide sobiva nimekirja kogumikust, kus sama objekti müüb täpselt sama müüja, kuid iga kord, kui sellel on veidi erinevad omadused. EBay suurte logide seas on sõna otseses mõttes sadu tuhandeid sobitatud komplekte, mis hõlmavad miljoneid nimekirju. Seega võrdles Einav ja tema kolleegid võrreldavate komplektidega selle asemel, et võrrelda lõpliku hinna kõigi ennustatava alghinnaga oksjonitega. Selleks, et ühendada tulemusi nende sadade tuhandete sobivate komplektide võrdlusest, reklaami Einav ja tema kolleegid uuesti algväärtust ja lõplikku hinda iga üksuse kontrollväärtuse (nt selle keskmine müügihind) osas. Näiteks kui Taylormade Burner 09 draiveril oli kontrollväärtus 100 USD (selle müügi põhjal), siis alghinnaks 10 USD väljendatakse 0,1 ja lõpliku hinnaga 120 USD 1.2-ga.
Tuletame meelde, et Einav ja tema kolleegid olid huvitatud alghinna mõjust oksjoni tulemustele. Esiteks kasutasid nad lineaarset regressiooni, et hinnata, et kõrgemad alghinnad vähendavad müügi tõenäosust ja et kõrgemad alghinnad tõstavad lõpphinda (sõltuvalt müügist toimub). Need hinnangud, mis kirjeldavad lineaarset suhet ja keskenduvad kõikidele toodetele, ei ole iseenesest nii huvitavad. Siis kasutasid Einav ja tema kolleegid oma andmetest suurt hulka, et luua erinevaid peenemaid prognoose. Näiteks hindades erinevatest alghindadest eraldi eraldi mõju, leidsid nad, et alghinna ja müügihinna suhe on mittelineaarsed (joonis 2.9). Täpsemalt, alghindades 0,05-0,85, on alghinnal müügihinnale väga väike mõju, mida esimese analüüsi tulemus jäi täiesti ära. Lisaks sellele hindas Einav ja tema kolleegid selle asemel, et keskmiselt kõigi elementide keskmistamist, 23 erineva kategooria esemete (nt lemmikloomade tarvikud, elektroonika ja spordi mälestused) alghinnaga seotud mõju (joonis 2.10). Need hinnangud näitavad, et rohkem eristatavaid esemeid - näiteks mälestusmärgi alghind - mõjutab väiksemat mõju müügi tõenäosusele ja suuremale mõjule lõplikule müügihinnale. Veelgi enam, rohkem kaubaartiklite puhul, näiteks DVD-de puhul, ei ole alghinnal lõplikku hinda peaaegu mingit mõju. Teisisõnu, keskmine, mis ühendab tulemusi 23 erineva eseme kategooria kohta, varjab olulisi erinevusi nende esemete vahel.
Isegi kui teid eriti ei huvita eBay enampakkumisi, peate imetlema seda, kuidas joonis 2.9 ja joonis 2.10 pakuvad eBay kohta rikkamat mõistmist kui lihtsad hinnangud, mis kirjeldavad lineaarset suhet ja ühendavad palju erinevaid kategooriaid. Lisaks, kuigi teaduslikult oleks võimalik neid väikseid hinnanguid välieksperimentidega genereerida, muudaks need kulud praktiliselt võimatuks.
Nagu loomulike eksperimentide puhul, on ka mitmeid viise, mis sobivad, võib viia halva hinnangu saamiseni. Ma arvan, et suurim mure koos vastavate hinnangutega on see, et neid saab erineda asjadest, mida ei kasutata sobitamisel. Näiteks oma peamistes tulemustes tegi Einav ja tema kolleegid täpse vastavuse neljale omadusele: müüja ID-number, üksuste kategooria, objekti pealkiri ja alapealkiri. Kui objektid olid erinevad viisil, mida ei kasutata sobitamiseks, võib see luua ebaõiglase võrdluse. Näiteks kui "budgetgolfer" alandas Taylormade Burner 09 draiverit talvel (kui golfiklubid on vähem populaarsed), siis võib tunduda, et madalamad alghinnad põhjustavad madalamaid lõplikke hindu, kui tegelikult oleks see artefakt hooajaline nõudluse erinevus. Selle lähenemisviisi lahendamiseks püütakse leida erinevaid sobitamisviise. Näiteks kordasid Einav ja tema kolleegid oma analüüsi, samal ajal varieerides ajakava, mida kasutati sobitamiseks (sobitatud komplektid sisaldasid kaupu müügil ühe aasta jooksul, ühe kuu jooksul ja samaaegselt). Õnneks leidsid nad sarnaseid tulemusi kõigi aja akende jaoks. Järgmine mure seoses vastavusega tuleneb tõlgendamisest. Sobivuse hinnangud kehtivad ainult vastavatele andmetele; neid ei kohaldata juhtudel, mida ei saa ühitada. Näiteks piiravad Einav ja tema kolleegid oma teadusuuringutega piiranguid, et need on objektid, millel on mitu nimekirja, keskendudes professionaalsetele ja poolprofessionaalsetele müüjatele. Seega, kui tõlgendate neid võrdlusi, peame meeles pidama, et need kehtivad ainult selle eBay alamhulga suhtes.
Sobivus on võimas strateegia õiglaste võrdluste leidmiseks mitte-eksperimentaalsetes andmetes. Mitmele sotsiaalteadlale leiab sobitamine eksperimentidele kõige paremini, kuid see on uskumine, mida saab veidi korrigeerida. Massiivsed andmed võivad olla paremad kui väike arv välieksperimente, kui (1) efektide heterogeensus on oluline ja (2) sobivad mõõtmed on olulised muutujad. Tabelis 2.4 on toodud mõned muud näited selle kohta, kuidas sobitamine saab kasutada suuri andmeallikaid kasutades.
Põhiline keskendumine | Suur andmeallikas | Viide |
---|---|---|
Laskmise mõju politsei vägivallale | Stop-and-frisk-arvestused | Legewie (2016) |
11. septembri 2001. aasta mõju peredele ja naabritele | Hääletamisteated ja annetuste protokollid | Hersh (2013) |
Sotsiaalne nakatus | Side ja toote vastuvõtmise andmed | Aral, Muchnik, and Sundararajan (2009) |
Kokkuvõtteks võib öelda, et mitte-eksperimentaalsetest andmetest tulenevate põhjuslike mõjude hindamine on keeruline, kuid võib kasutada selliseid lähenemisi nagu looduslikud katsed ja statistilised kohandused (nt sobivus). Mõnedes olukordades võivad need lähenemisviisid olla halvasti valed, kuid kui neid hoolikalt rakendatakse, võivad need lähenemisviisid olla kasulikuks täienduseks eksperimentaalsele lähenemisele, mida ma peatükis 4 kirjeldan. Lisaks sellele mõjutavad need kaks lähenemisviisi eriti tõenäoliselt alati, suured andmesüsteemid.