Približavamo lahko poskuse, ki jih nismo ali ne moremo narediti. Dva pristopa, ki imajo koristi od velikih podatkovnih virov, so naravni poskusi in ujemanje.
Nekatera pomembna znanstvena in politična vprašanja so vzročna. Kakšen je učinek programa usposabljanja na delovnem mestu na plače? Raziskovalec, ki poskuša odgovoriti na to vprašanje, lahko primerja zaslužek ljudi, ki so se prijavili za usposabljanje tistim, ki niso. Toda koliko koli razlika v plačah med temi skupinami je zaradi usposabljanja in koliko je zaradi že obstoječih razlik med ljudmi, ki se prijavijo, in tistimi, ki jih ne? To je težko vprašanje, in to je tisto, ki samodejno ne izgine z več podatkov. Z drugimi besedami, skrb za morebitne obstoječe razlike se pojavlja ne glede na to, koliko delavcev je v vaših podatkih.
V mnogih primerih je najmočnejši način za oceno vzročnega učinka nekega zdravljenja, kot je usposabljanje na delovnem mestu, voditi randomizirani kontrolirani poskus, pri katerem raziskovalec naključno prenaša zdravljenje na nekatere ljudi in ne na druge. Vse poglavje 4 bom posvetil poskusom, zato se bom osredotočil na dve strategiji, ki se lahko uporabijo z neeksperimentalnimi podatki. Prva strategija je odvisna od iskanja nekega dogodka na svetu, ki naključno (ali skoraj naključno) dodeli zdravljenje nekaterim ljudem in ne drugim. Druga strategija je odvisna od statističnega prilagajanja neeksperimentalnih podatkov pri poskusu upoštevanja že obstoječih razlik med tistimi, ki so zdravili in niso prejemali zdravljenja.
Skeptik lahko trdi, da se je treba obema teh strategijam izogniti, ker zahtevajo močne domneve, predpostavke, ki jih je težko oceniti in ki jih v praksi pogosto kršijo. Čeprav soglašam s to trditvijo, menim, da gre preveč daleč. Gotovo je, da je težko zanesljivo izdelati vzročne ocene iz neeksperimentalnih podatkov, vendar mislim, da to ne pomeni, da nikoli ne bi smeli poskusiti. Zlasti neuspešni pristopi so lahko koristni, če logistična omejitev preprečuje izvajanje preizkusa ali če etične omejitve pomenijo, da ne želite izvajati preizkusa. Poleg tega so lahko neeksperimentalni pristopi v pomoč, če želite izkoristiti že obstoječe podatke, da oblikujete naključno nadzorovan preskus.
Pred nadaljevanjem je treba opozoriti tudi na to, da je izdelava vzročnih ocen ena najbolj kompleksnih tem v družbenih raziskavah in tista, ki lahko vodita v intenzivno in čustveno razpravo. V nadaljevanju bom zagotovil optimistični opis vsakega pristopa, da bi zgradil intuicijo o tem, nato bom opisal nekatere izzive, ki se pojavijo pri uporabi tega pristopa. Nadaljnje podrobnosti o vsakem pristopu so na voljo v gradivu na koncu tega poglavja. Če nameravate v svojih raziskavah uporabiti enega od teh pristopov, vam priporočam, da si preberete eno izmed številnih odličnih knjig o vzročni (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Eden od pristopov za izdelavo vzročnih ocen neeksperimentalnih podatkov je iskanje dogodka, ki je naključno določil zdravljenje za nekatere ljudi in ne za druge. Te situacije imenujemo naravne eksperimente . Eden od najjasnejših primerov naravnega eksperimenta izhaja iz raziskave Joshua Angrist (1990) meri učinek vojaških storitev na zaslužek. Med vojno v Vietnamu so Združene države povečale obseg svojih oboroženih sil z osnutkom. Vlada ZDA je za odločitev, kateri državljani bi bila včlanjena v službo, imela loterijo. Vsak datum rojstva je bil napisan na list papirja, in kot je prikazano na sliki 2.7, so bili ti listi izbrani eno za drugo, da bi določili vrstni red, v katerem bi bili mladi moški poklici na službo (mlade ženske niso predmet na osnutek). Na podlagi rezultatov so bili moški, rojeni 14. septembra, najprej imenovani, moški, rojeni 24. aprila, drugi, itd. Končno so bili v tej loteriji pripravljeni moški, rojeni v 195 različnih dneh, medtem ko moški, rojeni 171 dni, niso bili.
Čeprav morda ni takoj očitno, je osnutek loterije kritično podoben randomiziranemu kontroliranemu preizkusu: v obeh primerih so udeleženci naključno dodeljeni, da prejmejo zdravljenje. Za preučitev učinka tega randomiziranega zdravljenja je Angrist izkoristil vedno večji podatkovni sistem: ameriško administracijo za socialno varnost, ki zbira podatke o skoraj vsakem zaslužku Amerike iz zaposlitve. Z združitvijo informacij o tem, kdo je bil naključno izbran v osnutku loterije z podatki o zaslužkih, ki so bili zbrani v vladnih upravnih zapisih, je Angrist zaključil, da so bili zaslužki veteranov približno za 15% nižji od zaslužka primerljivih ne-veteranov.
Kot ponazarja ta primer, včasih družbene, politične ali naravne sile dodeljujejo zdravljenje na način, ki ga lahko raziskovalci izkoristijo, včasih pa učinki teh zdravljenj zajamejo vedno v velikih virih podatkov. Ta raziskovalna strategija lahko povzamemo na naslednji način: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Za ponazoritev te strategije v digitalni dobi si oglejmo študijo Alexandra Mas in Enrico Moretti (2009) ki je poskušala oceniti učinek dela z produktivnimi kolegi na produktivnost delavca. Pred prikazovanjem rezultatov je treba poudariti, da obstajajo nasprotujoča si pričakovanja, ki bi jih lahko imeli. Po eni strani bi lahko pričakovali, da bi delo z produktivnimi kolegi delavca povečalo produktivnost zaradi pritiska vrstnikov. Po drugi strani pa lahko pričakujete, da bi delavci, ki trdo delajo, vodili delavca, da bi delal tako, da bodo dela opravili s svojimi vrstniki. Najjasnejši način za študij medsebojnih učinkov na produktivnost bi bil naključno nadzorovan poskus, pri katerem so delavci naključno dodeljeni premiki z delavci z različnimi stopnjami produktivnosti, nato pa se posledična produktivnost meri za vsakogar. Vendar pa raziskovalci ne nadzorujejo urnika delavcev v kateremkoli pravem poslovanju, zato sta se morala družba Mas in Moretti zanašati na naravni poskus, v katerem so sodelovali blagajniki v supermarketu.
V tem posebnem supermarketu je bila zaradi načina, kako je bilo načrtovano, in način, kako se premiki prekrivajo, vsaka blagajna različnih sodelavcev v različnih časih dneva. Poleg tega je bila v tem posebnem supermarketu dodelitev blagajnikov nepovezana z produktivnostjo njihovih vrstnikov ali kako zaposlen je bila trgovina. Z drugimi besedami, čeprav razporejanje blagajn ni bilo določeno z loterijo, je bilo to, kot da bi bili včasih delavci naključno dodeljeni za delo z visokimi (ali nizkimi) vrstniki produktivnosti. Na srečo je ta supermarket imel tudi sistem za preverjanje digitalne dobe, ki je sledil postavkam, ki jih je vsaka blagajna ves čas skenirala. Iz teh podatkov dnevnika evidenc sta Mas in Moretti ustvarili natančno, individualno in vedno merjeno produktivnost: število pregledanih predmetov na sekundo. Z združitvijo teh dveh stvari - naravne spremembe v kolektivni produktivnosti in vedno produktivnosti - Mas in Moretti ocenjujeta, da bi bila, če bi bila blagajna dodeljena sodelavcem, ki so bili za 10% produktivnejši od povprečja, njena produktivnost povečala za 1,5% . Poleg tega so uporabili velikost in bogastvo svojih podatkov, da bi raziskali dve pomembni vprašanji: heterogenost tega učinka (za katere vrste delavcev je učinek večji?) In mehanizme za učinek (zakaj imajo visoki produktivni vrstniki vodijo do višja produktivnost?). Vrnili se bomo na ta dva pomembna vprašanja - heterogenost učinkov zdravljenja in mehanizmov - v 4. poglavju, ko bomo podrobneje obravnavali eksperimente.
V teh dveh študijah je v tabeli 2.3 povzetih drugih študij, ki imajo to isto strukturo: z uporabo vedno podatkovnega vira za merjenje učinka nekaterih naključnih sprememb. V praksi raziskovalci uporabljajo dve različni strategiji za iskanje naravnih eksperimentov, ki sta lahko plodna. Nekateri raziskovalci se začnejo z vedno na viru podatkov in iščejo naključne dogodke na svetu; drugi začnejo naključni dogodek na svetu in iščejo vire podatkov, ki zajamejo njegov vpliv.
Temeljni poudarek | Vir naravnega eksperimenta | Vedno podatkovni vir | Referenca |
---|---|---|---|
Učinek vrstnikov na produktivnost | Postopek načrtovanja | Podatki o blagajni | Mas and Moretti (2009) |
Formiranje prijateljstva | Hurricanes | Phan and Airoldi (2015) | |
Širjenje čustev | Dež | Lorenzo Coviello et al. (2014) | |
Ekonomski transferji med vrstniki | Potres | Podatki o mobilnem denarju | Blumenstock, Fafchamps, and Eagle (2011) |
Obnašanje osebne potrošnje | 2013 Vlada ZDA zaustavitve | Podatki o osebnih financah | Baker and Yannelis (2015) |
Ekonomski vpliv sistemov priporočanja | Različno | Brskanje po podatkih na Amazon | Sharma, Hofman, and Watts (2015) |
Učinek stresa na nerojene otroke | Izrael-Hezbolahova vojna leta 2006 | Evidence o rojstvu | Torche and Shwed (2015) |
Branje vedenja na Wikipediji | Snowden razkritja | Dnevniki v Wikipediji | Penney (2016) |
Učinek vrstnikov na vadbo | Vreme | Fitnes sledilci | Aral and Nicolaides (2017) |
V dosedanjih razpravah o naravnih eksperimentih sem izstopil iz pomembne točke: včasih je precej zapleteno, da bi se od vrste, ki jo je narava zagotovila temu, kar hočeš. Vračamo se na vzorec primera v Vietnamu. V tem primeru je Angrist zanimal za oceno učinka vojaške službe na zaslužek. Na žalost vojaška služba ni bila naključno dodeljena; namesto tega je bil pripravljen, ki je bil naključno dodeljen. Vendar pa niso bili pripravljeni vsi, ki so bili pripravljeni (obstajajo številne izjeme), in ne vsakdo, ki je služil, je bil pripravljen (ljudje bi lahko prostovoljno služili). Ker je bila pripravljena naključno dodeljena, lahko raziskovalec oceni učinek priprave na vse moške v osnutku. Ampak Angrist ni želel vedeti, kakšen je učinek priprave; želel je vedeti, kakšen je učinek služenja v vojski. Za to oceno pa so potrebne dodatne predpostavke in zapleti. Prvič, raziskovalci morajo domnevati, da je edini način, na katerega se pripiše vplivani zaslužek, uporaba vojaške službe, predpostavka, ki se imenuje omejitev izključitve . Ta predpostavka bi lahko bila napačna, če bi na primer moški, ki so bili pripravljeni, dlje ostali v šoli, da bi se izognili služenju ali če bi delodajalci manj obiskali moške, ki so bili pripravljeni. Na splošno je omejitev izključitve kritična predpostavka in je navadno težko preveriti. Tudi če je omejitev izključitve pravilna, je še vedno mogoče oceniti učinek storitve na vse moške. Namesto tega se izkaže, da lahko raziskovalci ocenijo učinek samo na določeno podskupino moških, ki se imenujejo kompliers (moški, ki bi služili, ko bi bili pripravljeni, vendar ne bi služili, če niso bili pripravljeni) (Angrist, Imbens, and Rubin 1996) . Vendar Compliers ni bila prvotna populacija zanimanja. Upoštevajte, da se ti problemi pojavljajo tudi v sorazmerno čistem primeru loterije. Nadaljnji sklop zapletov se pojavi, če zdravljenje ne določi fizična loterija. Na primer, v študiji Masov in Morettija o blagajnah se pojavijo dodatna vprašanja o domnevi, da je dodelitev vrstnikov v bistvu naključna. Če bi bila ta domneva močno kršena, bi lahko pristranskost ocenila. Za zaključek je lahko naravni poskus močna strategija za izdelavo vzročnih ocen neeksperimentalnih podatkov, veliki viri podatkov pa povečujejo sposobnost izkoriščanja naravnih eksperimentov, ko se pojavijo. Vendar pa bo verjetno zahtevalo veliko skrbi in včasih močne domneve, da preidejo od tistega, kar je narava zagotovila oceni, ki jo želite.
Druga strategija, ki bi jo želela povedati o tem, da bi vzročne ocene ocenili iz neeksperimentalnih podatkov, je odvisna od statističnega prilagajanja neeksperimentalnih podatkov pri poskusu upoštevanja že obstoječih razlik med tistimi, ki so zdravili in niso prejemali zdravljenja. Obstaja veliko takšnih prilagoditvenih pristopov, vendar se bom osredotočil na eno poimensko ujemanje . Pri ujemanju raziskovalec preiskuje neeksperimentalne podatke, da bi ustvaril pare podobnih ljudi, razen tistih, ki so prejeli zdravljenje, in eden ni. V procesu ujemanja raziskovalci dejansko tudi obrezujejo ; to je, zavračanje primerov, kjer ni očitnega ujemanja. Tako bi bila ta metoda natančneje označena z ujemanjem in obrezovanjem, vendar se bom držal tradicionalnega izraza: ujemanje.
Eden od primerov moči strategij ujemanja z ogromnimi neeksperimentalnimi viri podatkov je raziskava vedenja potrošnikov Lira Einava in sodelavcev (2015) . Zanimali so se za dražbe, ki potekajo na eBayu, in pri opisovanju njihovega dela se bom osredotočil na učinek dražbene začetne cene na dražbe, kot so prodajna cena ali verjetnost prodaje.
Najbolj naiven način za oceno učinka začetne cene na prodajno ceno bi bil preprosto izračun končne cene za dražbe z različnimi začetnimi cenami. Ta pristop bi bil v redu, če bi želeli predvideti prodajno ceno glede na začetno ceno. Če pa se vaše vprašanje nanaša na učinek začetne cene, potem ta pristop ne bo deloval, ker ne temelji na poštenih primerjavah; dražbe z nižjimi začetnimi cenami se lahko precej razlikujejo od tistih z višjimi začetnimi cenami (npr. morda za različne vrste blaga ali vključujejo različne vrste prodajalcev).
Če se že zavedate težav, ki se lahko pojavijo pri izračunavanju vzročnih ocen neeksperimentalnih podatkov, lahko preskočite naivni pristop in razmislite o tem, da boste izvedli poljski poskus, v katerem bi prodajali določen predmet - recimo, klub za golf - s fiksnim niz parametrov dražbe - recimo, brezplačna dostava in dražba odprta dva tedna - vendar z naključno dodeljenimi začetnimi cenami. S primerjavo rezultatov na trgu bi ta poljski poskus omogočil zelo jasno meritev učinka začetne cene na prodajno ceno. Toda to merjenje bi veljalo le za en določen izdelek in niz parametrov dražbe. Rezultati so lahko različni, na primer za različne vrste izdelkov. Brez tehtne teorije je težko ekstrapolirati iz tega posamičnega preizkusa v celoten obseg možnih poskusov, ki bi se lahko izvajali. Poleg tega so poljski poskusi dovolj dragi, da ne bi bilo mogoče izvajati vseh sprememb, ki bi jih morda želeli poskusiti.
Za razliko od naivnih in eksperimentalnih pristopov, sta Einav in kolegi sprejela tretji pristop: ujemanje. Glavni trik v svoji strategiji je odkriti stvari, podobne poskusom na terenu, ki so se že zgodili na eBayu. Na primer, v sliki 2.8 so prikazani nekateri izmed 31 seznamov za točno isti golf klub - Taylormade Burner 09 Driver - ki ga prodaja točno isti prodajalec - "budgetgolfer". Vendar pa ima ta 31 seznamov nekoliko drugačne značilnosti, kot so različne začetne ceno, končne datume in pristojbine za dostavo. Z drugimi besedami, kot da bi "budgetgolfer" izvajal eksperimente za raziskovalce.
Ti seznami voznika Taylormade Burner 09, ki jih prodaja "budgetgolfer", so primer primerljivega nabor oglasov, pri katerih točno isti izdelek prodaja isti točen prodajalec, vendar vsakič z nekoliko drugačnimi značilnostmi. V masivnih dnevnikih eBay je dobesedno na stotine tisoč primerljivih nizov, ki vključujejo milijone oglasov. Tako je namesto primerjave končne cene za vse dražbe z dano izhodiščno ceno Einav in sodelavci primerjali v ustreznih sklopih. Einav in sodelavci so združili rezultate primerjav v teh sto stotih tisoč ujemajočih sklopov, ki so ponovno izrazili izhodiščno ceno in končno ceno glede na referenčno vrednost posamezne postavke (npr. Povprečna prodajna cena). Če je na primer voznik Taylormade Burner 09 imel referenčno vrednost 100 evrov (na podlagi njegove prodaje), bi bila začetna cena 10 evrov izražena kot 0,1 in končna cena 120 evrov kot 1,2.
Spomnimo se, da so se Einav in sodelavci zanimali za učinek začetne cene na rezultate dražb. Prvič, uporabili so linearno regresijo, da bi ocenili, da višje začetne cene zmanjšujejo verjetnost prodaje in da višje začetne cene zvišujejo končno prodajno ceno (odvisno od prodaje, ki se je zgodila). Sama po sebi te ocene, ki opisujejo linearno razmerje in so povprečene za vse izdelke, niso vse toliko zanimive. Nato sta Einav in kolegi uporabila veliko količino svojih podatkov, da bi ustvarili različne bolj subtilne ocene. Na primer, z ocenjevanjem učinka ločeno za različne začetne cene so ugotovili, da je razmerje med začetno in prodajno ceno nelinearno (slika 2.9). Zlasti za začetne cene med 0,05 in 0,85 izhodiščna cena zelo malo vpliva na prodajno ceno, kar je bila ugotovitev, ki je bila popolnoma zgrešena s prvo analizo. Nadalje, namesto povprečenja nad vsemi predmeti, so Einav in sodelavci ocenili vpliv začetne cene za 23 različnih kategorij predmetov (npr. Zaloge za hišne živali, elektronika in športna spominska sredstva) (slika 2.10). Te ocene kažejo, da za bolj razlikovalni elementi, kot so začetna cena spominkov, manjši vpliv na verjetnost prodaje in večji učinek na končno prodajno ceno. Poleg tega za bolj komercialne predmete, kot so DVD-ji, izhodiščna cena skorajda ne vpliva na končno ceno. Z drugimi besedami, povprečje, ki združuje rezultate 23 različnih kategorij predmetov, skriva pomembne razlike med temi predmeti.
Tudi če vas na eBay ne zanimajo posebej dražbe, morate občudovati, kako sta slika 2.9 in slika 2.10 ponujata bogatejše razumevanje eBay kot preproste ocene, ki opisujejo linearno razmerje in združujejo več različnih kategorij predmetov. Nadalje, čeprav bi bilo znanstveno mogoče ustvariti te bolj subtilne ocene s poljskimi eksperimenti, bi stroški povzročili takšne poskuse v bistvu nemogoče.
Tako kot z naravnimi eksperimenti obstajajo tudi številni načini, da lahko ujemanje povzroči slabe ocene. Menim, da je največja zaskrbljenost pri ujemanju ocen, da so lahko pristranski zaradi stvari, ki niso bile uporabljene pri ujemanju. Na primer, v svojih glavnih rezultatih so se Einav in sodelavci natančno ujemali na štiri značilnosti: prodajna ID številka, kategorija predmeta, naslov predmeta in podnaslov. Če so bili elementi drugačni na načine, ki niso bili uporabljeni za ujemanje, bi to lahko ustvarilo nepravično primerjavo. Če je na primer "budgetgolfer" pozimi znižal cene za voznika Taylormade Burner 09 (ko so manj priljubljeni golfski klubi), se lahko zdi, da nižje začetne cene vodijo k nižjim končnim cenam, čeprav bi to dejansko pomenilo sezonske spremembe v povpraševanju. Eden od pristopov k reševanju te skrbi je poskus različnih vrst ujemanja. Na primer, Einav in njegovi sodelavci so ponovili svojo analizo, medtem ko se je spremenilo časovno okno, ki se uporablja za ujemanje (ustrezni sklopi so vključevali predmete v prodaji v enem letu, v enem mesecu in istočasno). Na srečo so našli podobne rezultate za vsa časovna okna. Nadaljnja skrb pri ujemanju izhaja iz razlage. Ocene iz ujemanja veljajo samo za ujemajoče podatke; se ne uporabljajo za primere, ki jih ni mogoče ujemati. Einav in sodelavci na primer omejujejo svoje raziskave na predmete, ki so imeli več oglasov, s poudarkom na profesionalnih in polprofesionalnih prodajalcih. Tako pri tolmačenju teh primerjav ne smemo pozabiti, da veljajo le za to podskupino eBay.
Ujemanje je močna strategija za iskanje poštenih primerjav v neeksperimentalnih podatkih. Za mnoge družboslovce se ujemanje zdi najboljše za poskuse, toda to je prepričanje, ki ga je mogoče nekoliko popraviti. Ujemanje velikih podatkov bi bilo lahko boljše od majhnega števila poljskih poskusov, kadar je (1) heterogenost učinkov pomembna in (2) so bile izmerjene pomembne spremenljivke, potrebne za ujemanje. V tabeli 2.4 so predstavljeni nekateri drugi primeri, kako se lahko ujemanje uporabi z velikimi viri podatkov.
Temeljni poudarek | Veliki vir podatkov | Referenca |
---|---|---|
Učinek streljanja na policijsko nasilje | Stop-in-frisk zapisov | Legewie (2016) |
Učinek 11. septembra 2001 na družine in sosede | Zapisi o glasovanju in evidence o darovanju | Hersh (2013) |
Socialna okužba | Podatki o komunikaciji in proizvodu | Aral, Muchnik, and Sundararajan (2009) |
Za zaključek je težko oceniti vzročne učinke iz neeksperimentalnih podatkov, vendar se lahko uporabijo pristopi, kot so naravni posegi in statistične prilagoditve (npr. Ujemanje). V nekaterih situacijah so ti pristopi lahko slabi narobe, toda ob skrbni uporabi teh pristopov lahko koristno dopolnjujejo eksperimentalni pristop, ki ga opisujem v poglavju 4. Poleg tega se zdi, da ti dve pristopi še posebej verjetno koristita rastu vedno večjih, na, velikih podatkovnih sistemov.