Puderemu appruvisà experimenti chì ùn avemu micca o ùn pudemu micca fà. Dui avviamenti chì invece benefiziu da e grande fonti di dati sò l'esperimenti naturali è i matching.
Qualchidimperii scientificu è di pulitica impurtanti sò causal. Per esempiu, chì hè l'effetti di un postu di furmazione per u travagliu nantu à i salarii? Un investigatore chì prova di risponde à sta quistioni pudaria compari li pagi di i persone chì si firmanu in furmazione per quelli chì ùn avianu micca. Ma quantu di qualsiasi diffirenza di i pagi trà i gruppi hè da a furmazione è quantu hè da causa di e prezzi sfarenze trà e persone chì si firmanu è quelli chì ùn sò micca? Questa hè una quistioni difficili, è hè quellu chì ùn viaghja micca automaticamente da più datu. In altri dritti, u preoccupariu di e pussibuli differenzi preexistenti ùn sia impone chì u moltu traballadori sò in i vostri dati.
In parechji situazione, u strumentu più forte di stallà l'effettu causale di qualchì trattamentu, cum'è a furmazione per a furmazione, hè di scorri un esperimentu cuntrullatatu aleatoriu induve un ricerca furnitatu aleatoriu u trattamentu à certi persone è micca altri. Dedicà tuttu u chapitre 4 à l'esperimenti, cusì vogliu centru in dui stratèggi chì pò esse usatu cù e dati non-esperimenti. U primu strategicu dipende di circà una cosa chì succeva in u mondu chì à l'aligre (o casi guasgi) assuciava u trattamentu à certi persone è micca altri. A seconda strategia dipende nantu à l'infurmazioni statistici di e dati non-esperimenti in un tentativu per raccumannighjà i preexistente diferenziu di quelli chì ùn hà micca avutu u trattamentu.
Un scetticu pò esse chjamatu chì e duie sti stratèggièvenu esse evittuti perchè esse bisognu di forti suppositions, suppositions chì sò difficiuli di valutà è chì, in a pràtica, sò spessu violati. Mentre ch'e sò simpaticu à sta sustegnu, pensu chì va un pocu oghje più. Hè veramente certu chì hè difficiule per affidà l'estimazioni causali da a data non-esperimenti, ma ùn crede micca chì significheghja ùn avemu mai pruvà. In particulare, avvicinamenti ùn sperimentali ponu esse uttene si a restuccia logistica impedisce di rializà un esperimentu o se limitazioni etichi significanu chì ùn voi micca vulutu cumprà un esperimentu. Avanzate, avvicinamenti micca esperimenti ponu esse utili si vulete piglià l'apprufessione di dati chì esiste digià in modu di disignà un esperimentu cuntrullatu aleatu.
Prima di prucederà, vale avertisce chì l'estimi causale di causalità hè unu di i temi più cumplicati in a ricerca sociale, è unu chì pò guidà à livellu intensu è emotivo. In ciò chì seguita, offre una descrizzione optimista di ogni avvinta per aduprà a intuizione nantu à questu, dopu avè descrizanu qualchi di i sfidi chì risanenu quandu utilizanu l'approcculu. Aduprate più infurmazioni nantu à ogni trattamentu sò dispunibuli in i materie di a fini di stu capitulu. Se pensa à utilizà unu di questi approcqui in a vostra ricerca, ricumandemu à leghje unu di i parechje libri in (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) causale (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Un avvena à fà estimi causali da e dati non-esperimenti hè di circà un avvenimentu chì hà assignatu un trattu à u chjucu è micca à l'altri. Sti situazione sò chjamati esperimenti naturali . Unu di l'esempii più clarividentivi di un prucessu naturali veni da a ricerca di Joshua Angrist (1990) misura l'effettu di i servizii militari nantu à u livellu. Duranti a guerra in Vietnam, i Stati Uniti anu crescate a grandezza di e forze armati da un abbozzu. Per decide chì citadini èranu chjamati in serviziu, u guvernu americanu detivo un lottere. Ogni annu data di nascita era scritta nantu à un pezzu di carta, è, cum'è mostrate in a Figura 2.7, sti pezzi di carta anu seleccionatu unu à un tempu per pudè determinà l'ordine chì l'omi giovani seranu chjamati per serve (donne chì ùn eranu suggetti à u prughjettu). Basatu nantu à i risultati, i nomi nascini u 14 di settembre sò chjamati prima, l'omini nascuti l'24 d'aprile fù chjamatu second, è cusì. In ultimamente, in questu lotterie, l'omini nascite nantu à 195 ghjorni diffiuli eranu scritti, mentri l'omi nascuti in 171 ghjorni ùn eranu micca.
Ancu s'ellu ùn hè micca esse apparitu, un lotta di prughjettu hà una similitudu crìtica à un esperimentu cuntrullatatu aleatoriu: in dui situazioni, i participanti sò assuciati randomement per riceve un trattamentu. Per studià l'effettu di questu trattamentu aleatoriu, Angrist appiunzianu di un sistema di datu sempre crescenu: l'Amministrazione di l'Assicurazione Soziale Americana, chì recopila informazioni annantu à quasi tutta l'ingaghjamentu di l'americanu di u travagliu. Cumminciò l'infurmazioni annantu à quale fù sceltu à scelta à u scattu di lottere cù e dati di u earnings chì era cullittatu in registri amministrativi amministrativi, Angrist concluiu chì i earnings di i veterani eranu circa 15% di menu di i earnings di cumparace micca veterani.
Cumu stu esempiu illustra, quarchi forza sociali, pulitica o naturali attribuenu trattamenti in una manera chì pò esse inprumata da i circhanti, e quarchi l'effetti di sti tratta sò captu fugliali sempre di grande infurmazioni. Questa stratugia di ricerca pò esse sintinedu cumu seguitu: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Per illustrà sta stratiggia in l'era digitale, cunsiderate un studiu di Alexandre Mas è Enrico Moretti (2009) chì pruvate d'estimà l'effettu di u travagliu cù i culleghi produttivi nantu à a produtividade di u travagliu. Prima di vede i risultati, vale a vintu chì ci sò e prubabili cunflitti chì pudete avè. Invece, pudete esse espertu chì travaglià cù i culleghja pruduzzione guidà un obreru per incrementà a so produtitiva per via di pressione di u peer. Or, per altra parte, pudete esse espertu chì avè parechji sughjetti di travaglià puderia cumportà un obreru per rinfriscà fora perchè u travagliu sarà fattu da i so pari. A modu più chjaru di studià l'effetti di i nivunerii nantu à a produtività seria un prucessu cuntrullativi aleatoriu induve i langari sò assuciati à cuddà cù turnri cun i travagliatore di diversi livelli di produtividade, è a distribuzione resultante hè tutta per tutti. L'investigatore, però, ùn cuntene micca u schedariu di i travagliadori in ogni cummerciale veru, è cusì Mas è Moretti anu avutu di cunfideranu à un esperimentu naturale chì involucra i cashieri in un supermarchariu.
In questu supermecategu particulare, per via di a manera chì a scheduling hè stata fatta è a strada chì si traslassine, ogni cajera hà avutu diverse coperto di travagliu in parechji tempi di u ghjornu. In più, in questu supermecategu particulari, l'assignazione di cashiers ùn anu peru à a produtitività di i soi parenti o quantu a busy tenda era. In altri termini, ancu s'ellu a scheduling di cashiers ùn hè micca stabilitu da una lotterie, era cum'è chì i traballadori sò dettu assignati aleatoriamente à travaglià cù altri (o bassu) produtività parei. Fortunatamente, stu supermeccheru hà avutu ancu un sistema di paghjole di l'impresa digitale chì seguia l'articuli chì cada cuddelu scanning era sempre. Da questa data di log in checkout, Mas è Moretti anu capace di creà una metteta di a produtividade precisa, ndividuale è sempre attive: u numaru d'articuli scanati per seconda. Cumpressà sti dui cose: a variazione naturale in a produtorii di peer è a mette di produtività sempre è Mas, è Moretti hà stimulantu chì, se un boxgeri era attribuitu cagalesi chì eranu 10% più produtivivu ca u mediu, a so produtitiva cresce u 1,5% . Ancu, anu utilizatu a dimensione è a ricchezza di i so dati per scopra dui punti mpurtanti: l' heterogeneità di questu effettue (per quale tipi di traballatori hè l'effettu più grande?) È i miccanichi dopu l'effettu (Perchè quì chì i parenti d'alta produttività guidanu à produttu più altu?). Regresu à sti dui impurtanti impurtanti-heterogeneità di l'effetti di trattamentu è di i miccanizazioni-in u capitu 4 quand'elle discurbei di spirimenti in più dittori.
Generalizazione di sti dui studii, tavule 2.3 resume àutri studii chì anu stallate struttura: utilizendu sempre una fonti da dati per misurà l'effettu di qualchì variazzioni aleativi. In a prublema, i circhuri usanu dui strategi diffirenti per truvà esperimenti naturali, duie chì pò esse fruttivi. Certi circatori accumincianu cun una fonti di dati sempri è cercanu avvene aleatoriu in u mondu; l'altri cumincianu un avvenimentu aleatoriu in u mondu è cercate l'urrigati di dati chì capturanu l'impattu.
Enfocazione sustantivu | Fighjatu di esperimentu naturali | Sempre da a fonte di dati | Reference |
---|---|---|---|
Eghjine di i piani nantu à a pruduzzioni | Prughjettu di Scheduling | Aghjustate dades | Mas and Moretti (2009) |
Formazione di amici | Uragani | Phan and Airoldi (2015) | |
Spread of emotions | Rain | Lorenzo Coviello et al. (2014) | |
Trasferimenti ecunogilii peer-to-peer | Terremoto | Dati di soldi di telefuninu | Blumenstock, Fafchamps, and Eagle (2011) |
I cumpurtamentu di cunsumu personali | Pruduttimentu di u guvernu US 2013 | Dati finanziarii persunali | Baker and Yannelis (2015) |
Impattu ecunomicu di i sistemi recumendenti | Various | Navigazione di dati in Amazon | Sharma, Hofman, and Watts (2015) |
Effutolu di l'estressi à i fugliali nascuto | A guerra di l'Israele-Hezbollah 2006 | Registrazioni di nascita | Torche and Shwed (2015) |
Cumpurtazione di lettura di Wikipedia | Snowden revelations | Wikipedia logs | Penney (2016) |
Eterni parenti nantu à u exercitu | Meteo | Fitness trackers | Aral and Nicolaides (2017) |
In a discussione finu à l'esperimenti naturali, aghju sullivatu un puntu mpurtanti: passendu da a natura chì hà dettu per ciò chì vulete pò esse à sbagliata. Regresu a l'esemplare di u prughjettu di Vietnam. In questu casu, Angrist era interessatu à estimà l'effettu di u servitariu militari nantu à u livellu. Sfortunatamente, u servitariu militari ùn hè micca attribuitu casuale; invece hè statu scrittu chì hè stata assignata aleatoriu. Tuttavia, micca tutti quelli chì sò stati scrivitevi (anu parechje varietà), è ùn tutti chiddi chì servenu hè statu redattatu (a ghjente pò esse voluntiunari à serve). Perchè s'hè redattatu hè stata assignata aleatoriamente, un investigatore pò calculà l'effettu di l'esse redazzione per tutti l'omi in u sughjettu. Ma Angrist ùn hà micca vulutu sapè l'effettu di esse statu redattatu; iddu vulia sapiri l'effettu di sirviziu in l'esercitu. Per fà sta stima, uttina, supposizioni addizzjonali è cumplicazione sò obligatoriati. Prima, i circh merchante avè bisognu chì l'unicu modu chì sia scrittu earnings impacted hè di u serviziu militari, una presunzione chjamà a restrizzioni d'exclusion . Questa assunzioni puderia esse sbagliata se, per esempiu, l'omi chì sò stati scrizati si sò stati in u scudu più longu per ùn evitari di serviziu, o si i patronos foru menu prubabili di chjamà i persone chì sò scritti. In generale, a restrizzioni d'exclusionu hè un suppositivu criticu, è ghjè veramente difficultu di verificà. Ancu se a restrizzioni d'exclusionu hè correctu, hè ancu impossible calculà l'effettu di u serviziu à tutti l'omi. Invece, svinna chì i circhificatori puderanu fà stima l'effettu nantu à un settimane di l'omu chjamati cumandanti (omi chì serveanu quandu u scrivevanu, ma ùn serve micca quandu ùn hè statu scrivutu) (Angrist, Imbens, and Rubin 1996) . A cumplissentista, in ogni modu, ùn eranu micca a populazione originale di interessu. Avemu avutu chì sti prublemi risingnate ancu in u casu pocu nettu di u scopu di lottere. Un altra serie di complicazioni arise quannu u trattamentu ùn hè micca attribuitu da un lottere fisicu. Per esempiu, in u studiu di Masi è Moretti di i cajas, risparmii addiziunà quelli nantu à a cunvinzione chì l'assunsioni di i pari hè essenziu aleatoriu. Se sequest'assunzioni foru forti viulati, puderia sguassà e so estimi. Per cuncludi, l'esperimenti naturali pò esse una struttura putente per fà estimi causali di e dati non-esperimenti, è grandi funzii di dati sviluppanu a nostra abilità di capitalizarii di l'esperimenti naturali quannu si prisentanu. Inoltre, quandu hà bisognu di ricurdà assai cura, è ancu presumibilimenti forti, per andà da quale natura hà furnitu à l'estimazione chì vulete.
A seconda strateġija chì vogliu avè parlatu per fà e estimi causale da e dati non-esperimenti depènite di l'infurmazioni statisticamente micca datu esperimenti in un tentativu di raccumannistariu di differenzi preexistente entre quelli chì ùn hà micca ricevutu u trattamentu. Ci hè parechje alcunu approcqui aghjurnamenti, ma iu fussinu nantu à una chjamata chjina . In cunnessione, l'invellatore vigghia datu dati non-esperimenti per creà pariglii di persone chì sò sìmuli, ma chè ùn hà ricivutu u trattamentu è un anu micca. In u prucessu di currispundenza, i circhificati sò in forma ancu pruning ; hè quellu, scaccià i casi chì ùn sò micca un match evidentemente. Cusì, stu metudu seria più preecidente chjamatu matching-and-pruning, ma aghju pacatu cù u termini tradiziunale: incusà.
Un esempiu di u putere di i strategichi di currispundenza cù l'arti massivi di notte esperimenti pruveni da a ricerca nantu à u cumpurtamentu di u cunsumu da Liran Einav è i culleghji (2015) . Eranu interessate in poi ponu esse realizatu nantu à eBay, è à discrivinu i so travagliu, fistinu nantu à l'effetti di a subestazione u principiu di u prezzu di a subestazione, cum'è u prezzu di vendita o a probabilità di una vendita.
A manera più ingenua per l'estimazioni di l'effettu di u prezzu di u prezzu di vendita seria da fà calculà u prezzu finali di eussie cù prezzi differenti di i primi. Stu approcciu fussi bella si vous avete predichendu u prezzu di vendita in u prezzu di partenza. Ma se u vostru quistione cuntene l'effettu di u prezzu di u principiu, stu situ ùn hà micca travagliatu perchè ùn hè micca basatu nantu à i paraguni ragiuni; i vittimi cù prezzi iniziali bassu pò esse assai diferenti di quelli chì anu priciduti di u principiu (per esempiu, puderianu esse per diverse tipi di merchenzie o includenu tipi di vende).
Sì avà cunnisciutu ancu di i prublemi chì puderianu arreri à l'estruazione causale di l'infurmazioni micca fattiali, pudete sguassate l'ingenu ingenu è cunzidira à esse travagliatu un sperimentu campu induve puderebbe vende un sughjettu specificu - per esempiu, un club di golf settore di parametri di a subestazione -dice, u trasportu liberu è subranta aperta per duie settimane, ma cù tariffi di l'iniziu devenuti. Si compara u risultatu di u mercatu resultanti, stu prughjettu di u campu offre una metida assai precisa di l'effettu di u prezzu di u prezzu di vendita. Ma sta mettazione solu s'applicava à un pruduttu particulare è settice di parametri di a subestazione. I risultati sò ancu esse sfarenti, per esempiu, per parechji prudutti di prudutti. Senza una teurìa forte, hè difficiule di extrapolate da stu sperimentu à l'intervalu di esperimenti pussibuli chì puderanu esse arrigistrati. In più, i esperimenti campi sò abbastanza custu caru ch'ella sia micca esibili di curreva ogni variazioni chì vi pudete vulete pruvà.
In contraste cù i prupietà ingenu è esperimentali, Einav è i culleghji piglià un third approach: matching. U truccu principalu in a so strategia hè di scopre a cosa simili à esperimenti di campagni chì anu succorsu in eBay. Per esempiu, a figura 2.8 turca parechji di i 31 lista per esattamente u stessu club di golf, a Taylormade Burner 09 Driver-being vendite per esattamente u stessu vendeur- "budgetgolfer". In ogni casu, sti 31 listessi sò caractères uni, cum'è un prezzu, data di finamente, è e penalità di u traspurtadore. In altri termini, hè cum'è s'ellu "budgetgolfer" viaghja esperimenti per i circh merchandise.
Questi listi di u Taylormade Burner 09 u Driver chì vendenu per "budgetgolfer" sò un esempiu di parechje settimane di listessi, induve l'esemplariu di listessu pezzu hè stata vende da u venditore exactu, ma cada volta cun un ligeramente diverse caratteristiche. Dintra i ghjurnali massi di l'eBay ci sò literalment cintunari di milioni di parechje cumuni cumplicati milioni di listi. Cusì, invece di circà u prezzu finali per tutte l'articuli cù u prezzu di u prezzu di prima, Einav è i culleghi palesanu in parechji gruppi. Per pudè cumbattà i risultati da i paraguni in questa cintinaje di millaie di parechji partenarii, Einav è i culleghji résignate u prezzu di u partitu è u prezzu finali in termine di u valore di riferimentu di ogni sughjettu (per esempiu, u prezzu di venda mediu). Per esempiu, se u Taylormade Burner 09 Driver hà avutu un valore di referenze di $ 100 (basatu nantu à a so vendita), u prezzu di u primu di 10 $ è esse espressatu da 0,1 è un prezzu finali di $ 120 per 1,2.
Ricordemu chì Einav è i culleghi sò intesu interessate in l'effettu di u prezzu di iniziale in risultati di a subestazione. Prima, anu usatu riprissioni lineari per stummà chì i prezzi iniziali più altimi diminuite a probabilità di una vendita, è chì i prezzi di più iniziale aumente u prezzu di vendita finale (basatu supra una venditura chì sò). Per elli, sti stimi, chì scrivanu a relazione lineale è sò meddi nantu à tutti i prudutti, sò micca tutti quelli interessanti. Allora, Einav è i culleghi utilizzonu a grandezza massima di i so dati per creà una varietà di estimi più suttili. Per esempiu, stimannu l'effettu per separà per una varietà di prezzi di u principiu, anu truvatu chì a rapportu entre u prezzu di u prezzu di vendita ùn hè micca spaziali (figura 2.9). In particulare, per i primi di preghjudizii trà 0.05 è 0.85, u prezzu iniziale ùn hà assai impattu à u prezzu di vendita, un truvatu chì hè stata sbarcata da u so prima analisi. Aiutà, invece di medità di tutti l'elementi, Einav è i culleghi stimani l'impattu di u prezzu di u principiu per 23 categurie diffeenti d'articuli (per esempiu, provvisti per l'animali, l'elettronica, è memorabilia sportivi) (figura 2.10). Queste estimazioni indicanu chì per un ingaghjamentu più distintivu-com'è u tempu di memorabilia hè un uperazione più chjuve nantu à a probabilità di una vendita è un effettu più grande nantu à u prezzu di vendita finali. Cumplementu, per ognunu commodificatu-cum'è DVD, u prezzu di u partitu ùn hè micca guasi micca impattu in u prezzu finali. In altri termini, un mediu chì combina risultati da 23 categurie diffarenti di articuli oculamusate differenzi impurtanti trà l'articuli.
Ancu s'ellu ùn hè micca particularmente interessatu in eussure in eBay, avete a ammirazione di a manera chì a figura 2.9 è a figura 2.10 offre un cumprice più riccu di l'eBay cà stimi simplici chì scrivevendu una relazione lineale è combina numerosi categorii diffusuli d'articuli. In più, anche era pussibile xjentificatu per generà sti stimi più suttili cù esperimenti campi, u costu faria cumu spirimintali essenzalmentamenti impossible.
Cum'è l'esperimenti naturali, ci sò parechje modi chì currispundenza pò causà stimi estimi. Pensu chì a maiuri preoccupazione cù e estimazioni currispundenti hè chì ponu esse preghjudizie da e cose chì ùn sò micca usati in a currispundenza. Per esempiu, in i so rivenuti principali, Einav è i culleghi fècenu a fugliale esatta in quattru caratteristiche: numinariu ID di vinditariu, categurie d'articulu, titulu d'articulu è sottotitolu. Se l'articuli si eranu diffirenti di modi chì ùn anu micca usatu per currisponde, quì puderia creà una cumparazione in leia. Per esempiu, se "budgetgolfer" hà dimustratu i prezzi di u Taylormade Burner 09 Impulser à l'invernu (quandu i piacè di piacè son pocu pupulari), puderia esse da chì i prezzi iniziali di i primi righjistani à i prezzi finale più bassi, quandu in fattu, questu seria un artefactu di variazioni staghjunali in a dumanda. Un avvicinamentu per affruntà stu prublema hè prova à molti tanti tipi di currispundenza. Per esempiu, Einav è i culleghji ripetuta l'analisi cambiatanu a finestra di u tempu utilizata per currisponde (parechje setti inclusi l'articuli à venda in un annu, in u settimane, è in tempu cuntempu). Fortunatamente, truvaru risultati simili per tutti i Windows. Un altru prublema cù cunnessione neceva da l'interpretazione. Estimi da accusate ùn sò micca applicà à i dati cumparati; ùn anu micca appiicatu à i casi chì ùn anu micca esse cumparatu. Per esempiu, limitendu a so ricerca à l'articuli chì avianu assai offres, Einav è i culleghi fucalizza nantu à i venditori prufessiunali è semi-prufessori. Cusì, à l'intrepretazione di sti paraguni, deve ricordate chì sò solu appiecanu à questu subsettu d'eBay.
A cunnessione hè una stesa putente per truvà i compareable nunda in e dati non-esperimenti. Per parechje scientifichi suciali, u rispettu sinsi second-better to experiments, ma hè una crede chì pò esse riveduta, ligeramente. A cunnessione in massive data puderia esse megliu ch'è un pocu nimu di sperimenti fieldu quandu (1) l'heterogeneità in effetti hè impurtante è (2) i vargari impurtanti necessarisi per a currispundenza sò stati misurati. A Table 2.4 dispunì certi autri esempi di cume currispundenza pò esse usata da e grande fonti di dati.
Enfocazione sustantivu | Big data source | Reference |
---|---|---|
Effettu di tirotei nantu à a viulenza polizia | I registri d'altru | Legewie (2016) |
Effettu di l'11 di settembre di u 2001 nantu à e famìglie è i vicini | Votazione è registri di donazione | Hersh (2013) |
Contagion Soziale | Cumunicazione è adopru di produttu | Aral, Muchnik, and Sundararajan (2009) |
In cunclusioni, l'estimazione d'effetti causali da e dati non-esperimenti hè difficiule, ma si ponu accade, cumu l'esperimenti naturali è agenze statistici (per esempiu, matching). In certi situazione, queste st'ac possibleità pò esse malati, ma quandu s'imperanza cun prugioni, sti stigazioni ponu esse un supplementu utili à l'approcmentu esperimentali ch'e aghju scrittu in u capu 4. In più, sti dui approczii parveni assai probabili di benefiziu da u crescitu di sempre- nantu à e grandi sistemi di dati.