Possiamo approssimare esperimenti che non abbiamo o non possiamo fare. Due approcci che traggono particolare beneficio dalle grandi fonti di dati sono gli esperimenti e le corrispondenze naturali.
Alcune importanti questioni scientifiche e politiche sono causali. Ad esempio, qual è l'effetto di un programma di formazione professionale sui salari? Un ricercatore che cerchi di rispondere a questa domanda potrebbe confrontare i guadagni delle persone che si sono iscritte per la formazione a coloro che non lo hanno fatto. Ma quale differenza di salario tra questi gruppi è dovuta alla formazione e quanto è dovuto a differenze preesistenti tra le persone che si iscrivono e quelle che non lo fanno? Questa è una domanda difficile, ed è quella che non va via automaticamente con più dati. In altre parole, la preoccupazione riguardo alle possibili differenze preesistenti si pone indipendentemente dal numero di lavoratori presenti nei dati.
In molte situazioni, il modo più efficace per stimare l'effetto causale di alcune terapie, come la formazione professionale, consiste nell'eseguire un esperimento controllato randomizzato in cui un ricercatore consegna casualmente il trattamento ad alcune persone e non ad altre. Dedicherò tutto il capitolo 4 agli esperimenti, quindi qui mi concentrerò su due strategie che possono essere utilizzate con dati non sperimentali. La prima strategia dipende dalla ricerca di qualcosa che accade nel mondo che casualmente (o quasi casualmente) assegna il trattamento ad alcune persone e non ad altre. La seconda strategia dipende dall'adattamento statistico dei dati non sperimentali nel tentativo di spiegare le differenze preesistenti tra coloro che hanno fatto e non hanno ricevuto il trattamento.
Uno scettico potrebbe affermare che entrambe queste strategie dovrebbero essere evitate perché richiedono forti ipotesi, assunti difficili da valutare e che, in pratica, sono spesso violati. Mentre sono solidale con questa affermazione, penso che vada un po 'troppo lontano. È certamente vero che è difficile rendere attendibili stime causali da dati non sperimentali, ma non penso che ciò significa che non dovremmo mai provarci. In particolare, gli approcci non sperimentali possono essere utili se il vincolo logistico ti impedisce di condurre un esperimento o se i vincoli etici significano che non vuoi eseguire un esperimento. Inoltre, approcci non sperimentali possono essere utili se si desidera sfruttare i dati già esistenti per progettare un esperimento controllato randomizzato.
Prima di procedere, vale anche la pena notare che fare stime causali è uno degli argomenti più complessi nella ricerca sociale, e che può portare a un dibattito intenso ed emotivo. In quanto segue, fornirò una descrizione ottimistica di ciascun approccio al fine di costruire intuizione su di esso, quindi descriverò alcune delle sfide che sorgono quando si utilizza tale approccio. Ulteriori dettagli su ciascun approccio sono disponibili nei materiali alla fine di questo capitolo. Se si prevede di utilizzare uno di questi approcci nella propria ricerca, consiglio vivamente di leggere uno dei tanti libri eccellenti (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) causale (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) .
Un approccio per fare stime causali da dati non sperimentali è cercare un evento che abbia assegnato casualmente un trattamento ad alcune persone e non ad altri. Queste situazioni sono chiamate esperimenti naturali . Uno degli esempi più chiari di un esperimento naturale viene dalla ricerca di Joshua Angrist (1990) misura l'effetto dei servizi militari sui guadagni. Durante la guerra in Vietnam, gli Stati Uniti aumentarono le dimensioni delle sue forze armate attraverso un progetto. Per decidere quali cittadini sarebbero stati chiamati in servizio, il governo degli Stati Uniti ha organizzato una lotteria. Ogni data di nascita è stata scritta su un pezzo di carta e, come mostrato nella figura 2.7, questi pezzi di carta sono stati selezionati uno alla volta per determinare l'ordine in cui i giovani sarebbero stati chiamati a servire (le giovani donne non erano soggette alla bozza). Sulla base dei risultati, gli uomini nati il 14 settembre furono chiamati per primi, gli uomini nati il 24 aprile furono chiamati seconde, e così via. Alla fine, in questa lotteria, sono stati arruolati uomini nati in 195 giorni diversi, mentre gli uomini nati in 171 giorni non lo erano.
Anche se potrebbe non essere immediatamente evidente, un progetto di lotteria ha una somiglianza critica con un esperimento controllato randomizzato: in entrambe le situazioni, i partecipanti vengono assegnati in modo casuale a ricevere un trattamento. Per studiare l'effetto di questo trattamento randomizzato, Angrist ha approfittato di un sistema di big data sempre attivo: l'US Social Security Administration, che raccoglie informazioni su praticamente tutti i guadagni degli americani dall'occupazione. Combinando le informazioni su chi è stato selezionato a caso nella bozza della lotteria con i dati sui guadagni raccolti nei documenti amministrativi governativi, Angrist ha concluso che i guadagni dei veterani erano inferiori di circa il 15% rispetto ai guadagni di non veterani comparabili.
Come illustra questo esempio, a volte forze sociali, politiche o naturali assegnano trattamenti in un modo che può essere sfruttato dai ricercatori, e a volte gli effetti di questi trattamenti sono catturati da fonti di dati di grandi dimensioni. Questa strategia di ricerca può essere riassunta come segue: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
Per illustrare questa strategia nell'era digitale, prendiamo in considerazione uno studio di Alexandre Mas e Enrico Moretti (2009) che ha cercato di stimare l'effetto di lavorare con colleghi produttivi sulla produttività di un lavoratore. Prima di vedere i risultati, vale la pena sottolineare che ci sono aspettative contrastanti che potresti avere. Da un lato, ci si potrebbe aspettare che lavorare con colleghi produttivi porterebbe un lavoratore ad aumentare la propria produttività a causa della pressione dei pari. Oppure, d'altro canto, ci si potrebbe aspettare che avere coetanei laboriosi possa costringere un lavoratore a rallentare perché il lavoro sarà comunque svolto dai suoi coetanei. Il modo più chiaro per studiare gli effetti dei pari sulla produttività sarebbe un esperimento controllato randomizzato in cui i lavoratori vengono assegnati in modo casuale a turni con lavoratori di diversi livelli di produttività e quindi la produttività risultante viene misurata per tutti. I ricercatori, tuttavia, non controllano il programma dei lavoratori in nessun affare reale, e così Mas e Moretti dovettero fare affidamento su un esperimento naturale che coinvolgesse i cassieri in un supermercato.
In questo particolare supermercato, a causa del modo in cui è stata eseguita la pianificazione e del modo in cui i turni si sono sovrapposti, ogni cassiere ha avuto diversi collaboratori in momenti diversi della giornata. Inoltre, in questo particolare supermercato, l'assegnazione dei cassieri non era correlata alla produttività dei loro coetanei o quanto fosse occupato il negozio. In altre parole, anche se la pianificazione dei cassieri non era determinata da una lotteria, era come se i lavoratori fossero a volte assegnati in modo casuale a lavorare con coetanei di produttività alti (o bassi). Fortunatamente, questo supermercato aveva anche un sistema di check-up per l'età digitale che registrava gli oggetti che ogni cassiere stava controllando in ogni momento. Da questi dati del log di checkout, Mas e Moretti sono stati in grado di creare una misura della produttività precisa, individuale e sempre attiva: il numero di elementi scansionati al secondo. Combinando queste due cose - la variazione naturale della produttività tra pari e la misura della produttività sempre disponibile - Mas e Moretti stimavano che se a un cassiere fossero stati assegnati collaboratori il 10% più produttivi della media, la sua produttività aumenterebbe dell'1,5% . Inoltre, hanno usato la dimensione e la ricchezza dei loro dati per esplorare due importanti questioni: l' eterogeneità di questo effetto (per quali tipi di lavoratori è l'effetto più grande?) E i meccanismi dietro l'effetto (Perché avere peer ad alta produttività portano a maggiore produttività?). Torneremo a queste due importanti questioni - l'eterogeneità degli effetti e dei meccanismi del trattamento - nel capitolo 4, quando discuteremo gli esperimenti in modo più dettagliato.
Generalizzando da questi due studi, la tabella 2.3 riassume altri studi che hanno questa stessa struttura: utilizzando una fonte di dati sempre attiva per misurare l'effetto di alcune variazioni casuali. In pratica, i ricercatori usano due diverse strategie per trovare esperimenti naturali, che possono entrambi essere fruttuosi. Alcuni ricercatori iniziano con una fonte di dati sempre attiva e cercano eventi casuali nel mondo; altri iniziano un evento casuale nel mondo e cercano fonti di dati che ne catturino l'impatto.
Focus sostanziale | Fonte di esperimento naturale | Fonte di dati sempre attiva | Riferimento |
---|---|---|---|
Effetti dei pari sulla produttività | Processo di pianificazione | Dati di pagamento | Mas and Moretti (2009) |
Formazione amicizia | uragani | Phan and Airoldi (2015) | |
Diffusione di emozioni | Pioggia | Lorenzo Coviello et al. (2014) | |
Trasferimenti economici peer-to-peer | Terremoto | Dati di denaro mobile | Blumenstock, Fafchamps, and Eagle (2011) |
Comportamento di consumo personale | 2013 arresto del governo degli Stati Uniti | Dati di finanza personale | Baker and Yannelis (2015) |
Impatto economico dei sistemi di raccomandazione | vario | Dati di navigazione su Amazon | Sharma, Hofman, and Watts (2015) |
Effetto dello stress sui bambini non ancora nati | 2006 Guerra Israele-Hezbollah | Documenti di nascita | Torche and Shwed (2015) |
Comportamento di lettura su Wikipedia | Rivelazioni di Snowden | Log di Wikipedia | Penney (2016) |
Effetti dei pari sull'esercizio | Tempo metereologico | Inseguitori di fitness | Aral and Nicolaides (2017) |
Nella discussione finora sugli esperimenti naturali, ho lasciato fuori un punto importante: passare da quello che la natura ha fornito a ciò che si desidera a volte può essere alquanto complicato. Torniamo all'esempio di bozza del Vietnam. In questo caso, Angrist era interessato a stimare l'effetto del servizio militare sui guadagni. Sfortunatamente, il servizio militare non è stato assegnato in modo casuale; piuttosto è stato redatto che è stato assegnato in modo casuale. Tuttavia, non tutti quelli che sono stati arruolati hanno servito (ci sono state una serie di esenzioni), e non tutti quelli che hanno prestato servizio sono stati arruolati (le persone potrebbero offrirsi come volontari per servire). Poiché la stesura è stata assegnata in modo casuale, un ricercatore può stimare l'effetto della stesura di tutti gli uomini nella bozza. Ma Angrist non voleva sapere l'effetto di essere arruolato; voleva sapere l'effetto del servizio militare. Per fare questa stima, tuttavia, sono necessarie ulteriori ipotesi e complicazioni. In primo luogo, i ricercatori devono presupporre che l'unico modo in cui gli stipendi interessati siano redatti è attraverso il servizio militare, un'ipotesi chiamata restrizione di esclusione . Questa ipotesi potrebbe essere sbagliata se, ad esempio, gli uomini redatti restassero a scuola più a lungo per evitare di servire o se i datori di lavoro avessero meno probabilità di assumere uomini che erano stati arruolati. In generale, la restrizione di esclusione è un'ipotesi critica e di solito è difficile da verificare. Anche se la restrizione di esclusione è corretta, è ancora impossibile stimare l'effetto del servizio su tutti gli uomini. Invece, si scopre che i ricercatori possono solo stimare l'effetto su uno specifico sottoinsieme di uomini chiamati costruttori (uomini che servirebbero una volta redatti, ma che non servirebbero se non redatti) (Angrist, Imbens, and Rubin 1996) . I costruttori, tuttavia, non erano la popolazione di interesse originale. Si noti che questi problemi sorgono anche nel caso relativamente pulito della bozza della lotteria. Un'ulteriore serie di complicazioni sorge quando il trattamento non viene assegnato da una lotteria fisica. Ad esempio, nello studio dei cassieri di Mas e Moretti, sorgono ulteriori domande sull'ipotesi che l'assegnazione dei pari sia essenzialmente casuale. Se questa ipotesi fosse fortemente violata, potrebbe distorcere le loro stime. Per concludere, gli esperimenti naturali possono essere una potente strategia per fare stime causali da dati non sperimentali, e le fonti di big data aumentano la nostra capacità di capitalizzare su esperimenti naturali quando si verificano. Tuttavia, probabilmente richiederà una grande cura - e talvolta forti presupposti - per passare da ciò che la natura ha fornito alla stima che si desidera.
La seconda strategia di cui vorrei parlarvi per fare stime causali da dati non sperimentali dipende dalla regolazione statisticamente dei dati non sperimentali nel tentativo di spiegare le differenze preesistenti tra coloro che hanno fatto e non hanno ricevuto il trattamento. Ci sono molti approcci di regolazione di questo tipo, ma mi concentrerò su una corrispondenza chiamata. Nell'abbinamento, il ricercatore esamina i dati non sperimentali per creare coppie di persone simili, tranne che uno ha ricevuto il trattamento e l'altro no. Nel processo di abbinamento, i ricercatori stanno anche potando ; cioè, scartando i casi in cui non ci sono corrispondenze evidenti. Pertanto, questo metodo sarebbe chiamato più accuratamente abbinamenti e sfoltimento, ma rimarrò con il termine tradizionale: corrispondenza.
Un esempio del potere delle strategie di abbinamento con enormi fonti di dati non sperimentali deriva dalla ricerca sul comportamento dei consumatori di Liran Einav e colleghi (2015) . Erano interessati alle aste che si svolgono su eBay, e nel descrivere il loro lavoro, mi concentrerò sull'effetto del prezzo di partenza dell'asta sui risultati dell'asta, come il prezzo di vendita o la probabilità di una vendita.
Il modo più ingenuo per stimare l'effetto del prezzo di partenza sul prezzo di vendita sarebbe semplicemente calcolare il prezzo finale per le aste con prezzi di partenza diversi. Questo approccio andrebbe bene se si voleva prevedere il prezzo di vendita dato il prezzo di partenza. Ma se la tua domanda riguarda l'effetto del prezzo di partenza, allora questo approccio non funzionerà perché non è basato su confronti equi; le aste con prezzi iniziali più bassi potrebbero essere molto diversi da quelli con prezzi iniziali più alti (ad esempio, potrebbero essere per diversi tipi di merci o includere diversi tipi di venditori).
Se sei già a conoscenza dei problemi che possono sorgere quando effettui stime causali da dati non sperimentali, potresti saltare l'approccio ingenuo e prendere in considerazione la possibilità di eseguire un esperimento sul campo in cui vendere un articolo specifico, ad esempio una mazza da golf, con un prezzo fisso serie di parametri d'asta - diciamo, spedizione gratuita e asta aperta per due settimane - ma con prezzi di partenza assegnati casualmente. Confrontando i risultati di mercato risultanti, questo esperimento sul campo offrirebbe una misurazione molto chiara dell'effetto del prezzo di partenza sul prezzo di vendita. Ma questa misura si applicherebbe solo ad un particolare prodotto e ad un set di parametri d'asta. I risultati potrebbero essere diversi, ad esempio, per diversi tipi di prodotti. Senza una teoria forte, è difficile estrapolare da questo singolo esperimento all'intera gamma di esperimenti possibili che potrebbero essere stati eseguiti. Inoltre, gli esperimenti sul campo sono sufficientemente costosi che sarebbe impossibile eseguire ogni variazione che si potrebbe desiderare di provare.
In contrasto con gli approcci ingenui e sperimentali, Einav e colleghi hanno adottato un terzo approccio: l'abbinamento. Il trucco principale nella loro strategia è scoprire cose simili a esperimenti sul campo che sono già accaduti su eBay. Ad esempio, la figura 2.8 mostra alcuni dei 31 elenchi per esattamente la stessa mazza da golf - un driver Taylormade Burner 09 - venduto dallo stesso venditore - "budgetgolfer". Tuttavia, questi 31 elenchi hanno caratteristiche leggermente diverse, come ad esempio partenza differente prezzo, date di fine e spese di spedizione. In altre parole, è come se "budgetgolfer" stia conducendo esperimenti per i ricercatori.
Questi elenchi del driver Taylormade Burner 09 venduto da "budgetgolfer" sono un esempio di un insieme di annunci abbinati, in cui lo stesso oggetto viene venduto dallo stesso venditore, ma ogni volta con caratteristiche leggermente diverse. All'interno dei massicci log di eBay ci sono letteralmente centinaia di migliaia di set abbinati che coinvolgono milioni di inserzioni. Pertanto, anziché confrontare il prezzo finale per tutte le aste con un determinato prezzo di partenza, Einav e colleghi hanno confrontato i set corrispondenti. Al fine di combinare i risultati dei confronti all'interno di queste centinaia di migliaia di set abbinati, Einav e colleghi hanno ri-espresso il prezzo di partenza e il prezzo finale in termini di valore di riferimento di ciascun articolo (ad esempio, il suo prezzo medio di vendita). Ad esempio, se il driver Taylormade Burner 09 avesse un valore di riferimento di $ 100 (in base alle sue vendite), un prezzo iniziale di $ 10 sarebbe espresso in 0.1 e un prezzo finale di $ 120 come 1.2.
Ricordiamo che Einav e i suoi colleghi erano interessati all'effetto del prezzo di partenza sui risultati dell'asta. In primo luogo, hanno usato la regressione lineare per stimare che i più alti prezzi di partenza riducessero la probabilità di una vendita e che i più alti prezzi iniziali aumentassero il prezzo finale di vendita (subordinato al verificarsi di una vendita). Di per sé, queste stime, che descrivono una relazione lineare e sono mediate su tutti i prodotti, non sono poi così interessanti. In seguito, Einav e colleghi hanno utilizzato le enormi dimensioni dei loro dati per creare una varietà di stime più sottili. Ad esempio, stimando l'effetto separatamente per una varietà di diversi prezzi di partenza, hanno rilevato che la relazione tra prezzo di partenza e prezzo di vendita non è lineare (figura 2.9). In particolare, per i prezzi di partenza tra 0,05 e 0,85, il prezzo di partenza ha un impatto minimo sul prezzo di vendita, una constatazione che è stata completamente ignorata dalla loro prima analisi. Inoltre, rispetto alla media di tutti gli articoli, Einav e colleghi hanno stimato l'impatto del prezzo di partenza per 23 diverse categorie di articoli (ad es. Forniture per animali domestici, articoli elettronici e cimeli sportivi) (figura 2.10). Queste stime mostrano che per un maggior numero di elementi distintivi, come il prezzo di partenza dei cimeli, ha un effetto minore sulla probabilità di una vendita e un effetto maggiore sul prezzo di vendita finale. Inoltre, per gli articoli più mercificati, come i DVD, il prezzo di partenza non ha quasi alcun impatto sul prezzo finale. In altre parole, una media che combina i risultati di 23 diverse categorie di articoli nasconde importanti differenze tra questi elementi.
Anche se non sei particolarmente interessato alle aste su eBay, devi ammirare il modo in cui la figura 2.9 e la figura 2.10 offrono una comprensione più completa di eBay rispetto alle semplici stime che descrivono una relazione lineare e combinano molte diverse categorie di elementi. Inoltre, anche se sarebbe scientificamente possibile generare queste stime più sottili con esperimenti sul campo, il costo renderebbe tali esperimenti essenzialmente impossibili.
Come per gli esperimenti naturali, ci sono diversi modi in cui l'abbinamento può portare a stime sbagliate. Penso che la preoccupazione maggiore per le stime di corrispondenza sia che possono essere influenzati da elementi che non sono stati utilizzati nella corrispondenza. Ad esempio, nei loro risultati principali, Einav e colleghi hanno fatto corrispondenze esatte su quattro caratteristiche: numero ID venditore, categoria articolo, titolo oggetto e sottotitolo. Se gli articoli erano diversi in modi che non erano usati per la corrispondenza, questo potrebbe creare un confronto ingiusto. Ad esempio, se "budgetgolfer" ha abbassato i prezzi per il driver Taylormade Burner 09 in inverno (quando le mazze da golf sono meno popolari), allora potrebbe sembrare che prezzi di partenza più bassi portino a prezzi finali più bassi, quando in realtà questo sarebbe un artefatto di variazione stagionale della domanda. Un approccio per affrontare questo problema è provare diversi tipi di corrispondenza. Ad esempio, Einav e colleghi hanno ripetuto la loro analisi variando la finestra temporale utilizzata per la corrispondenza (i set abbinati includevano articoli in vendita entro un anno, entro un mese e contemporaneamente). Fortunatamente, hanno trovato risultati simili per tutte le finestre temporali. Un'ulteriore preoccupazione per la corrispondenza deriva dall'interpretazione. Le stime della corrispondenza si applicano solo ai dati corrispondenti; non si applicano ai casi che non potrebbero essere abbinati. Ad esempio, limitando la ricerca ad articoli che avevano più elenchi, Einav e colleghi si stanno concentrando su venditori professionisti e semi-professionisti. Quindi, quando si interpretano questi confronti, dobbiamo ricordare che si applicano solo a questo sottoinsieme di eBay.
Matching è una potente strategia per trovare confronti equi in dati non sperimentali. Per molti studiosi di scienze sociali, l'abbinamento si sente al secondo posto rispetto agli esperimenti, ma questa è una credenza che può essere leggermente modificata. La corrispondenza in enormi quantità di dati potrebbe essere migliore di un piccolo numero di esperimenti sul campo quando (1) l'eterogeneità negli effetti è importante e (2) sono state misurate le variabili importanti necessarie per l'abbinamento. La Tabella 2.4 fornisce alcuni altri esempi di come la corrispondenza può essere utilizzata con le grandi fonti di dati.
Focus sostanziale | Grande fonte di dati | Riferimento |
---|---|---|
Effetto delle sparatorie sulla violenza della polizia | Stop-and-frisk record | Legewie (2016) |
Effetto dell'11 settembre 2001 su famiglie e vicini | Registrazione dei voti e registri delle donazioni | Hersh (2013) |
Contagio sociale | Comunicazione e dati di adozione del prodotto | Aral, Muchnik, and Sundararajan (2009) |
In conclusione, la stima degli effetti causali da dati non sperimentali è difficile, ma possono essere utilizzati approcci quali esperimenti naturali e aggiustamenti statistici (ad esempio, corrispondenza). In alcune situazioni, questi approcci possono sbagliare in modo grave, ma se applicati con attenzione, questi approcci possono essere un utile complemento all'approccio sperimentale che descrivo nel capitolo 4. Inoltre, questi due approcci sembrano particolarmente propensi a beneficiare della crescita di sempre. su, sistemi di big data.