Le domande sulla causalità nella ricerca sociale sono spesso complesse e complesse. Per un approccio fondamentale alla causalità basato su grafici causali, vedi Pearl (2009) , e per un approccio fondamentale basato su potenziali risultati, vedi Imbens and Rubin (2015) . Per un confronto tra questi due approcci, vedi Morgan and Winship (2014) . Per un approccio formale alla definizione di un confondente, vedi VanderWeele and Shpitser (2013) .
In questo capitolo, ho creato quella che sembrava una linea luminosa tra la nostra capacità di fare stime causali da dati sperimentali e non sperimentali. Tuttavia, penso che, in realtà, la distinzione sia più sfocata. Ad esempio, tutti accettano che il fumo provoca il cancro, anche se nessun esperimento controllato randomizzato che costringa le persone a fumare è mai stato fatto. Per eccellenti trattamenti a lunghezza di libro Shadish, Cook, and Campbell (2001) stime causali da dati non sperimentali, vedi Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) e Dunning (2012) .
I capitoli 1 e 2 di Freedman, Pisani, and Purves (2007) offrono una chiara introduzione alle differenze tra esperimenti, esperimenti controllati e esperimenti controllati randomizzati.
Manzi (2012) fornisce un'affascinante e leggibile introduzione alle basi filosofiche e statistiche degli esperimenti controllati randomizzati. Fornisce anche interessanti esempi reali del potere della sperimentazione nel mondo degli affari. Issenberg (2012) fornisce un'affascinante introduzione all'uso della sperimentazione in campagne politiche.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 e Athey and Imbens (2016b) forniscono una buona introduzione agli aspetti statistici della progettazione sperimentale e dell'analisi. Inoltre, ci sono trattamenti eccellenti sull'uso di esperimenti in molti campi diversi: economia (Bardsley et al. 2009) , sociologia (Willer and Walker 2007; Jackson and Cox 2013) , psicologia (Aronson et al. 1989) , scienze politiche (Morton and Williams 2010) e politica sociale (Glennerster and Takavarasha 2013) .
L'importanza del reclutamento dei partecipanti (ad es. Il campionamento) è spesso sottovalutata nella ricerca sperimentale. Tuttavia, se l'effetto del trattamento è eterogeneo nella popolazione, il campionamento è fondamentale. Longford (1999) chiarisce questo punto quando sostiene che i ricercatori considerino gli esperimenti come un'indagine sulla popolazione con campionamento casuale.
Ho suggerito che esiste un continuum tra gli esperimenti di laboratorio e quelli sul campo, e altri ricercatori hanno proposto tipologie più dettagliate, in particolare quelle che separano le varie forme di esperimenti sul campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Un certo numero di articoli ha confrontato esperimenti di laboratorio e sul campo in astratto (Falk and Heckman 2009; Cialdini 2009) e in termini di esiti di esperimenti specifici in scienze politiche (Coppock and Green 2015) , economia (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) e psicologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) offrono un bel design di ricerca per confrontare i risultati degli esperimenti in laboratorio e sul campo. Parigi, Santana, and Cook (2017) descrivono come gli esperimenti sul campo online possono combinare alcune delle caratteristiche degli esperimenti in laboratorio e sul campo.
Le preoccupazioni per i partecipanti che cambiano il loro comportamento perché sanno di essere osservate da vicino sono talvolta chiamate effetti della domanda , e sono state studiate in psicologia (Orne 1962) ed economia (Zizzo 2010) . Sebbene siano per lo più associati a esperimenti di laboratorio, questi stessi problemi possono causare problemi anche per esperimenti sul campo. In effetti, gli effetti della domanda sono talvolta chiamati effetti Hawthorne , un termine che deriva dai famosi esperimenti di illuminazione iniziati nel 1924 presso l'Hawthorne Works della Western Electric Company (Adair 1984; Levitt and List 2011) . Entrambi gli effetti di domanda e gli effetti di Hawthorne sono strettamente correlati all'idea di misurazione reattiva discussa nel capitolo 2 (si veda anche Webb et al. (1966) ).
Gli esperimenti sul campo hanno una lunga storia in economia (Levitt and List 2009) , scienze politiche (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicologia (Shadish 2002) e politiche pubbliche (Shadish and Cook 2009) . Un'area di scienze sociali in cui gli esperimenti sul campo sono diventati rapidamente prominenti è lo sviluppo internazionale. Per una recensione positiva di quel lavoro in economia vedi Banerjee and Duflo (2009) , e per una valutazione critica vedi Deaton (2010) . Per una revisione di questo lavoro nelle scienze politiche vedi Humphreys and Weinstein (2009) . Infine, le sfide etiche derivanti dagli esperimenti sul campo sono state esplorate nel contesto delle scienze politiche (Humphreys 2015; Desposato 2016b) e dell'economia dello sviluppo (Baele 2013) .
In questa sezione, ho suggerito che le informazioni pre-trattamento possono essere utilizzate per migliorare la precisione degli effetti del trattamento stimati, ma c'è un certo dibattito su questo approccio; vedi Freedman (2008) , W. Lin (2013) , Berk et al. (2013) e Bloniarz et al. (2016) per ulteriori informazioni.
Infine, ci sono altri due tipi di esperimenti eseguiti da scienziati sociali che non si adattano perfettamente alla dimensione del campo di laboratorio: esperimenti di indagine e esperimenti sociali. Gli esperimenti di sondaggio sono esperimenti che utilizzano l'infrastruttura di indagini esistenti e confrontano le risposte a versioni alternative delle stesse domande (alcuni esperimenti di indagine sono presentati nel Capitolo 3); per ulteriori informazioni sugli esperimenti di sondaggio, vedi Mutz (2011) . Gli esperimenti sociali sono esperimenti in cui il trattamento è una politica sociale che può essere implementata solo da un governo. Gli esperimenti sociali sono strettamente correlati alla valutazione del programma. Per ulteriori informazioni sugli esperimenti sulle politiche, vedi Heckman and Smith (1995) , Orr (1998) e @ glennerster_running_2013.
Ho scelto di concentrarmi su tre concetti: validità, eterogeneità degli effetti del trattamento e meccanismi. Questi concetti hanno nomi diversi in campi diversi. Ad esempio, gli psicologi tendono ad andare oltre i semplici esperimenti concentrandosi su mediatori e moderatori (Baron and Kenny 1986) . L'idea dei mediatori viene catturata da ciò che chiamo meccanismi e l'idea dei moderatori viene catturata da quella che chiamo validità esterna (ad esempio, se i risultati dell'esperimento sono diversi se fossero eseguiti in diverse situazioni) e l'eterogeneità degli effetti del trattamento ( ad esempio, gli effetti sono più grandi per alcune persone che per gli altri).
L'esperimento di Schultz et al. (2007) mostra come le teorie sociali possono essere utilizzate per progettare interventi efficaci. Per una discussione più generale sul ruolo della teoria nella progettazione di interventi efficaci, vedere Walton (2014) .
I concetti di validità interna ed esterna furono introdotti per la prima volta da Campbell (1957) . Vedi Shadish, Cook, and Campbell (2001) per una storia più dettagliata e un'attenta elaborazione della validità statistica finale, validità interna, validità costruttiva e validità esterna.
Per una panoramica delle questioni relative alla validità delle conclusioni statistiche negli esperimenti vedi Gerber and Green (2012) (dal punto di vista delle scienze sociali) e Imbens and Rubin (2015) (dal punto di vista statistico). Alcuni aspetti della validità statistica delle conclusioni che emergono specificatamente negli esperimenti sul campo online comprendono argomenti come metodi computazionalmente efficaci per creare intervalli di confidenza con dati dipendenti (Bakshy and Eckles 2013) .
La validità interna può essere difficile da garantire in esperimenti sul campo complessi. Vedi, ad esempio, Gerber and Green (2000) , Imai (2005) e Gerber and Green (2005) per il dibattito sull'implementazione di un esperimento sul campo complesso sul voto. Kohavi et al. (2012) e Kohavi et al. (2013) forniscono un'introduzione alle sfide della validità dell'intervallo negli esperimenti sul campo online.
Una delle principali minacce alla validità interna è la possibilità di randomizzazione fallita. Un modo potenziale per rilevare i problemi con la randomizzazione è di confrontare i gruppi di trattamento e di controllo sui tratti osservabili. Questo tipo di confronto è chiamato controllo di equilibrio . Vedi Hansen and Bowers (2008) per un approccio statistico al bilanciamento dei controlli e Mutz and Pemantle (2015) per le preoccupazioni sui controlli di equilibrio. Ad esempio, utilizzando un controllo del saldo, Allcott (2011) trovato alcune prove che la randomizzazione non è stata implementata correttamente in tre degli esperimenti Opower (vedi tabella 2, siti 2, 6 e 8). Per altri approcci, vedere il capitolo 21 di Imbens and Rubin (2015) .
Altre importanti preoccupazioni relative alla validità interna sono: (1) non conformità unilaterale, in cui non tutti i membri del gruppo di trattamento hanno effettivamente ricevuto il trattamento, (2) non conformità a due lati, dove non tutti nel gruppo di trattamento ricevono il trattamento e alcune persone in il gruppo di controllo riceve il trattamento, (3) logoramento, dove i risultati non sono misurati per alcuni partecipanti, e (4) interferenza, dove il trattamento trabocca dalle persone nella condizione di trattamento a persone nella condizione di controllo. Vedi i capitoli 5, 6, 7 e 8 di Gerber and Green (2012) per ulteriori informazioni su ciascuno di questi problemi.
Per ulteriori informazioni sulla validità dei costrutti, vedi Westen and Rosenthal (2003) , e per ulteriori informazioni sulla validità dei costrutti nelle fonti di Big Data, Lazer (2015) e il capitolo 2 di questo libro.
Un aspetto della validità esterna è l'impostazione in cui viene testato un intervento. Allcott (2015) fornisce un attento trattamento teorico ed empirico sulla distorsione della selezione del sito. Questo problema è anche discusso da Deaton (2010) . Un altro aspetto della validità esterna è se le operazionalizzazioni alternative dello stesso intervento avranno effetti simili. In questo caso, un confronto tra Schultz et al. (2007) e Allcott (2011) mostrano che gli esperimenti di Opower avevano un effetto stimato minore rispetto agli esperimenti originali di Schultz e colleghi (1,7% contro 5%). Allcott (2011) ipotizzato che gli esperimenti di follow-up avessero un effetto minore a causa dei modi in cui il trattamento differiva: un'emoticon scritta a mano come parte di uno studio sponsorizzato da un'università, confrontata con un'emoticon stampata come parte di una produzione di massa rapporto da una compagnia elettrica.
Per un'eccellente panoramica sull'eterogeneità degli effetti del trattamento in esperimenti sul campo, vedere il capitolo 12 di Gerber and Green (2012) . Per le introduzioni all'eterogeneità degli effetti del trattamento nelle sperimentazioni mediche, vedi Kent and Hayward (2007) , Longford (1999) e Kravitz, Duan, and Braslow (2004) . Le considerazioni sull'eterogeneità degli effetti del trattamento si concentrano generalmente sulle differenze basate sulle caratteristiche del pre-trattamento. Se sei interessato all'eterogeneità sulla base dei risultati post-trattamento, sono necessari approcci più complessi, come la stratificazione principale (Frangakis and Rubin 2002) ; vedi Page et al. (2015) per una recensione.
Molti ricercatori stimano l'eterogeneità degli effetti del trattamento usando la regressione lineare, ma i metodi più recenti si basano sull'apprendimento automatico; vedi, ad esempio, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) e Athey and Imbens (2016a) .
C'è un certo scetticismo sui risultati di eterogeneità degli effetti a causa di problemi di confronto multipli e "pesca". Esistono diversi approcci statistici che possono aiutare ad affrontare le preoccupazioni sul confronto multiplo (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Un approccio alle preoccupazioni sulla "pesca" è la pre-registrazione, che sta diventando sempre più comune in psicologia (Nosek and Lakens 2014) , scienze politiche (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ed economia (Olken 2015) .
Nello studio di Costa and Kahn (2013) solo circa la metà delle famiglie nell'esperimento potrebbe essere collegata alle informazioni demografiche. I lettori interessati a questi dettagli dovrebbero fare riferimento al documento originale.
I meccanismi sono incredibilmente importanti, ma risultano molto difficili da studiare. La ricerca sui meccanismi è strettamente correlata allo studio dei mediatori in psicologia (ma vedi anche VanderWeele (2009) per un confronto preciso tra le due idee). Approcci statistici alla ricerca di meccanismi, come l'approccio sviluppato a Baron and Kenny (1986) , sono abbastanza comuni. Purtroppo, queste procedure dipendono da alcune forti ipotesi (Bullock, Green, and Ha 2010) e soffrono quando ci sono più meccanismi, come ci si potrebbe aspettare in molte situazioni (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) offrono alcuni metodi statistici migliorati. Inoltre, VanderWeele (2015) offre un trattamento a lunghezza di libro con una serie di risultati importanti, incluso un approccio completo all'analisi della sensibilità.
Un approccio separato si concentra su esperimenti che tentano di manipolare il meccanismo direttamente (ad esempio, dando ai marinai vitamina C). Sfortunatamente, in molte strutture di scienze sociali, ci sono spesso meccanismi multipli ed è difficile progettare trattamenti che cambino uno senza cambiare gli altri. Alcuni approcci ai meccanismi di alterazione sperimentale sono descritti da Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , e Pirlott and MacKinnon (2016) .
I ricercatori che eseguono pienamente esperimenti fattoriali dovranno preoccuparsi di test di ipotesi multipli; vedi Fink, McConnell, and Vollmer (2014) e List, Shaikh, and Xu (2016) per maggiori informazioni.
Infine, i meccanismi hanno anche una lunga storia nella filosofia della scienza descritta da Hedström and Ylikoski (2010) .
Per ulteriori informazioni sull'uso di studi di corrispondenza e studi di audit per misurare la discriminazione, vedi Pager (2007) .
Il metodo più comune per reclutare partecipanti agli esperimenti che hai creato è Amazon Mechanical Turk (MTurk). Poiché MTurk simula aspetti degli esperimenti di laboratorio tradizionali, pagando le persone per completare compiti che non avrebbero fatto gratuitamente, molti ricercatori hanno già iniziato a utilizzare Turkers (i lavoratori su MTurk) come partecipanti sperimentali, ottenendo una raccolta di dati più rapida ed economica rispetto a quella che si può ottenere in esperimenti di laboratorio tradizionali nel campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
In generale, i maggiori vantaggi dell'utilizzo dei partecipanti reclutati da MTurk sono logistici. Mentre gli esperimenti di laboratorio possono richiedere settimane per essere eseguiti e gli esperimenti sul campo possono richiedere mesi per l'impostazione, gli esperimenti con i partecipanti reclutati da MTurk possono essere eseguiti in pochi giorni. Ad esempio, Berinsky, Huber, and Lenz (2012) sono stati in grado di reclutare 400 soggetti in un solo giorno per partecipare a un esperimento di 8 minuti. Inoltre, questi partecipanti possono essere reclutati praticamente per qualsiasi scopo (compresi sondaggi e collaborazione di massa, come discusso nei capitoli 3 e 5). Questa facilità di assunzione significa che i ricercatori possono eseguire sequenze di esperimenti correlati in rapida successione.
Prima di reclutare partecipanti da MTurk per i tuoi esperimenti, ci sono quattro cose importanti che devi sapere. Innanzitutto, molti ricercatori hanno uno scetticismo non specifico sugli esperimenti che coinvolgono i turchi. Poiché questo scetticismo non è specifico, è difficile controbattere con prove. Tuttavia, dopo diversi anni di studi con Turkers, possiamo ora concludere che questo scetticismo non è particolarmente giustificato. Ci sono stati molti studi che hanno confrontato i dati demografici di Turkers con quelli di altre popolazioni e molti studi che hanno confrontato i risultati di esperimenti con Turkers con quelli di altre popolazioni. Dato tutto questo lavoro, penso che il modo migliore per pensarci è che i Turker sono un esempio di convenienza ragionevole, molto simile agli studenti ma leggermente più diversificato (Berinsky, Huber, and Lenz 2012) . Quindi, proprio come gli studenti sono una popolazione ragionevole per alcuni, ma non tutti, la ricerca, i turchi sono una popolazione ragionevole per alcuni, ma non per tutti, la ricerca. Se hai intenzione di lavorare con Turkers, allora ha senso leggere molti di questi studi comparativi e capire le loro sfumature.
In secondo luogo, i ricercatori hanno sviluppato le migliori pratiche per aumentare la validità interna degli esperimenti di MTurk, e dovresti conoscere e seguire queste best practice (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Ad esempio, i ricercatori che utilizzano Turkers sono incoraggiati a utilizzare screeners per rimuovere i partecipanti disattenti (Berinsky, Margolis, and Sances 2014, 2016) (ma vedere anche DJ Hauser and Schwarz (2015b) e DJ Hauser and Schwarz (2015a) ). Se non rimuovete i partecipanti disattenti, qualsiasi effetto del trattamento può essere eliminato dal rumore che introducono, e in pratica il numero di partecipanti disattenti può essere notevole. Nell'esperimento di Huber e colleghi (2012) , circa il 30% dei partecipanti ha fallito gli screening di attenzione di base. Altri problemi che sorgono quando i turchi vengono utilizzati sono i partecipanti non ingenui (Chandler et al. 2015) e il logoramento (Zhou and Fishbach 2016) .
Terzo, rispetto ad alcune altre forme di esperimenti digitali, gli esperimenti di MTurk non possono essere scalati; Stewart et al. (2015) stimano che in qualsiasi momento ci sono solo circa 7000 persone su MTurk.
Infine, dovresti sapere che MTurk è una comunità con le sue regole e norme (Mason and Suri 2012) . Allo stesso modo in cui proverai a scoprire la cultura di un paese in cui avresti eseguito i tuoi esperimenti, dovresti cercare di scoprire di più sulla cultura e le norme dei Turkers (Salehi et al. 2015) . E dovresti sapere che i turchi parleranno del tuo esperimento se fai qualcosa di inappropriato o non etico (Gray et al. 2016) .
MTurk è un modo incredibilmente conveniente per reclutare partecipanti ai tuoi esperimenti, siano essi di laboratorio, come quelli di Huber, Hill, and Lenz (2012) , o più simili a campi, come quelli di Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) e Mao et al. (2016) .
Se stai pensando di provare a creare il tuo prodotto, ti consiglio di leggere i consigli offerti dal gruppo MovieLens in Harper and Konstan (2015) . Una chiave di lettura della loro esperienza è che per ogni progetto di successo ci sono molti, molti fallimenti. Ad esempio, il gruppo MovieLens ha lanciato altri prodotti, come GopherAnswers, che erano fallimenti completi (Harper and Konstan 2015) . Un altro esempio di un ricercatore che fallisce nel tentativo di costruire un prodotto è il tentativo di Edward Castronova di costruire un gioco online chiamato Arden. Nonostante il finanziamento di $ 250.000, il progetto è stato un flop (Baker 2008) . Sfortunatamente progetti come GopherAnswers e Arden sono molto più comuni di progetti come MovieLens.
Ho sentito l'idea del Quadrant di Pasteur discusso frequentemente alle aziende tecnologiche e aiuta a organizzare gli sforzi di ricerca su Google (Spector, Norvig, and Petrov 2012) .
Lo studio di Bond e colleghi (2012) tenta anche di rilevare l'effetto di questi trattamenti sugli amici di coloro che li hanno ricevuti. A causa della progettazione dell'esperimento, questi spillovers sono difficili da rilevare in modo pulito; i lettori interessati dovrebbero vedere Bond et al. (2012) per una discussione più approfondita. Jones e colleghi (2017) anche condotto un esperimento molto simile durante le elezioni del 2012. Questi esperimenti fanno parte di una lunga tradizione di esperimenti in scienze politiche sugli sforzi per incoraggiare il voto (Green and Gerber 2015) . Questi esperimenti di out-the-vote sono comuni, in parte perché si trovano nel Quadrant di Pasteur. Cioè, ci sono molte persone che sono motivate ad aumentare il voto e il voto può essere un comportamento interessante per testare teorie più generali sul cambiamento del comportamento e l'influenza sociale.
Per consigli sull'esecuzione di esperimenti sul campo con organizzazioni partner come partiti politici, ONG e imprese, vedere Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) e Gueron (2002) . Per le riflessioni su come i partenariati con le organizzazioni possono influire sui progetti di ricerca, vedi King et al. (2007) e Green, Calfano, and Aronow (2014) . La partnership può anche portare a questioni etiche, come discusso da Humphreys (2015) e Nickerson and Hyde (2016) .
Se stai creando un piano di analisi prima di eseguire l'esperimento, ti suggerisco di iniziare leggendo le linee guida per la segnalazione. Le linee guida CONSORT (Consolidated Standard Reporting of Trials) sono state sviluppate in medicina (Schulz et al. 2010) e modificate per la ricerca sociale (Mayo-Wilson et al. 2013) . Una serie correlata di linee guida è stata sviluppata dagli editori del Journal of Experimental Political Science (Gerber et al. 2014) (vedi anche Mutz and Pemantle (2015) e Gerber et al. (2015) ). Infine, sono state sviluppate linee guida per la segnalazione in psicologia (APA Working Group 2008) , e anche Simmons, Nelson, and Simonsohn (2011) .
Se crei un piano di analisi, dovresti prendere in considerazione la registrazione preliminare perché la pre-registrazione aumenterà la fiducia che gli altri hanno nei tuoi risultati. Inoltre, se stai lavorando con un partner, limiterà la capacità del tuo partner di cambiare l'analisi dopo aver visto i risultati. La pre-registrazione sta diventando sempre più comune in psicologia (Nosek and Lakens 2014) , scienze politiche (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ed economia (Olken 2015) .
I consigli di progettazione specifici per esperimenti sul campo online sono presentati anche in Konstan and Chen (2007) e Chen and Konstan (2015) .
Qualche cosa che ho chiamato strategia armata è talvolta chiamata ricerca programmatica ; vedi Wilson, Aronson, and Carlsmith (2010) .
Per ulteriori informazioni sugli esperimenti MusicLab, vedere Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) Salganik and Watts (2009a) Salganik and Watts (2009b) , Salganik and Watts (2009a) e Salganik (2007) . Per saperne di più sui mercati del vincitore-prendi tutto, vedi Frank and Cook (1996) . Per saperne di più sulla distrazione di fortuna e abilità più in generale, vedi Mauboussin (2012) , Watts (2012) e Frank (2016) .
C'è un altro approccio per eliminare i pagamenti dei partecipanti che i ricercatori dovrebbero usare con cautela: la coscrizione. In molti esperimenti sul campo online i partecipanti sono fondamentalmente redatti in esperimenti e mai compensati. Esempi di questo approccio includono l'esperimento di Restivo e van de Rijt (2012) sui premi in Wikipedia e l'esperimento di Bond e collega (2012) sull'incoraggiare le persone a votare. Questi esperimenti non hanno in realtà zero costi variabili, piuttosto, hanno zero costi variabili per i ricercatori . In tali esperimenti, anche se il costo per ogni partecipante è estremamente ridotto, il costo aggregato può essere piuttosto ampio. I ricercatori che eseguono massicci esperimenti online spesso giustificano l'importanza dei piccoli effetti stimati del trattamento dicendo che questi piccoli effetti possono diventare importanti se applicati a molte persone. Lo stesso identico modo di pensare si applica ai costi che i ricercatori impongono ai partecipanti. Se il tuo esperimento fa perdere un milione di persone in un minuto, l'esperimento non è molto dannoso per una persona in particolare, ma in generale ha sprecato quasi due anni.
Un altro approccio alla creazione di zero costi variabili per i partecipanti consiste nell'utilizzare una lotteria, un approccio che è stato utilizzato anche nella ricerca sui sondaggi (Halpern et al. 2011) . Per ulteriori informazioni sulla progettazione di esperienze utente piacevoli, vedi Toomim et al. (2011) . Per ulteriori informazioni sull'uso dei bot per creare zero esperimenti a costo variabile, vedere ( ??? ) .
Le tre R come originariamente proposte da Russell and Burch (1959) sono le seguenti:
"Sostituzione significa la sostituzione per coscienti che vivono animali superiori di materiale insensibile. Riduzione significa riduzione del numero di animali utilizzati per ottenere le informazioni di una data quantità e precisione. Affinamento: qualsiasi diminuzione dell'incidenza o della gravità delle procedure disumane applicate a quegli animali che devono ancora essere utilizzato ".
Le tre R che propongo non prevalgono sui principi etici descritti nel capitolo 6. Piuttosto, sono una versione più elaborata di uno di quei principi - la beneficenza - specificamente nel contesto di esperimenti umani.
In termini di prima R ("sostituzione"), confrontando l'esperimento di contagio emotivo (Kramer, Guillory, and Hancock 2014) e l'esperimento di contagio emotivo naturale (Lorenzo Coviello et al. 2014) offre alcune lezioni generali sui trade-off coinvolti nel passaggio dagli esperimenti agli esperimenti naturali (e ad altri approcci come l'abbinamento che tentano di approssimare esperimenti in dati non sperimentali, vedere il capitolo 2). Oltre ai benefici etici, il passaggio dagli studi sperimentali a quelli non sperimentali consente inoltre ai ricercatori di studiare trattamenti che sono logisticamente incapaci di implementare. Questi benefici etici e logistici hanno un costo, tuttavia. Con esperimenti naturali i ricercatori hanno meno controllo su cose come il reclutamento dei partecipanti, la randomizzazione e la natura del trattamento. Ad esempio, una limitazione delle precipitazioni come trattamento è che entrambe aumentano la positività e diminuiscono la negatività. Nello studio sperimentale, tuttavia, Kramer e colleghi sono stati in grado di regolare positività e negatività in modo indipendente. L'approccio particolare utilizzato da Lorenzo Coviello et al. (2014) stato ulteriormente elaborato da L. Coviello, Fowler, and Franceschetti (2014) . Per un'introduzione alle variabili strumentali, che è l'approccio utilizzato da Lorenzo Coviello et al. (2014) , vedi Angrist and Pischke (2009) (meno formale) o Angrist, Imbens, and Rubin (1996) (più formale). Per una valutazione scettica delle variabili strumentali, vedi Deaton (2010) , e per un'introduzione alle variabili strumentali con strumenti deboli (la pioggia è uno strumento debole), vedi Murray (2006) . Più in generale, una buona introduzione agli esperimenti naturali è fornita da Dunning (2012) , mentre Rosenbaum (2002) , ( ??? ) e Shadish, Cook, and Campbell (2001) offrono buone idee sulla stima degli effetti causali senza esperimenti.
Per quanto riguarda la seconda R ("raffinatezza"), ci sono dei compromessi scientifici e logistici quando si prende in considerazione la possibilità di cambiare il design di Emotional Contagion dai post di blocco ai post di potenziamento. Ad esempio, può accadere che l'implementazione tecnica del News Feed renda sostanzialmente più facile fare un esperimento in cui i post sono bloccati piuttosto che uno in cui vengono potenziati (si noti che potrebbe essere implementato un esperimento che prevede il blocco dei post come un livello in cima al sistema di News Feed senza alcuna necessità di alterazioni del sistema sottostante). Scientificamente, tuttavia, la teoria affrontata dall'esperimento non suggeriva chiaramente un progetto rispetto all'altro. Sfortunatamente, non sono a conoscenza di una sostanziale ricerca preliminare sui meriti relativi del blocco e del potenziamento dei contenuti nel feed delle notizie. Inoltre, non ho visto molte ricerche sui trattamenti di raffinazione per renderli meno dannosi; un'eccezione è B. Jones and Feamster (2015) , che considera il caso della misurazione della censura di Internet (un argomento che discuto nel capitolo 6 in relazione allo studio di Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
In termini di terza R ("riduzione"), buone introduzioni all'analisi di potenza tradizionale sono date da Cohen (1988) (libro) e Cohen (1992) (articolo), mentre Gelman and Carlin (2014) offrono una prospettiva leggermente diversa. Le covariate di pretrattamento possono essere incluse nella fase di progettazione e analisi degli esperimenti; il capitolo 4 di Gerber and Green (2012) fornisce una buona introduzione a entrambi gli approcci e Casella (2008) fornisce un trattamento più approfondito. Le tecniche che utilizzano queste informazioni di pre-trattamento nella randomizzazione sono in genere denominate progettazioni sperimentali bloccate o progetti sperimentali stratificati (la terminologia non è utilizzata in modo coerente tra le comunità); queste tecniche sono strettamente correlate alle tecniche di campionamento stratificato discusse nel capitolo 3. Vedi Higgins, Sävje, and Sekhon (2016) per ulteriori informazioni sull'uso di questi progetti in esperimenti di massa. Le covariate di pretrattamento possono anche essere incluse nella fase di analisi. McKenzie (2012) esplora l'approccio delle differenze nelle differenze per analizzare gli esperimenti sul campo in maggiore dettaglio. Vedi Carneiro, Lee, and Wilhelm (2016) per ulteriori informazioni sui compromessi tra diversi approcci per aumentare la precisione nelle stime degli effetti del trattamento. Infine, al momento di decidere se provare ad includere le covariate di pre-trattamento nella fase di progettazione o di analisi (o entrambe), ci sono alcuni fattori da considerare. In un contesto in cui i ricercatori vogliono dimostrare di non "pescare" (Humphreys, Sierra, and Windt 2013) , l'utilizzo di covariate di pre-trattamento in fase di progettazione può essere utile (Higgins, Sävje, and Sekhon 2016) . Nelle situazioni in cui i partecipanti arrivano sequenzialmente, in particolare esperimenti sul campo online, l'utilizzo di informazioni di pre-trattamento in fase di progettazione può essere difficile dal punto di vista logistico; vedi, per esempio, Xie and Aurisset (2016) .
Vale la pena aggiungere un po 'di intuizione sul perché un approccio differenza-in-differenze può essere molto più efficace di una differenza in mezzo. Molti risultati online hanno una varianza molto alta (vedi ad esempio, RA Lewis and Rao (2015) e Lamb et al. (2015) ) e sono relativamente stabili nel tempo. In questo caso, il punteggio del cambiamento avrà una varianza sostanzialmente minore, aumentando la potenza del test statistico. Uno dei motivi per cui questo approccio non è usato più spesso è che prima dell'era digitale non era comune avere esiti pre-trattamento. Un modo più concreto di pensare a questo è immaginare un esperimento per misurare se una routine di esercizi specifica causa la perdita di peso. Se si adotta un approccio diverso nei mezzi, la stima avrà una variabilità derivante dalla variabilità dei pesi nella popolazione. Se si fa un approccio differenza nelle differenze, tuttavia, viene rimossa la variazione naturale nei pesi e si può rilevare più facilmente una differenza causata dal trattamento.
Infine, ho preso in considerazione l'aggiunta di una quarta R: "riuso". Cioè, se i ricercatori si trovano con più dati sperimentali di quelli che devono affrontare la loro domanda di ricerca originale, dovrebbero riutilizzare i dati per fare nuove domande. Ad esempio, immagina che Kramer e colleghi abbiano utilizzato uno stimatore differenza di differenze e si siano trovati con più dati di quelli necessari per affrontare la domanda di ricerca. Piuttosto che non usare i dati nella misura massima, avrebbero potuto studiare la dimensione dell'effetto come una funzione dell'espressione emotiva pre-trattamento. Proprio come Schultz et al. (2007) riscontrato che l'effetto del trattamento era diverso per utenti leggeri e pesanti, forse gli effetti del News Feed erano diversi per le persone che già tendevano a postare messaggi felici (o tristi). La riconversione potrebbe portare a "pesca" (Humphreys, Sierra, and Windt 2013) e "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , ma questi sono in gran parte indirizzabili con una combinazione di rapporti onesti (Simmons, Nelson, and Simonsohn 2011) , pre-registrazione (Humphreys, Sierra, and Windt 2013) e metodi di apprendimento automatico che tentano di evitare un adattamento eccessivo.