ulteriore commento

Questa sezione è progettato per essere utilizzato come riferimento, piuttosto che essere letta come una narrazione.

  • Introduzione (Sezione 4.1)

Domande sulla causalità in ricerca sociale sono spesso complesso e intricato. Per un approccio fondamentale per la causalità sulla base delle curve causali, vedere Pearl (2009) , e per un approccio fondamentale basato sui potenziali risultati, vedi Imbens and Rubin (2015) (e gli allegati tecnici in questo capitolo). Per un confronto tra questi due approcci, vedere Morgan and Winship (2014) . Per un approccio formale per definire un fattore di confondimento, vedere VanderWeele and Shpitser (2013) .

Nel capitolo, ho creato quello che sembrava una linea luminosa tra la nostra capacità di fare stime causali da dati sperimentali e non sperimentali. In realtà, credo che la distinzione è sfocata. Ad esempio, tutti accettano che il fumo provoca il cancro, anche se non abbiamo mai fatto un esperimento randomizzato controllato che costringe la gente a fumare. Per eccellenti trattamenti di lunghezza libro su di stime causali da dati non sperimentali vedere Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , e Dunning (2012) .

I capitoli 1 e 2 della Freedman, Pisani, and Purves (2007) offrono una chiara introduzione sulle differenze tra esperimenti, esperimenti controllati e randomizzati esperimenti controllati.

Manzi (2012) fornisce un'introduzione affascinante e leggibile nei fondamenti filosofici e statistici di esperimenti randomizzati controllati. Esso fornisce inoltre interessanti esempi reali del potere di sperimentazione nel mondo degli affari.

  • Quali sono gli esperimenti? (Paragrafo 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) offrono buone introduzioni agli aspetti statistici di progettazione e analisi sperimentale. Inoltre, ci sono ottimi trattamenti dell'uso di esperimenti in molti campi diversi: economia (Bardsley et al. 2009) , La sociologia (Willer and Walker 2007; Jackson and Cox 2013) , psicologia (Aronson et al. 1989) , Scienze politiche (Morton and Williams 2010) , e la politica sociale (Glennerster and Takavarasha 2013) .

L'importanza del reclutamento dei partecipanti (ad esempio, il campionamento) è spesso sottovalutato nella ricerca sperimentale. Tuttavia, se l'effetto del trattamento è eterogenea nella popolazione, allora il campionamento è critico. Longford (1999) rende chiaramente questo punto quando sostiene per ricercatori pensando di esperimenti come un sondaggio popolazione con campionamento casuale.

  • Due dimensioni di esperimenti: laboratorio sul campo e analogico-digitale (paragrafo 4.3)

La dicotomia che ho presentato tra esperimenti di laboratorio e di campo è un po 'semplificata. In realtà, altri ricercatori hanno proposto tipologie più dettagliate, in particolare quelli che separano le varie forme di esperimenti sul campo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Inoltre, ci sono altri due tipi di esperimenti condotti da scienziati sociali che non rientrano esattamente in laboratorio e sul campo dicotomia:. Esperimenti di indagine ed esperimenti sociali esperimenti di indagine sono esperimenti utilizzando l'infrastruttura di indagini esistenti e confrontare le risposte alle versioni alternative del stesse domande (alcuni esperimenti di indagine sono presentati nel capitolo 3); per maggiori informazioni su esperimenti di indagine si veda Mutz (2011) . esperimenti sociali sono esperimenti in cui il trattamento è un po 'di politica sociale che può essere implementata solo da un governo. esperimenti sociali sono strettamente legate alla valutazione del programma. Per ulteriori informazioni su esperimenti di politica, vedere Orr (1998) , Glennerster and Takavarasha (2013) , e Heckman and Smith (1995) .

Un certo numero di tipi di carta hanno rispetto esperimenti di laboratorio e sul campo in astratto (Falk and Heckman 2009; Cialdini 2009) e in termini di risultati di esperimenti specifici in scienze politiche (Coppock and Green 2015) , economia (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) e psicologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) offre un disegno di ricerca piacevole per confrontare i risultati di esperimenti di laboratorio e sul campo.

Le preoccupazioni per i partecipanti che cambiano il loro comportamento, perché sanno di essere osservate con particolare attenzione a volte sono chiamati effetti sulla domanda, e sono stati studiati in psicologia (Orne 1962) ed economia (Zizzo 2009) . Anche se per lo più associati con esperimenti di laboratorio, questi stessi problemi possono causare problemi per esperimenti sul campo pure. In realtà, gli effetti di domanda sono anche a volte chiamati effetti Hawthorne, un termine che deriva da un esperimento sul campo, in particolare i famosi esperimenti di illuminazione che ha avuto inizio nel 1924 al Hawthorne Opere di Western Electric Company (Adair 1984; Levitt and List 2011) . Entrambi gli effetti sulla domanda e gli effetti Biancospino sono strettamente correlati con l'idea di misura reattiva discusso nel Capitolo 2 (vedi anche Webb et al. (1966) ).

La storia degli esperimenti sul campo è stato descritto in economia (Levitt and List 2009) , scienze politiche (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psicologia (Shadish 2002) , e la politica pubblica (Shadish and Cook 2009) . Un settore della scienza sociale in cui gli esperimenti sul campo è diventato rapidamente importante è lo sviluppo internazionale. Per una recensione positiva di quel lavoro all'interno dell'economia vedere Banerjee and Duflo (2009) , e per una valutazione critica vedere Deaton (2010) . Per una rassegna di questo lavoro in scienze politiche vedono Humphreys and Weinstein (2009) . Infine, le sfide etiche con esperimenti sul campo sono state esplorate in scienze politiche (Humphreys 2015; Desposato 2016b) e l'economia dello sviluppo (Baele 2013) .

Nel capitolo, ho suggerito che le informazioni pre-trattamento può essere utilizzato per migliorare la precisione degli effetti del trattamento stimati, ma c'è un certo dibattito su questo approccio: Freedman (2008) , Lin (2013) , e Berk et al. (2013) ; vedi Bloniarz et al. (2016) per ulteriori informazioni.

  • Andando oltre semplici esperimenti (paragrafo 4.4)

Ho scelto di concentrarsi su tre concetti: la validità, l'eterogeneità degli effetti del trattamento, e meccanismi. Questi concetti hanno nomi diversi in diversi campi. Ad esempio, gli psicologi tendono a muoversi al di là di semplici esperimenti, concentrandosi su mediatori e moderatori (Baron and Kenny 1986) . L'idea di mediatori viene catturato da quello che io chiamo i meccanismi, e l'idea di moderatori viene catturato da quello che io chiamo validità esterna (ad esempio, sarebbero i risultati dell'esperimento essere diverso se è stato eseguito in diverse situazioni) e l'eterogeneità degli effetti del trattamento ( ad esempio, sono gli effetti più grandi per alcune persone rispetto ad altre persone).

L'esperimento di Schultz et al. (2007) mostra come le teorie sociali possono essere utilizzati per la progettazione di interventi efficaci. Per una discussione più generale sul ruolo della teoria nella progettazione di interventi efficaci, vedi Walton (2014) .

  • Validità (sezione 4.4.1)

I concetti di validità interna ed esterna sono stati introdotti nel Campbell (1957) . Vedere Shadish, Cook, and Campbell (2001) per una storia più dettagliata e una attenta elaborazione di validità conclusioni statistiche, validità interna, costruire la validità, e la validità esterna.

Per una panoramica delle questioni relative alla validità conclusione statistica negli esperimenti vedere Gerber and Green (2012) (per una prospettiva delle scienze sociali) e Imbens and Rubin (2015) (per un punto di vista statistico). Alcuni problemi di validità conclusione statistica che si presentano in particolare in esperimenti sul campo online includono aspetti quali i metodi computazionalmente efficienti per la creazione di intervalli di confidenza con dati dipendenti (Bakshy and Eckles 2013) .

validità interna può essere difficile garantire in esperimenti sul campo complesse. Si veda, ad esempio, Gerber and Green (2000) , Imai (2005) , e Gerber and Green (2005) per il dibattito circa la realizzazione di un esperimento sul campo complesso sul voto. Kohavi et al. (2012) e Kohavi et al. (2013) fornire una introduzione alle sfide di intervallo di validità in esperimenti sul campo in linea.

Una preoccupazione importante con validità interna è problemi con randomizzazione. Un modo per rilevare potenziali problemi con la randomizzazione è quello di confrontare i gruppi di trattamento e di controllo sulle caratteristiche osservabili. Questo tipo di confronto è chiamato controllo equilibrio. Vedere Hansen and Bowers (2008) per un approccio statistico per bilanciare i controlli, e vedere Mutz and Pemantle (2015) per le preoccupazioni circa i controlli di bilanciamento. Ad esempio, utilizzando una bilancia controllare Allcott (2011) ha rilevato che vi è qualche evidenza che la randomizzazione non è stata attuata correttamente in tre degli esperimenti in alcuni degli esperimenti Opower (vedi Tabella 2; siti 2, 6 e 8). Per gli altri approcci, vedere Imbens and Rubin (2015) , Capitolo 21.

Altri importanti preoccupazioni relative alla validità interna sono: 1) unilaterale non conformità, dove non tutti nel gruppo di trattamento effettivamente ricevuto il trattamento, 2) a due lati non conformità, dove non tutti nel gruppo di trattamento riceve il trattamento e un po ' persone nel gruppo di controllo ricevono il trattamento, 3) attrito, dove i risultati non sono misurati per alcuni partecipanti, e 4) interferenze, dove il trattamento rovescia sopra dalle persone in condizione di trattamento a persone in condizione di controllo. Vedere Gerber and Green (2012) capitoli 5, 6, 7, e 8 per maggiori informazioni su ciascuno di questi temi.

Per maggiori informazioni sulla validità di costrutto, vedi Westen and Rosenthal (2003) , e per ulteriori informazioni sul costrutto validità in grandi fonti di dati, Lazer (2015) e il capitolo 2 di questo libro.

Un aspetto di validità esterna è il luogo in cui un intervento è testato. Allcott (2015) fornisce una trattazione teorica ed empirica attenta di bias di selezione del sito. Questo problema è stato discusso anche in Deaton (2010) . Oltre ad essere replicato in molti siti, l'intervento iniziale Energy Report è anche stato studiato in modo indipendente da più gruppi di ricerca (ad esempio, Ayres, Raseman, and Shih (2013) ).

  • L'eterogeneità degli effetti del trattamento (sezione 4.4.2)

Per una panoramica eccellente di eterogeneità degli effetti del trattamento in esperimenti sul campo, vedere il Capitolo 12 di Gerber and Green (2012) . Per introduzioni a eterogeneità degli effetti del trattamento in studi medici, vedi Kent and Hayward (2007) , Longford (1999) , e Kravitz, Duan, and Braslow (2004) . L'eterogeneità degli effetti del trattamento in genere si concentrano sulle differenze in base alle caratteristiche di pre-trattamento. Se siete interessati a eterogeneità basato sui risultati post-trattamento, poi approachs più complessi sono necessari, come la stratificazione principale (Frangakis and Rubin 2002) ; vedi Page et al. (2015) per una rassegna.

Molti ricercatori stimano l'eterogeneità degli effetti del trattamento con la regressione lineare, ma i metodi più recenti si basano su machine learning, ad esempio Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , e Athey and Imbens (2016a) .

Vi è un certo scetticismo sui risultati di eterogeneità degli effetti a causa di molteplici problemi di confronto e "pesca". Ci sono una varietà di approcci statistici che consentono di affrontare le preoccupazioni circa il confronto multiplo (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Un approccio a preoccupazioni per "pesca" è pre-registrazione, che sta diventando sempre più comune in psicologia (Nosek and Lakens 2014) , scienze politiche (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ed economia (Olken 2015) .

Nello studio di Costa and Kahn (2013) solo circa la metà delle famiglie nell'esperimento sono stati in grado di essere collegato alle informazioni demografiche. I lettori interessati ai dettagli e possibili problemi con questa analisi devono fare riferimento al documento originale.

  • Meccanismi (sezione 4.4.3)

I meccanismi sono incredibilmente importanti, ma risultano essere molto difficili da studiare. La ricerca sui meccanismi strettamente legato allo studio di mediatori in psicologia (ma vedi anche VanderWeele (2009) per una precisa confronto tra le due idee). Approcci statistici ai meccanismi che trovano, come ad esempio l'approccio sviluppato in Baron and Kenny (1986) , sono abbastanza comuni. Purtroppo, si scopre che tali procedure dipendono da alcune ipotesi forti (Bullock, Green, and Ha 2010) e soffrono quando ci sono molteplici meccanismi, come ci si potrebbe aspettare in molte situazioni (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) e Imai and Yamamoto (2013) offrono alcuni metodi statistici migliori. Inoltre, VanderWeele (2015) offre un trattamento libro-length con una serie di importanti risultati, tra cui un approccio globale per l'analisi di sensitività.

Un approccio indipendente si concentra su esperimenti che tentano di manipolare il meccanismo direttamente (ad esempio, dando marinai vitamina C). Purtroppo, in molti contesti delle scienze sociali ci sono spesso molteplici meccanismi ed è difficile progettare trattamenti che cambiano uno senza cambiare gli altri. Alcuni approcci alla sperimentalmente meccanismi di alterazione sono descritti in Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , e Pirlott and MacKinnon (2016) .

Infine, i meccanismi hanno anche una lunga storia nella filosofia della scienza come descritto da Hedström and Ylikoski (2010) .

  • Utilizzando ambienti esistenti (sezione 4.5.1.1)

Per ulteriori informazioni su l'utilizzo di studi per corrispondenza e studi di controllo per misurare la discriminazione vedere Pager (2007) .

  • Costruisci il tuo esperimento (Sezione 4.5.1.2)

Il modo più comune per reclutare i partecipanti agli esperimenti che si genera è Amazon Mechanical Turk (MTurk). Perché MTurk imita aspetti delle sperimentazioni paganti di laboratorio tradizionali di persone per completare le attività che non avrebbe fatto per i ricercatori free-molti hanno già iniziato a utilizzare Turkers (i lavoratori in MTurk) come partecipanti esperimenti soggetti umani con conseguente raccolta di dati più veloce e più economico rispetto ai tradizionali esperimenti di laboratorio on-campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

La più grande forza di esperimenti con i partecipanti reclutati da MTurk sono logistico: consentono ai ricercatori di reclutare i partecipanti in modo rapido e, se necessario. Mentre esperimenti di laboratorio possono richiedere settimane per eseguire esperimenti sul campo e può richiedere mesi di set-up, esperimenti con i partecipanti reclutati da MTurk possono essere eseguiti in giorni. Ad esempio, Berinsky, Huber, and Lenz (2012) sono stati in grado di reclutare 400 soggetti in un solo giorno per partecipare a un esperimento 8 minuti. Inoltre, questi partecipanti possono essere assunti per qualsiasi scopo (tra cui indagini e la collaborazione di massa, come discusso nei capitoli 3 e 5). Questa facilità di reclutamento significa che i ricercatori possono eseguire sequenze di esperimenti relativi in ​​rapida successione.

Prima di reclutare partecipanti provenienti da MTurk per i propri esperimenti, ci sono quattro cose importanti da sapere. In primo luogo, molti ricercatori hanno uno scetticismo non specifico di esperimenti che coinvolgono Turkers. Perché questo scetticismo non è specifico, è difficile da contrastare con evidenza. Tuttavia, dopo diversi anni di studi utilizzando Turkers, ora possiamo concludere che questo scetticismo non è particolarmente necessario. Ci sono stati molti studi che hanno confrontato i dati demografici dei Turkers ad altre popolazioni e molti studi che hanno confrontato i risultati di esperimenti con Turkers ai risultati provenienti da altre popolazioni. Dato tutto questo lavoro, penso che il modo migliore per voi di pensare a questo proposito è che Turkers sono un campione di convenienza ragionevole, molto simile a studenti, ma un po 'più vario (Berinsky, Huber, and Lenz 2012) . Così, proprio come gli studenti sono una popolazione ragionevole per alcuni, ma non tutti gli studi sperimentali, Turkers sono una popolazione ragionevole per alcuni, ma non tutti gli studi. Se avete intenzione di lavorare con Turkers, allora ha senso leggere molti di questi studi comparativi e capire le loro sfumature.

In secondo luogo, i ricercatori hanno sviluppato best practice per aumentare validità interna degli esperimenti Turk, e si dovrebbe conoscere e seguire queste best practice (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Ad esempio, i ricercatori che utilizzano Turkers sono incoraggiati ad utilizzare vagli per rimuovere partecipanti disattenti (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ma si veda anche DJ Hauser and Schwarz (2015b) e DJ Hauser and Schwarz (2015a) ). Se non si rimuovono i partecipanti disattenti, allora qualsiasi effetto del trattamento può essere lavato dal rumore introdotto dai partecipanti disattenti, e in pratica il numero dei partecipanti disattenti può essere sostanziale. Nell'esperimento di Huber e colleghi (2012) circa il 30% dei partecipanti non è riuscito Vagli attenzione di base. Un altro problema comune con Turkers è partecipanti non-naive (Chandler et al. 2015) .

Terzo, rispetto ad altre forme di esperimenti digitali, esperimenti MTurk possono non regolare; Stewart et al. (2015) stima che in un dato momento ci sono solo circa 7.000 persone su MTurk.

Infine, si dovrebbe sapere che MTurk è una comunità con le proprie regole e norme (Mason and Suri 2012) . Nello stesso modo in cui si cerca di scoprire la cultura di un paese in cui si stavano per eseguire esperimenti, si dovrebbe cercare di saperne di più sulla cultura e le norme di Turkers (Salehi et al. 2015) . E, si dovrebbe sapere che le Turkers parleranno l'esperimento se si fa qualcosa di inappropriato o non etico (Gray et al. 2016) .

MTurk è un modo incredibilmente conveniente per reclutare i partecipanti ai suoi esperimenti, sia che si tratti di laboratorio-like, come ad esempio Huber, Hill, and Lenz (2012) , o più campi-like, come la Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , e Mao et al. (2016) .

  • Costruire il proprio prodotto (sezione 4.5.1.3)

Se state pensando di cercare di creare il proprio prodotto, vi consiglio di leggere la consulenza offerta dal gruppo MovieLens in Harper and Konstan (2015) . Un elemento chiave della loro esperienza è che per ogni progetto di successo ci sono molti, molti fallimenti. Ad esempio, il gruppo ha lanciato MovieLens altri prodotti come GopherAnswers che erano fallimenti completi (Harper and Konstan 2015) . Un altro esempio di un ricercatore non riuscendo nel tentativo di costruire un prodotto è il tentativo di Edward Castronova per costruire un gioco online chiamato Arden. Nonostante 250.000 $ in finanziamenti, il progetto è stato un flop (Baker 2008) . Progetti come GopherAnswers e Arden sono, purtroppo, molto più comune di quanto progetti come MovieLens. Infine, quando ho detto che non sapevo di altri ricercatori che avevano costruito con successo i prodotti per la sperimentazione ripetuto qui sono i miei criteri: 1) i partecipanti utilizzano il prodotto a causa di ciò che offre loro (ad esempio, non sono pagati e non sono volontari per aiutare la scienza) e 2) il prodotto è stato utilizzato per più di un esperimento distinti (cioè, non lo stesso esperimento più volte con diverse piscine partecipanti). Se siete a conoscenza di altri esempi, per favore fatemelo sapere.

  • Partner con il potente (sezione 4.5.2)

Ho sentito l'idea del quadrante di Pasteur discusso spesso in aziende di tecnologia, e aiuta a organizzare le attività di ricerca di Google (Spector, Norvig, and Petrov 2012) .

Bond e colleghi di studio (2012) tenta anche di rilevare l'effetto di questi trattamenti sugli amici di chi li ha ricevuti. A causa della progettazione dell'esperimento, queste ricadute sono difficili da rilevare in modo pulito; i lettori interessati dovrebbero vedere Bond et al. (2012) per una discussione più approfondita. Questo esperimento è parte di una lunga tradizione di esperimenti in scienze politiche sugli sforzi per incoraggiare il voto (Green and Gerber 2015) . Questi esperimenti get-out-the-voto sono comuni in parte perché sono nel quadrante di Pasteur. Cioè, ci sono molte persone che sono motivati ​​ad aumentare di voto e il voto può essere un comportamento interessante per testare le teorie più generali circa il cambiamento di comportamento e di influenza sociale.

Altri ricercatori hanno fornito consigli su come eseguire esperimenti sul campo con le organizzazioni partner, come i partiti politici, organizzazioni non governative, e le imprese (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Altri hanno offerto consigli su come partnership con le organizzazioni possono avere un impatto disegni di ricerca (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnership può anche portare a questioni etiche (Humphreys 2015; Nickerson and Hyde 2016) .

  • Consigli Design (paragrafo 4.6)

Se avete intenzione di creare un piano di analisi prima di eseguire l'esperimento, io suggerisco di iniziare leggendo le linee guida di rendicontazione. Il CONSORT (Consolidated standard la relazione delle prove) le linee guida sono state sviluppate nel campo della medicina (Schulz et al. 2010) e modificato per la ricerca sociale (Mayo-Wilson et al. 2013) . Un insieme correlato di linee guida è stata sviluppata dalla redazione del Journal of Experimental Scienze Politiche (Gerber et al. 2014) (vedi anche Mutz and Pemantle (2015) e Gerber et al. (2015) ). Infine, le linee guida di reporting sono state sviluppate in psicologia (Group 2008) , e vedere anche Simmons, Nelson, and Simonsohn (2011) .

Se si crea un piano di analisi si dovrebbe considerare di pre-registrazione, perché la pre-registrazione aumenterà la fiducia che gli altri hanno nei risultati. Inoltre, se si lavora con un partner, contribuirà a limitare la capacità del vostro partner a cambiare l'analisi dopo aver visto i risultati. La pre-registrazione sta diventando sempre più comune in psicologia (Nosek and Lakens 2014) , scienze politiche (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , e l'economia (Olken 2015) .

Mentre la creazione del piano di pre-analisi si dovrebbe essere consapevoli del fatto che alcuni ricercatori hanno anche utilizzano regressione e approcci connessi per migliorare la precisione dell'effetto del trattamento previsto, e non vi è un certo dibattito su questo approccio: Freedman (2008) , Lin (2013) , e Berk et al. (2013) ; vedi Bloniarz et al. (2016) per ulteriori informazioni.

Progettazione consulenza appositamente per esperimenti sul campo in linea è presentato anche in Konstan and Chen (2007) e Chen and Konstan (2015) .

  • Creare i dati sui costi variabili pari a zero (sezione 4.6.1)

Per ulteriori informazioni su esperimenti MusicLab, vedere Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , e Salganik (2007) . Per ulteriori informazioni su winner-take-tutti i mercati, vedi Frank and Cook (1996) . Per maggiori informazioni sulla fortuna districare e abilità, più in generale, vedere Mauboussin (2012) , Watts (2012) , e Frank (2016) .

C'è un altro approccio per eliminare i pagamenti dei partecipanti che i ricercatori dovrebbero usare con cautela: la coscrizione. In molti esperimenti sul campo in linea partecipanti sono fondamentalmente redatti in esperimenti e non compensata. Esempi di questo approccio includono Restivo e di van de Rijt (2012) esperimento su ricompense in Wikipedia e Bond e del collega (2012) nell'esame incoraggiare le persone a votare. Questi esperimenti non hanno davvero a zero costo variabile, hanno costo zero variabile per i ricercatori. Anche se il costo di molti di questi esperimenti è estremamente piccolo per ciascun partecipante, piccoli costi imposti un enorme numero di partecipanti possibile aggiungere rapidamente. I ricercatori che eseguono massicci esperimenti online spesso giustificano l'importanza delle piccole effetti del trattamento stimato da dire che questi piccoli effetti possono diventare importante se applicato a molte persone. Lo stesso pensiero esatto vale per i costi che i ricercatori impongono sui partecipanti. Se i vostri esperimenti provoca un milione di persone a sprecare un minuto, l'esperimento non è molto dannoso per una persona in particolare, ma nel complesso ha perso quasi due anni di tempo.

Un altro approccio alla creazione pagamento costo variabile zero partecipanti è usare una lotteria, un approccio che è stato utilizzato anche nella ricerca sondaggio (Halpern et al. 2011) . Infine, per di più sulla progettazione user-esperienze piacevoli vedono Toomim et al. (2011) .

  • Sostituire, raffinare, e ridurre (sezione 4.6.2)

Qui ci sono le definizioni originali delle tre R, da Russell and Burch (1959) :

"Sostituzione significa la sostituzione per coscienti che vivono animali superiori di materiale insensibile. Riduzione significa riduzione del numero di animali utilizzati per ottenere le informazioni di una data quantità e precisione. Affinamento: qualsiasi diminuzione dell'incidenza o della gravità delle procedure disumane applicate a quegli animali che devono ancora essere utilizzato ".

Il tre R che vi propongo non ignorare i principi etici descritti nel capitolo 6. Al contrario, essi sono una versione più elaborata uno di quei principi-beneficenza-specifico per l'impostazione di esperimenti umani.

Quando si considera contagio emotivo, ci sono tre problemi non etici da tenere a mente quando si interpretano questo esperimento. In primo luogo, non è chiaro come i dati reali dell'esperimento collegano le rivendicazioni teorici; In altre parole, non ci sono domande circa validità di costrutto. Non è chiaro che i conteggi di parole positive e negative sono in realtà un buon indicatore dello stato emotivo dei partecipanti, perché 1) non è chiaro che le parole che le persone postano sono un buon indicatore delle loro emozioni e 2) non è chiaro che la particolare tecnica di analisi sentimento che i ricercatori hanno utilizzato è in grado di dedurre in modo affidabile le emozioni (Beasley and Mason 2015; Panger 2016) . In altre parole, ci potrebbe essere una cattiva misura di un segnale polarizzato. In secondo luogo, la progettazione e l'analisi di questo esperimento non ci dice nulla su chi è stato più colpito (vale a dire, non vi è alcuna analisi di eterogeneità degli effetti del trattamento) e quello che potrebbe essere il meccanismo. In questo caso, i ricercatori avevano un sacco di informazioni sui partecipanti, ma sono stati essenzialmente trattati come i widget nell'analisi. In terzo luogo, l'entità dell'effetto in questo esperimento era molto piccola; la differenza tra le condizioni di trattamento e di controllo è di circa 1 a 1000 parole. Nel loro documento, Kramer e colleghi fanno il caso che un effetto di queste dimensioni è importante perché centinaia di milioni di persone l'accesso loro News Feed ogni giorno. In altre parole, essi sostengono che anche gli effetti che sono piccoli per ogni persona sono grandi in forma aggregata. Anche se si dovesse accettare questo argomento, non è ancora chiaro se l'effetto di queste dimensioni è importante per quanto riguarda la questione scientifica più generale sulla contagio emotivo. Per ulteriori informazioni su situazioni in cui piccoli effetti sono importanti vedere Prentice and Miller (1992) .

Dal punto di vista del primo R (Replacement), confrontando l'esperimento emotivo Contagion (Kramer, Guillory, and Hancock 2014) e l'esperimento naturale contagio emotivo (Coviello et al. 2014) offre alcune lezioni di carattere generale circa il trade-off coinvolti con lo spostamento da esperimenti per esperimenti naturali (e altri approcci come corrispondenza che il tentativo di approssimare esperimenti di dati non sperimentali, si veda il Capitolo 2). Oltre ai vantaggi etici, il passaggio da sperimentale per studi non sperimentali consente inoltre ai ricercatori di studiare i trattamenti che sono logisticamente grado di distribuire. Questi benefici etiche e logistiche hanno un costo, però. Con esperimenti naturali ricercatori hanno meno controllo sulle cose come il reclutamento dei partecipanti, randomizzazione, e la natura del trattamento. Per esempio, una limitazione di pioggia come un trattamento è che sia aumenta e diminuisce positività negatività. Nello studio sperimentale, tuttavia, Kramer e colleghi sono stati in grado di regolare in modo indipendente positività e negatività.

Il particolare approccio usato da Coviello et al. (2014) è stato ulteriormente elaborato in Coviello, Fowler, and Franceschetti (2014) . Per un'introduzione alle variabili strumentali vedere Angrist and Pischke (2009) (meno formale) o Angrist, Imbens, and Rubin (1996) (più formale). Per una valutazione scettica di variabili strumentali vedere Deaton (2010) , e per una introduzione di variabili strumentali con strumenti deboli (pioggia è uno strumento debole), vedere Murray (2006) .

Più in generale, una buona introduzione a esperimenti naturali è Dunning (2012) , e Rosenbaum (2002) , Rosenbaum (2009) , e Shadish, Cook, and Campbell (2001) offrono buone idee su stimare gli effetti causali senza esperimenti.

Per quanto riguarda il secondo R (Refinement), ci sono compromessi scientifiche e logistiche quando si considera cambiando il disegno di contagio emotivo di bloccare i messaggi di incrementare i messaggi. Ad esempio, può essere il caso che la realizzazione tecnica del News Feed rende sostanzialmente più facile da fare un esperimento con il blocco messaggi piuttosto che un esperimento con il rafforzamento messaggi (da notare che un esperimento con il blocco messaggi potrebbe essere implementato come strato su superiore del sistema News feed senza necessità di alterazioni del sistema sottostante). Scientificamente, tuttavia, la teoria indirizzata dall'esperimento non ha chiaramente suggerire un disegno sopra l'altro.

Purtroppo, non sono a conoscenza di una sostanziale ricerca prima sui meriti relativi di blocco e aumentare il contenuto nel News Feed. Inoltre, non ho visto molta ricerca sulla raffinazione trattamenti per renderli meno dannosi; unica eccezione è Jones and Feamster (2015) , che considera il caso di misura della censura di Internet (un argomento discusso nel capitolo 6 in relazione allo studio Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

In termini di terza R (Riduzione), una buona introduzione all'analisi potere tradizionale è Cohen (1988) . covariate pre-trattamento possono essere incluse in fase di progettazione e la fase di analisi di esperimenti; Capitolo 4 di Gerber and Green (2012) fornisce una buona introduzione per entrambi gli approcci, e Casella (2008) fornisce una trattazione più approfondita. Le tecniche che utilizzano queste informazioni pre-trattamento nel randomizzazione sono in genere chiamati entrambi bloccati disegni sperimentali o disegni sperimentali stratificate (la terminologia non viene utilizzato in modo coerente tra le comunità); queste tecniche sono profondamente legati alle tecniche di campionamento stratificato discusse nel Capitolo 3. Vedere Higgins, Sävje, and Sekhon (2016) per ulteriori informazioni sull'uso di questi disegni in massicci esperimenti. Covariate pre-trattamento possono anche essere inclusi nella fase di analisi. McKenzie (2012) esplora l'approccio differenza nelle differenze all'analisi esperimenti di campo in maggiore dettaglio. Vedere Carneiro, Lee, and Wilhelm (2016) per più sui compromessi tra diversi approcci per aumentare la precisione delle stime degli effetti del trattamento. Infine, al momento di decidere se provare a includere covariate pre-trattamento alla progettazione o di analisi fase (o entrambi), ci sono alcuni fattori da considerare. In un ambiente dove i ricercatori vogliono dimostrare che non sono "pesca" (Humphreys, Sierra, and Windt 2013) , usando le covariate pre-trattamento in fase di progetto può essere utile (Higgins, Sävje, and Sekhon 2016) . In situazioni in cui i partecipanti arrivano in sequenza, esperimenti sul campo soprattutto online, utilizzando le informazioni di pre-trattamento in fase di progettazione può essere difficile logisticamente, si veda ad esempio Xie and Aurisset (2016) .

Vale la pena di aggiungere un po 'di intuizione sul perché la differenza nelle differenze può essere molto più efficace di differenza-in-mezzo. Molti i risultati on-line hanno molto elevata varianza (si veda ad esempio, Lewis and Rao (2015) e Lamb et al. (2015) ) e sono relativamente stabili nel tempo. In questo caso, il punteggio cambiamento avrà sostanzialmente minore varianza, aumentando la potenza del test statistico. Una ragione questo avvicinato non viene utilizzato più spesso è che prima era digitale non era comune avere risultati pre-trattamento. Un modo più concreto per pensarci è quello di immaginare un esperimento per misurare se una specifica esercizio di routine provoca la perdita di peso. Se fate un approccio differenza-in-mezzo, la vostra stima avrà variabilità che deriva dalla variabilità pesi nella popolazione. Se si esegue un approccio difference-in-differenza, tuttavia, che la variazione naturale in peso viene rimosso e si può facilmente rilevare una differenza causata dal trattamento.

Un modo importante per ridurre il numero di partecipanti nel vostro esperimento è quello di condurre un'analisi di potenza, che Kramer e colleghi avrebbero potuto fare in base alle dimensioni degli effetti osservati dall'esperimento naturale Coviello et al. (2014) o precedente ricerca non sperimentale da Kramer (2012) (in realtà si tratta di attività alla fine di questo capitolo). Si noti che questo uso di analisi della potenza è un po 'diverso da quello tipico. Nell'era analogica, i ricercatori hanno fatto generalmente analisi potere per assicurarsi che il loro studio non era troppo piccola (vale a dire, sotto-alimentato). Ora, però, i ricercatori dovrebbero fare l'analisi potere per assicurarsi che il loro studio non è troppo grande (vale a dire, over-powered).

Infine, ho considerato l'aggiunta di una quarta R: riutilizzare. Cioè, se i ricercatori si ritrovano con i dati più sperimentali di cui hanno bisogno per affrontare la loro domanda di ricerca originale, devono riutilizzare i dati per porre nuove domande. Per esempio, immaginate che Kramer e colleghi avevano usato uno stimatore differenza nelle differenze e si sono trovati con più dati di quanto necessario per affrontare la loro domanda di ricerca. Piuttosto che non utilizzando i dati nella misura massima, potrebbero hanno studiato l'entità dell'effetto come funzione di pre-trattamento espressione emotiva. Proprio come Schultz et al. (2007) hanno trovato che l'effetto del trattamento è stato diverso per gli utenti leggeri e pesanti, forse gli effetti della sezione Notizie erano diverse per le persone che già tendevano a postare felici (o tristi) messaggi. Repurposing potrebbe portare a "pesca" (Humphreys, Sierra, and Windt 2013) e "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , ma questi sono in gran parte indirizzabili con una combinazione di rapporti onesti (Simmons, Nelson, and Simonsohn 2011) , pre-registrazione (Humphreys, Sierra, and Windt 2013) , e metodi di apprendimento automatico che tentano di evitare un eccesso di montaggio.