[ , ] Berinsky e colleghi (2012) valutato MTurk in parte replicando tre esperimenti classici. Replica il classico esperimento di frammentazione delle malattie asiatiche di Tversky and Kahneman (1981) . I tuoi risultati corrispondono a quelli di Tversky e Kahneman? I tuoi risultati corrispondono a quelli di Berinsky e colleghi? Cosa, se non altro, questo ci insegna sull'uso di MTurk per gli esperimenti di indagine?
[ , ] In un saggio un po 'ironico intitolato "We have to break up", lo psicologo sociale Robert Cialdini, uno degli autori di Schultz et al. (2007) , ha scritto che stava andando in pensione presto dal suo lavoro come professore, in parte a causa delle sfide che ha dovuto affrontare facendo esperimenti sul campo in una disciplina (psicologia) che conduce principalmente esperimenti di laboratorio (Cialdini 2009) . Leggi il lavoro di Cialdini e scrivigli una mail invitandolo a riconsiderare la sua rottura alla luce delle possibilità degli esperimenti digitali. Utilizza esempi specifici di ricerca che rispondano alle sue preoccupazioni.
[ ] Al fine di determinare se piccoli successi iniziali si bloccano o svaniscono, van de Rijt e colleghi (2014) intervenuti in quattro diversi sistemi, concedendo il successo a partecipanti selezionati a caso, e quindi misurando gli impatti a lungo termine di questo successo arbitrario. Puoi pensare ad altri sistemi in cui potresti eseguire esperimenti simili? Valuta questi sistemi in termini di problemi di valore scientifico, confusione algoritmica (vedi capitolo 2) ed etica.
[ , ] I risultati di un esperimento possono dipendere dai partecipanti. Crea un esperimento e poi eseguilo su MTurk usando due diverse strategie di reclutamento. Cerca di scegliere l'esperimento e le strategie di reclutamento in modo che i risultati siano il più diversi possibile. Ad esempio, le strategie di reclutamento potrebbero essere quelle di reclutare partecipanti al mattino e alla sera o di compensare i partecipanti con salari alti e bassi. Questo tipo di differenze nella strategia di reclutamento potrebbe portare a diversi gruppi di partecipanti ea diversi esiti sperimentali. Quanto sono risultati diversi i tuoi risultati? Che cosa rivela sull'esecuzione di esperimenti su MTurk?
[ , , ] Immagina di aver pianificato l'esperimento Emotional Contagion (Kramer, Guillory, and Hancock 2014) . Utilizzare i risultati di uno studio osservazionale precedente di Kramer (2012) per decidere il numero di partecipanti in ciascuna condizione. Questi due studi non corrispondono perfettamente, quindi assicurati di elencare esplicitamente tutte le ipotesi che fai:
[ , , ] Rispondi nuovamente alla domanda precedente, ma questa volta anziché utilizzare il precedente studio osservazionale di Kramer (2012) , utilizza i risultati di un precedente esperimento naturale di Lorenzo Coviello et al. (2014) .
[ ] Sia Margetts et al. (2011) e van de Rijt et al. (2014) condotto esperimenti studiando il processo di persone che hanno firmato una petizione. Confronta e confronta i disegni e le scoperte di questi studi.
[ ] Dwyer, Maki, and Rothman (2015) condotto due esperimenti sul campo sulla relazione tra norme sociali e comportamento pro-ambientale. Ecco l'abstract del loro articolo:
"Come potrebbe essere utilizzata la scienza psicologica per incoraggiare il comportamento ambientale? In due studi, gli interventi volti a promuovere il comportamento di risparmio energetico nei bagni pubblici hanno esaminato le influenze delle norme descrittive e della responsabilità personale. Nello Studio 1, lo stato della luce (cioè, acceso o spento) è stato manipolato prima che qualcuno entrasse in un bagno pubblico non occupato, segnalando la norma descrittiva per quell'impostazione. I partecipanti erano significativamente più propensi a spegnere le luci se erano fuori quando sono entrati. Nello Studio 2 è stata inclusa una condizione aggiuntiva in cui la norma di spegnere la luce è stata dimostrata da un confederato, ma i partecipanti non erano essi stessi responsabili dell'accensione. La responsabilità personale ha moderato l'influenza delle norme sociali sul comportamento; quando i partecipanti non erano responsabili di accendere la luce, l'influenza della norma era diminuita. Questi risultati indicano come le norme descrittive e la responsabilità personale possono regolare l'efficacia degli interventi pro-ambiente ".
Leggi il loro articolo e progetta una replica dello studio 1.
[ , ] Basandosi sulla domanda precedente, ora esegui il tuo progetto.
[ ] C'è stato un dibattito sostanziale sugli esperimenti usando i partecipanti reclutati da MTurk. In parallelo, c'è stato anche un dibattito sostanziale sugli esperimenti usando partecipanti reclutati da studenti universitari. Scrivi un promemoria di due pagine confrontando e contrapponendo Turkers e laureandi come partecipanti alla ricerca. Il tuo confronto dovrebbe includere una discussione di problemi sia scientifici che logistici.
[ ] Il libro di Jim Manzi Uncontrolled (2012) è una meravigliosa introduzione al potere della sperimentazione negli affari. Nel libro ha trasmesso la seguente storia:
"Una volta ero in un incontro con un vero genio del business, un miliardario autodidatta che aveva una profonda, intuitiva comprensione del potere degli esperimenti. La sua azienda spende risorse significative cercando di creare grandi vetrine per negozi che attirino i consumatori e aumentino le vendite, come diceva la saggezza convenzionale. Gli esperti hanno esaminato attentamente la progettazione dopo la progettazione e nelle singole sessioni di revisione dei test per un periodo di anni hanno continuato a non mostrare alcun effetto causale significativo di ogni nuovo design di display sulle vendite. Dirigenti di marketing e merchandising senior hanno incontrato il CEO per rivedere questi risultati dei test storici in toto. Dopo aver presentato tutti i dati sperimentali, hanno concluso che la saggezza convenzionale era sbagliata, che gli schermi delle finestre non incoraggiavano le vendite. La loro azione raccomandata era di ridurre i costi e gli sforzi in questo settore. Questo ha dimostrato drammaticamente la capacità della sperimentazione di ribaltare la saggezza convenzionale. La risposta del CEO è stata semplice: "La mia conclusione è che i tuoi designer non sono molto bravi." La sua soluzione consisteva nell'aumentare lo sforzo nel design del display del punto vendita e nell'ottenere nuove persone a farlo ". (Manzi 2012, 158–9)
Quale tipo di validità è la preoccupazione del CEO?
[ ] Basandosi sulla domanda precedente, immagina di essere stato alla riunione in cui sono stati discussi i risultati degli esperimenti. Quali sono le quattro domande che potresti porre: una per ciascun tipo di validità (statistica, costrutto, interno ed esterno)?
[ ] Bernedo, Ferraro, and Price (2014) studiato l'effetto di sette anni dell'intervento di risparmio idrico descritto in Ferraro, Miranda, and Price (2011) (vedi figura 4.11). In questo documento, Bernedo e colleghi hanno anche cercato di capire il meccanismo alla base dell'effetto confrontando il comportamento delle famiglie che hanno e non si sono trasferite dopo il trattamento. Cioè, grosso modo, hanno cercato di vedere se il trattamento ha avuto un impatto sulla casa o sul proprietario della casa.
[ ] In un seguito a Schultz et al. (2007) , Schultz e colleghi hanno eseguito una serie di tre esperimenti sull'effetto di norme descrittive e ingiuntive su un diverso comportamento ambientale (riutilizzo degli asciugamani) in due contesti (un hotel e un condominio multiproprietà) (Schultz, Khazian, and Zaleski 2008) .
[ ] In risposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) condotto una serie di esperimenti di laboratorio per studiare il progetto delle bollette elettriche. Ecco come lo descrivono in astratto:
"In un esperimento basato sull'indagine, ciascun partecipante ha visto un'ipotetica bolletta dell'elettricità per una famiglia con un consumo di elettricità relativamente elevato, che copre informazioni su (a) uso storico, (b) confronti con i vicini, e (c) uso storico con guasto dell'elettrodomestico. I partecipanti hanno visto tutti i tipi di informazioni in uno dei tre formati tra cui (a) tabelle, (b) grafici a barre e (c) grafici di icone. Riportiamo su tre risultati principali. In primo luogo, i consumatori hanno compreso meglio ogni tipo di informazione sull'uso dell'elettricità quando è stata presentata in una tabella, forse perché le tabelle facilitano la lettura semplice dei punti. In secondo luogo, le preferenze e le intenzioni di risparmiare elettricità erano le più forti per le informazioni sull'uso storico, indipendentemente dal formato. In terzo luogo, gli individui con un basso livello di alfabetizzazione hanno capito meno tutte le informazioni. "
A differenza di altri studi di follow-up, il principale risultato di interesse per Canfield, Bruin, and Wong-Parodi (2016) è rappresentato dal comportamento, non dal comportamento effettivo. Quali sono i punti di forza e di debolezza di questo tipo di studi in un programma di ricerca più ampio che promuove il risparmio energetico?
[ , ] Smith and Pell (2003) presentato una meta-analisi satirica di studi che dimostrano l'efficacia dei paracadute. Hanno concluso:
"Come per molti interventi destinati a prevenire problemi di salute, l'efficacia dei paracadute non è stata sottoposta a una rigorosa valutazione utilizzando studi randomizzati e controllati. I sostenitori della medicina basata sull'evidenza hanno criticato l'adozione di interventi valutati utilizzando solo dati osservativi. Pensiamo che tutti potrebbero trarne beneficio se i protagonisti più radicali della medicina basata sull'evidenza organizzassero e partecipassero a un processo in doppio cieco, randomizzato, controllato con placebo e crossover del paracadute ".
Scrivi un editoriale adatto per un giornale di lettori generici, come il New York Times , discutendo contro la feticizzazione delle prove sperimentali. Fornire esempi concreti e specifici. Suggerimento: vedi anche Deaton (2010) e Bothwell et al. (2016) .
[ , , ] Gli stimatori differenza-in-differenze di un effetto del trattamento possono essere più precisi degli stimatori differenza-in-media. Scrivi un promemoria a un ingegnere incaricato del test A / B presso una società di social media di start-up spiegando il valore dell'approccio differenze in differenze per la conduzione di un esperimento online. Il promemoria dovrebbe includere una dichiarazione del problema, qualche intuizione sulle condizioni in cui lo stimatore differenza di differenza supererà lo stimatore differenza nella media e un semplice studio di simulazione.
[ , ] Gary Loveman era un professore alla Harvard Business School prima di diventare l'amministratore delegato di Harrah's, una delle più grandi compagnie di casinò del mondo. Quando si è trasferito a Harrah's, Loveman ha trasformato la compagnia in un programma di fidelizzazione frequent flyer che raccoglieva enormi quantità di dati sul comportamento dei clienti. Oltre a questo sistema di misurazione sempre attivo, la società ha iniziato a eseguire esperimenti. Ad esempio, potrebbero eseguire un esperimento per valutare l'effetto di un coupon per una notte di hotel gratuita per i clienti con uno specifico schema di gioco. Ecco come Loveman ha descritto l'importanza della sperimentazione nelle pratiche commerciali quotidiane di Harrah:
"È come se non molestassi le donne, non rubi, e devi avere un gruppo di controllo. Questa è una delle cose che puoi perdere il tuo lavoro da Harrah's - non gestire un gruppo di controllo. " (Manzi 2012, 146)
Scrivi un'email a un nuovo dipendente spiegando perché Loveman pensa che sia così importante avere un gruppo di controllo. Dovresti provare a includere un esempio, reale o inventato, per illustrare il tuo punto.
[ , ] Un nuovo esperimento mira a stimare l'effetto di ricevere promemoria di messaggi di testo sull'assorbimento della vaccinazione. Centocinquanta cliniche, ciascuna con 600 pazienti eleggibili, sono disponibili a partecipare. C'è un costo fisso di $ 100 per ogni clinica con cui vuoi lavorare, e costa $ 1 per ogni messaggio di testo che vuoi inviare. Inoltre, qualsiasi clinica con cui stai lavorando misurerà il risultato (indipendentemente dal fatto che qualcuno abbia ricevuto una vaccinazione) gratuitamente. Supponi di avere un budget di $ 1.000.
[ , ] Un grosso problema con i corsi online è il logoramento: molti studenti che iniziano i corsi finiscono con l'abbandonare. Immagina di lavorare su una piattaforma di apprendimento online e un designer della piattaforma ha creato una barra di avanzamento visivo che, a suo avviso, aiuterà a impedire agli studenti di abbandonare il corso. Vuoi testare l'effetto della barra di avanzamento sugli studenti in un ampio corso di scienze sociali computazionali. Dopo aver affrontato eventuali problemi etici che potrebbero sorgere nell'esperimento, tu e i tuoi colleghi siete preoccupati che il corso potrebbe non avere abbastanza studenti per rilevare in modo affidabile gli effetti della barra di avanzamento. Nei seguenti calcoli, puoi supporre che metà degli studenti riceverà la barra di avanzamento e metà no. Inoltre, si può presumere che non ci siano interferenze. In altre parole, si può presumere che i partecipanti siano influenzati solo dal fatto che abbiano ricevuto il trattamento o il controllo; non vengono effettuati da altre persone che hanno ricevuto il trattamento o il controllo (per una definizione più formale, si veda il capitolo 8 di Gerber and Green (2012) ). Tieni traccia di eventuali ulteriori presupposti che fai.
[ , , ] Immagina di lavorare come scienziato dei dati presso un'azienda tecnologica. Qualcuno del dipartimento marketing chiede il tuo aiuto per valutare un esperimento che stanno pianificando per misurare il ritorno sull'investimento (ROI) per una nuova campagna pubblicitaria online. Il ROI è definito come l'utile netto della campagna diviso per il costo della campagna. Ad esempio, una campagna che non ha avuto alcun effetto sulle vendite avrebbe un ROI del -100%; una campagna in cui i profitti generati erano uguali ai costi avrebbe un ROI pari a 0; e una campagna in cui i profitti generati erano il doppio del costo avrebbe un ROI del 200%.
Prima di lanciare l'esperimento, il dipartimento marketing ti fornisce le seguenti informazioni in base alla loro precedente ricerca (in realtà, questi valori sono tipici delle campagne pubblicitarie online reali riportate in Lewis e Rao (2015) ):
Scrivi un memo per valutare questo esperimento proposto. Il tuo memo dovrebbe usare le prove di una simulazione che crei e dovrebbe affrontare due problemi principali: (1) Consiglieresti di lanciare questo esperimento come pianificato? Se è così, perché? Se no, perché no? Assicurati di essere chiaro sui criteri che stai usando per prendere questa decisione. (2) Quali sono le dimensioni del campione che consiglieresti per questo esperimento? Ancora una volta assicurati di essere chiari sui criteri che stai utilizzando per prendere questa decisione.
Una buona nota riguarderà questo caso specifico; un promemoria migliore generalizzerà da questo caso in un modo (es. mostra come cambia la decisione in funzione della dimensione dell'effetto della campagna); e un grande memo presenterà un risultato completamente generalizzato. Il tuo memo dovrebbe usare i grafici per aiutare a illustrare i risultati.
Ecco due suggerimenti. In primo luogo, il reparto marketing potrebbe aver fornito alcune informazioni non necessarie e potrebbe non aver fornito alcune informazioni necessarie. In secondo luogo, se si utilizza R, tenere presente che la funzione rlnorm () non funziona nel modo previsto da molte persone.
Questa attività ti darà pratica con l'analisi della potenza, creando simulazioni e comunicando i risultati con parole e grafici. Dovrebbe aiutarti a condurre l'analisi della potenza per qualsiasi tipo di esperimento, non solo gli esperimenti progettati per stimare il ROI. Questa attività presuppone che tu abbia una certa esperienza con test statistici e analisi di potenza. Se non hai familiarità con l'analisi della potenza, ti consiglio di leggere "A Power Primer" di Cohen (1992) .
Questa attività è stata ispirata da un delizioso articolo di RA Lewis and Rao (2015) , che illustra vividamente un limite statistico fondamentale di esperimenti anche massicci. Il loro articolo - che in origine aveva il provocatorio titolo "Sulla quasi impossibilità di misurare il ritorno alla pubblicità" - mostra quanto sia difficile misurare il ritorno sull'investimento degli annunci online, anche con esperimenti digitali che coinvolgono milioni di clienti. Più in generale, RA Lewis and Rao (2015) illustrano un fatto statistico fondamentale che è particolarmente importante per gli esperimenti sull'era digitale: è difficile stimare piccoli effetti di trattamento in mezzo a dati di esito rumorosi.
[ , ] Fai la stessa cosa della domanda precedente, ma, piuttosto che la simulazione, dovresti utilizzare i risultati analitici.
[ , , ] Fai lo stesso della domanda precedente, ma usa sia la simulazione che i risultati analitici.
[ , , ] Immagina di aver scritto il memo sopra descritto e qualcuno del reparto marketing fornisce una nuova informazione: si aspetta una correlazione 0.4 tra le vendite prima e dopo l'esperimento. Come cambia questo i consigli nel tuo memo? (Suggerimento: vedere la sezione 4.6.2 per ulteriori informazioni sullo stimatore differenza di medie e sullo stimatore differenze differenze).
[ , ] Al fine di valutare l'efficacia di un nuovo programma di assistenza all'occupazione basato sul web, un'università ha condotto uno studio di controllo randomizzato tra 10.000 studenti che hanno frequentato l'ultimo anno di scuola. Un abbonamento gratuito con informazioni di accesso univoche è stato inviato tramite un invito e-mail esclusivo a 5.000 studenti selezionati a caso, mentre gli altri 5.000 studenti erano nel gruppo di controllo e non avevano un abbonamento. Dodici mesi dopo, un'indagine di follow-up (senza nessuna risposta) ha mostrato che sia il gruppo di trattamento che quello di controllo, il 70% degli studenti si era assicurato un impiego a tempo pieno nel campo prescelto (tabella 4.6). Pertanto, sembrava che il servizio web non avesse alcun effetto.
Tuttavia, un abile scienziato di dati dell'università ha esaminato i dati un po 'più da vicino e ha rilevato che solo il 20% degli studenti nel gruppo di trattamento ha effettuato l'accesso all'account dopo aver ricevuto l'e-mail. Inoltre, e in qualche modo sorprendentemente, tra coloro che hanno effettuato l'accesso al sito Web, solo il 60% aveva ottenuto un impiego a tempo pieno nel campo prescelto, che era inferiore al tasso per le persone che non si collegavano e inferiore al tasso per le persone nella condizione di controllo (tabella 4.7).
Suggerimento: questa domanda va oltre il materiale trattato in questo capitolo, ma affronta questioni comuni negli esperimenti. Questo tipo di design sperimentale viene talvolta definito un progetto di incoraggiamento perché i partecipanti sono incoraggiati a partecipare al trattamento. Questo problema è un esempio di ciò che viene chiamato non -conformità unilaterale (si veda il capitolo 5 di Gerber and Green (2012) ).
[ Dopo un ulteriore esame, si è scoperto che l'esperimento descritto nella domanda precedente era ancora più complicato. Risultò che il 10% delle persone nel gruppo di controllo pagava per l'accesso al servizio, e finivano con un tasso di occupazione del 65% (tabella 4.8).
Suggerimento: questa domanda va oltre il materiale trattato in questo capitolo, ma affronta questioni comuni negli esperimenti. Questo problema è un esempio di ciò che è chiamato non conformità a due lati (si veda il capitolo 6 di Gerber and Green (2012) ).
Gruppo | Dimensione | Tasso di occupazione |
---|---|---|
Accesso consentito al sito Web | 5.000 | 70% |
Non concesso l'accesso al sito web | 5.000 | 70% |
Gruppo | Dimensione | Tasso di occupazione |
---|---|---|
Accesso garantito al sito Web e accesso | 1.000 | 60% |
Accesso garantito al sito Web e accesso non effettuato | 4.000 | 72,5% |
Non concesso l'accesso al sito web | 5.000 | 70% |
Gruppo | Dimensione | Tasso di occupazione |
---|---|---|
Accesso garantito al sito Web e accesso | 1.000 | 60% |
Accesso garantito al sito Web e accesso non effettuato | 4.000 | 72,5% |
Non concesso l'accesso al sito web e pagato per questo | 500 | 65% |
Non ha concesso l'accesso al sito web e non ha pagato per questo | 4.500 | 70.56% |