attività

Chiave:

  • Grado di difficoltà: facile facile , medio medio , difficile difficile , molto difficile molto difficile
  • richiede la matematica ( richiede la matematica )
  • richiede la codifica ( richiede codifica )
  • raccolta dati ( raccolta dati )
  • i miei preferiti ( il mio preferito )
  1. [ medio , raccolta dati ] Berinsky e colleghi (2012) valuta le Mechanical Turk nella parte replicando tre esperimenti classici. Replicare il classico esperimento Disease inquadratura asiatico da Tversky and Kahneman (1981) . I tuoi risultati partita Tversky e Kahneman di? Fai i tuoi risultati partita Berinsky e colleghi? Che cosa-se qualcosa-ci insegna questo sull'utilizzo di Mechanical Turk per gli esperimenti di indagine?

  2. [ medio , il mio preferito ] In un articolo un po 'tongue-in-cheek dal titolo "Dobbiamo Break Up", lo psicologo sociale Robert Cialdini, uno degli autori Schultz et al. (2007) , ha scritto che era in pensione in anticipo dal suo lavoro come professore, in parte a causa delle sfide che ha affrontato fare esperimenti sul campo in una disciplina (psicologia) che conduce principalmente esperimenti di laboratorio (Cialdini 2009) . Leggi l'articolo di Cialdini, e lo scrivere una e-mail chiedendogli di riconsiderare la sua disgregazione alla luce delle possibilità di esperimenti digitali. Utilizzare esempi specifici di ricerca che affronta le sue preoccupazioni.

  3. [ medio ] Al fine di determinare se piccoli successi iniziali di lock-in o fade away, van de Rijt e e colleghi (2014) è intervenuta in quattro diversi sistemi elargendo successo sui partecipanti selezionati in modo casuale, e poi misurato l'impatto a lungo termine di questo successo arbitraria. Si può pensare ad altri sistemi in cui è possibile eseguire esperimenti simili? Valutare questi sistemi in termini di emissioni di valore scientifico, confondimento algoritmica (vedi capitolo 2), e l'etica.

  4. [ medio , raccolta dati ] I risultati di un esperimento possono dipendere i partecipanti. Crea un esperimento e quindi eseguirlo su Amazon Mechanical Turk (MTurk) utilizzando due diverse strategie di reclutamento. Provate a prendere le strategie di sperimentazione e di reclutamento in modo che i risultati saranno diversi come possibile. Ad esempio, le strategie di reclutamento potrebbe essere quello di reclutare i partecipanti al mattino e alla sera o per compensare i partecipanti con alti e bassi salari. Questi tipi di differenze nella strategia di reclutamento potrebbe portare a diversi pool di partecipanti e diversi risultati sperimentali. Quanto è diverso hanno i risultati risultano? Che cosa rivelano sull'esecuzione di esperimenti sui MTurk?

  5. [ molto difficile , richiede la matematica , richiede codifica , il mio preferito ] Immaginate che si stavano progettando lo studio emotivo Contagion (Kramer, Guillory, and Hancock 2014) . Utilizzare i risultati di uno studio osservazionale in precedenza da Kramer (2012) per decidere il numero di partecipanti in ogni condizione. Questi due studi non corrispondono perfettamente in modo da essere sicuri di elencare esplicitamente tutte le ipotesi che si fanno:

    1. Eseguire una simulazione che deciderà quanti partecipanti sarebbero stati necessari per rilevare un effetto grande come l'effetto Kramer (2012) con \ (\ alpha = 0.05 \) e \ (1 - \ beta = 0.8 \).
    2. Fate lo stesso calcolo analitico.
    3. Visti i risultati da Kramer (2012) è stato contagio emotivo (Kramer, Guillory, and Hancock 2014) over-alimentato (cioè, ha fatto avere più partecipanti del necessario)?
    4. Tra le ipotesi che hai fatto, che hanno il più grande effetto sul vostro calcolo?
  6. [ molto difficile , richiede la matematica , richiede codifica , il mio preferito ] Rispondere alla domanda di cui sopra, ma invece di usare lo studio osservazionale in precedenza da Kramer (2012) utilizzano i risultati di un esperimento naturale in precedenza da Coviello et al. (2014) .

  7. [ facile ] Sia Rijt et al. (2014) e Margetts et al. (2011) entrambi eseguire esperimenti che studiano il processo di persone che hanno sottoscritto una petizione. Confrontare e contrapporre la progettazione e risultati di questi studi.

  8. [ facile ] Dwyer, Maki, and Rothman (2015) hanno condotto due esperimenti di campo sul rapporto tra norme sociali e il comportamento proenvironmental. Ecco il riassunto del loro articolo:

    "Come può la scienza psicologica essere utilizzato per incoraggiare un comportamento proenvironmental? In due studi, interventi volti a promuovere comportamenti di risparmio energetico nei bagni pubblici hanno esaminato le influenze delle norme descrittivi e la responsabilità personale. Nello Studio 1, lo stato di luce (ad esempio, acceso o spento) è stato manipolato prima che qualcuno è entrato un bagno pubblico non occupato, segnalando la norma descrittivo per tale impostazione. I partecipanti erano significativamente più probabilità di spegnere le luci se erano fuori quando sono entrati. Nello Studio 2, una condizione aggiuntiva è stato incluso in cui la norma di spegnere la luce è stata dimostrata da un complice, ma i partecipanti non erano essi stessi responsabili per accenderlo. La responsabilità personale moderato l'influenza delle norme sociali sul comportamento; quando i partecipanti non erano responsabili per accendere la luce, l'influenza della norma era diminuita. Questi risultati indicano come le norme e la responsabilità personale descrittiva può disciplinare l'efficacia degli interventi proenvironmental. "

    Leggi la loro carta e progettare una replica di studio 1.

  9. [ medio , raccolta dati ] Sulla domanda precedente, ora svolgere il vostro disegno.

    1. Come i risultati si raffrontano?
    2. Ciò che potrebbe spiegare queste differenze?
  10. [ medio ] C'è stato notevole dibattito su esperimenti usando partecipanti reclutati da Amazon Mechanical Turk. In parallelo, vi è stato anche notevole dibattito su esperimenti usando partecipanti reclutati da popolazioni studente universitario. Scrivere una nota di due pagine comparare e confrontare le Turkers e laureandi come ricercatori partecipanti. Il vostro confronto dovrebbe includere una discussione di entrambe le questioni scientifiche e logistiche.

  11. [ facile Il libro di] Jim Manzi incontrollato (2012) è una bella introduzione in potere di sperimentazione nel mondo degli affari. Nel libro ha trasmesso questa storia:

    "Una volta ero in un incontro con un vero genio di business, un miliardario self-made che aveva un profondo, sottovalutazione intuitiva del potere di esperimenti. La sua azienda ha speso notevoli risorse cercando di creare grandi vetrine negozio che avrebbe attratto i consumatori e le vendite aumenta, come la saggezza convenzionale dice che dovrebbero. Gli esperti accuratamente testati disegno dopo disegno, e nelle singole sessioni di revisione di prova per un periodo di anni conservato senza mostrare alcun significativo effetto causale di ogni nuovo design del display sulle vendite. Senior marketing e merchandising dirigenti hanno incontrato il CEO di rivedere i risultati dei test storici in toto. Dopo aver presentato tutti i dati sperimentali, hanno concluso che la saggezza convenzionale era display sbagliato quella finestra non guidare le vendite. La loro azione consigliata è stato quello di ridurre i costi e lo sforzo in questo settore. Ciò ha dimostrato drasticamente la capacità di sperimentazione di ribaltare saggezza convenzionale. La risposta del CEO era semplice: 'La mia conclusione è che i progettisti non sono molto buone.' La sua soluzione era quella di aumentare lo sforzo nella progettazione del deposito, e per ottenere nuove persone a farlo ". (Manzi 2012, 158–9)

    Quale tipo di validità è la preoccupazione del CEO?

  12. [ facile ] Sulla base alla domanda precedente, immaginate che eri in occasione della riunione in cui sono stati discussi i risultati degli esperimenti. Quali sono le quattro domande che si potrebbe chiedere, uno per ogni tipo di validità (statistiche, costruire, interna, ed esterna)?

  13. [ facile ] Bernedo, Ferraro, and Price (2014) studia l'effetto di sette anni dell'intervento risparmio idrico descritto nel Ferraro, Miranda, and Price (2011) (vedi Figura 4.10). In questo lavoro, Bernedo e colleghi hanno anche cercano di capire il meccanismo alla base dell'effetto confrontando il comportamento di famiglie che hanno e non avranno occupato dopo il trattamento è stato consegnato. Cioè, più o meno, si cerca di capire se il trattamento influenzato la casa o il proprietario della casa.

    1. Leggere il giornale, descrivere il loro disegno, e riassumere le loro scoperte. b) Non sono i loro risultati impatto come si dovrebbe valutare il rapporto costo-efficacia degli interventi simili? Se sì, perché? Se no, perché no?
  14. [ facile ] In un follow-up a Schultz et al. (2007) , Schultz e colleghi eseguire una serie di tre esperimenti sugli effetti delle norme descrittivi e ingiuntivi su un diverso comportamento ambientale (asciugamano riutilizzo) in due contesti (un hotel e un condominio multiproprietà) (Schultz, Khazian, and Zaleski 2008) .

    1. Riassumere la progettazione e risultati di questi tre esperimenti.
    2. Come, se non del tutto, non cambiano la tua interpretazione di Schultz et al. (2007) ?
  15. [ facile ] In risposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) ha organizzato una serie di esperimenti di laboratorio, come per studiare la progettazione di bollette elettriche. Ecco come lo descrivono in astratto:

    "In un esperimento sondaggio-based, ogni partecipante ha visto una bolletta elettrica ipotetica per una famiglia con un uso relativamente alto di energia elettrica, che coprono informazioni su (a) uso storico, (b) il confronto ai vicini, e (c) l'uso storico con ripartizione apparecchio. I partecipanti hanno visto tutti i tipi di informazioni in uno dei tre formati, tra cui (a) le tabelle, (b) grafici a barre, e (c) icona grafici. Riportiamo su tre risultati principali. In primo luogo, i consumatori capito ogni tipo di informazioni di energia elettrica da usare di più quando è stato presentato in una tabella, forse perché le tabelle facilitare la lettura semplice punto. In secondo luogo, le preferenze e le intenzioni per risparmiare energia elettrica sono stati i più forti per le informazioni storiche uso, indipendentemente dal formato. In terzo luogo, gli individui con bassa alfabetizzazione energia comprese tutte le informazioni di meno ".

    A differenza di altri studi di follow-up, l'esito principale di interesse a Canfield, Bruin, and Wong-Parodi (2016) viene segnalato comportamento non effettivo comportamento. Quali sono i punti di forza e di debolezza di questo tipo di studio in un programma di ricerca più ampio promuovere il risparmio energetico?

  16. [ medio , il mio preferito ] Smith and Pell (2003) è un satirico meta-analisi di studi che dimostrano l'efficacia di paracadute. Essi concludono:

    "Come per molti interventi destinati a prevenire le malattie, l'efficacia del paracadute non è stato sottoposto a rigorosa valutazione tramite studi clinici controllati randomizzati. I sostenitori della medicina basata sulle prove hanno criticato l'adozione di interventi valutati utilizzando solo i dati osservativi. Pensiamo che tutti possano beneficiare, se i protagonisti più radicali della evidence based medicine organizzato e partecipato a un doppio cieco, controllato randomizzato, placebo, studio di crossover del paracadute. "

    Scrivere un editoriale adatto per un giornale lettori generale, come il New York Times, sostenendo contro la feticizzazione di prove sperimentali. Fornire specifiche, esempi concreti. Suggerimento: Vedi anche, Bothwell et al. (2016) e Deaton (2010)

  17. [ medio , richiede codifica , il mio preferito ] Differenza nelle differenze stimatori di un effetto del trattamento può essere più precisa di stimatori differenza-in-media. Scrivi un memo a un ingegnere incaricato di test A / B in una società di social media di start-up che spiega il valore dell'approccio differenza nelle differenze per l'esecuzione di un esperimento on-line. Il memo dovrebbe includere una dichiarazione del problema, alcune intuizioni circa le condizioni in cui lo stimatore differenza-in-differenza sarà sovraperformare il stimatore differenza-in-media, e uno studio di simulazione semplice.

  18. [ facile , il mio preferito ] Gary Loveman era professore alla Harvard Business School, prima di diventare il CEO di Harrah, una delle più grandi società di casinò in tutto il mondo. Quando si trasferì a Harrah, Loveman ha trasformato la società con un frequente programma di fidelizzazione volantino-like che ha raccolto enormi quantità di dati sul comportamento dei clienti. In cima a questo sistema di misurazione always-on, l'azienda ha iniziato in esecuzione esperimenti. Ad esempio, si potrebbe eseguire un esperimento per valutare l'effetto di un coupon per una notte albergo gratuito per i clienti con un modello di gioco specifico. Ecco come Loveman ha descritto l'importanza della sperimentazione di pratiche di business di tutti i giorni di Harrah:

    "E 'come se non molestare le donne, non si rubi, e hai avuto modo di avere un gruppo di controllo. Questa è una delle cose che si possono perdere il lavoro per in Harrah, non è in esecuzione un gruppo di controllo. " (Manzi 2012, 146)

    Scrivi una mail a un nuovo dipendente che spiega perché Loveman pensa che è così importante avere un gruppo di controllo. Si dovrebbe cercare di includere un esempio-reale o fatta-per illustrare il punto.

  19. [ difficile , richiede la matematica ] Un nuovo esperimento ha lo scopo di stimare l'effetto di ricevere promemoria messaggio di testo sul captazione vaccinazione. 150 cliniche, ciascuna con 600 pazienti eleggibili, sono disposti a partecipare. C'è un costo fisso di 100 dollari per ogni clinica si desidera lavorare con, e costa 1 dollaro per ogni messaggio di testo che si desidera inviare. Inoltre, tutte le cliniche che si sta lavorando con misureranno il risultato (se una persona ha ricevuto una vaccinazione) gratuitamente. Si supponga che si dispone di un budget di 1000 dollari.

    1. In quali condizioni potrebbe essere meglio concentrare le risorse su un piccolo numero di cliniche e in quali condizioni potrebbe essere meglio per diffonderli più ampiamente?
    2. Quali fattori potrebbero determinare l'entità dell'effetto più piccola che si sarà in grado di rilevare in modo affidabile con il vostro budget?
    3. Scrivere una nota che spiega questi trade-off ad un potenziale finanziatore.
  20. [ difficile , richiede la matematica ] Uno dei problemi principali con i corsi on-line è attrito; molti studenti che iniziano i corsi finiscono per cadere-out. Immaginate che si sta lavorando ad una piattaforma di apprendimento online, e un designer presso la piattaforma ha creato una barra di avanzamento visivo che lei pensa aiuterà a impedire agli studenti di abbandono del corso. Si desidera testare l'effetto della barra di avanzamento sugli studenti in un ampio corso di scienze sociali computazionali. Dopo affrontare eventuali questioni etiche che potrebbero sorgere nell'esperimento, voi ei vostri colleghi ottenere preoccupati che il corso potrebbe non avere abbastanza studenti per rilevare in modo affidabile gli effetti della barra di avanzamento. Nei calcoli di seguito si può supporre che la metà degli studenti riceveranno la barra di avanzamento e per metà no. Inoltre, si può supporre che non vi è alcuna interferenza. In altre parole, si può supporre che i partecipanti sono soggetti al solo se hanno ricevuto il trattamento o di controllo; essi non vengono effettuate se altre persone hanno ricevuto il trattamento o di controllo (per una definizione più formale, vedere Gerber and Green (2012) , cap. 8). Si prega di tenere traccia di eventuali ulteriori ipotesi che si fanno.

    1. Supponiamo che la barra di avanzamento dovrebbe aumentare la percentuale di studenti che terminano la classe di 1 punto percentuale, qual è la dimensione del campione necessaria per rilevare in modo affidabile l'effetto?
    2. Supponiamo che la barra di avanzamento dovrebbe aumentare la percentuale di studenti che terminano la classe di 10 punti percentuali, qual è la dimensione del campione necessaria per rilevare in modo affidabile l'effetto?
    3. Ora immaginate che è stato eseguito l'esperimento e gli studenti che hanno completato tutti i materiali del corso hanno preso un esame finale. Quando si confrontano i punteggi degli esami finali di studenti che hanno ricevuto la barra di avanzamento per coloro che non hanno, si trova, tanto per la tua sorpresa, che gli studenti che non hanno ricevuto la barra di avanzamento in realtà ottenuto un punteggio superiore. Questo significa che la barra di avanzamento causato agli studenti di imparare meno? Che cosa si può imparare da questi dati di outcome? (Suggerimento: Vedere Gerber and Green (2012) , cap. 7)
  21. [ molto difficile , richiede codifica ] In una bella carta, Lewis and Rao (2015) illustrano chiaramente una limitazione statistico fondamentale anche massicci esperimenti. La carta che in origine aveva il titolo provocatorio "Sulla quasi impossibilità di misurare l'ritorni alla pubblicità" -mostra quanto sia difficile misurare il ritorno sugli investimenti di annunci on-line, anche con esperimenti digitali che coinvolgono milioni di clienti. Più in generale, il documento mostra chiaramente che è difficile stimare piccolo effetto di trattamento tra i dati di outcome rumorosi. Oppure dichiarato diffently, il documento mostra che gli effetti del trattamento stimati avranno intervalli di confidenza ampi quando l'impatto-to-deviazione standard (\ (\ frac {\ delta \ bar {y}} {\ sigma} \)) rapporto è piccolo. L'importante lezione generale da questo documento è che i risultati di esperimenti con piccole rapporto impatto-to-deviazione standard (ad esempio, il ROI delle campagne pubblicitarie) sarà insoddisfacente. La sfida sarà quella di scrivere un memo a qualcuno nel reparto marketing della vostra azienda evaluting un esperimento progettato per misurare il ROI di una campagna pubblicitaria. Il tuo promemoria dovrebbe essere sostenuto con i grafici dei risultati delle simulazioni al computer.

    Ecco alcune informazioni di base che potrebbe essere necessario. Tutti questi valori numerici sono tipici dei veri esperimenti riportati in Lewis and Rao (2015) :

    • ROI, una metrica chiave per campagne pubblicitarie online, è definito come l'utile netto dalla campagna (utile lordo dal costo della campagna meno di campagna) diviso per il costo della campagna. Per esempio una campagna che ha avuto alcun effetto sulle vendite avrebbe un ROI del -100% e una campagna in cui i profitti generati sono pari ai costi avrebbe un ROI pari a 0.

    • le vendite medie per cliente è di $ 7 con una deviazione standard di $ 75.

    • la campagna è previsto un aumento delle vendite di $ 0,35 per cliente, che corrisponde ad un aumento di profitto di $ 0,175 per cliente. In altre parole, il margine lordo è del 50%.

    • la dimensione programmata dell'esperimento è di 200.000 persone, metà nel gruppo di trattamento e per metà nel gruppo di controllo.

    • il costo della campagna è di $ 0,14 per partecipante.

    Scrivi un promemoria evaluting questo esperimento. Vi consigliamo di lanciare questo esperimento come previsto? Se sì, perché? Se no, quali cambiamenti mi consiglia?

    Un buon promemoria affronterà questo caso specifico; un promemoria meglio sarà generalizzare da questo caso in un modo (ad esempio, mostra come cambia decisione come una funzione del rapporto di impatto a deviazioni standard); e un grande memo presenterà un risultato pienamente generalizzato.

  22. [ molto difficile , richiede la matematica ] Fare lo stesso come la domanda precedente, ma piuttosto che la simulazione si dovrebbe utilizzare i risultati analitici.

  23. [ molto difficile , richiede la matematica , richiede codifica ] Fare lo stesso come la domanda precedente, ma l'uso sia di simulazione e risultati analitici.

  24. [ molto difficile , richiede la matematica , richiede codifica ] Immaginate di aver scritto il promemoria descritto sopra utilizzando la simulazione, i risultati analitici, o entrambi, e qualcuno dal reparto marketing consiglia di utilizzare uno stimatore differenza nelle differenze, piuttosto che una differenza di mezzi stimatore (si veda la Sezione 4.6.2) . Scrivere un nuovo memo più breve che spiega come una correlazione tra 0,4 vendite prima l'esperimento e le vendite dopo l'esperimento sarebbe modificare la conclusione.

  25. [ difficile , richiede la matematica ] Al fine di valutare l'efficacia di un nuovo servizio web-based carriera, un ufficio di servizi di carriera University ha condotto uno studio randomizzato di controllo tra i 10.000 studenti che entrano nel loro ultimo anno di scuola. Un abbonamento gratuito con unica informazioni di log-in è stato inviato attraverso un esclusivo invito e-mail a 5.000 degli studenti scelti a caso, mentre gli altri 5.000 studenti sono nel gruppo di controllo e non hanno un abbonamento. Dodici mesi più tardi, un sondaggio di follow-up (con nessuna mancata risposta) mostra che in entrambi i gruppi di trattamento e di controllo, il 70% degli studenti hanno assicurato lavoro a tempo pieno nel loro settore prescelto (Tabella 4.5). Così, sembra che il servizio web-based non ha avuto effetto.

    Tuttavia, uno scienziato di dati intelligente presso l'università ha esaminato i dati di un po 'più da vicino e ha scoperto che solo il 20% degli studenti nel gruppo di trattamento mai registrato sul conto dopo aver ricevuto l'e-mail. Inoltre, e un po 'a sorpresa, tra coloro che hanno effettuato l'accesso al sito solo il 60% aveva assicurato lavoro a tempo pieno nel loro settore prescelto, che era inferiore al tasso per le persone che non hanno il login e inferiore al tasso per le persone in la condizione di controllo (Tabella 4.6).

    1. Fornire una spiegazione per quello che sarebbe potuto succedere.
    2. Quali sono due modi diversi per calcolare l'effetto del trattamento in questo esperimento?
    3. Dato questo risultato, il servizio dovrebbe carriera universitaria fornire questo servizio di carriera basato sul web a tutti gli studenti? Giusto per essere chiari, questa non è una domanda con una risposta semplice.
    4. Cosa dovrebbero fare dopo?

    Suggerimento: Questa domanda va oltre il materiale coperto in questo capitolo, ma affronta i problemi più comuni negli esperimenti. Questo tipo di disegno sperimentale è talvolta chiamato un design incoraggiamento perché i partecipanti sono incoraggiati a impegnarsi nel trattamento. Questo problema è un esempio di quello che viene chiamato unilaterale non conformità (vedi Gerber and Green (2012) , cap. 5)

  26. [ difficile ] Dopo un ulteriore esame, si scopre che l'esperimento descritto nella domanda precedente era ancora più complicata. Si scopre che il 10% delle persone nel gruppo di controllo ha pagato per l'accesso al servizio, e si è conclusa con un tasso di occupazione del 65% (Tabella 4.7).

    1. Scrivi una mail che riassume ciò che si pensa che sta accadendo e raccomanda un corso di azione.

    Suggerimento: Questa domanda va oltre il materiale coperto in questo capitolo, ma affronta i problemi più comuni negli esperimenti. Questo problema è un esempio di quello che viene chiamato due lati non conformità (vedi Gerber and Green (2012) , cap. 6)

Tabella 4.5: visualizzazione semplice dei dati dalla sperimentazione di servizi di carriera.
Gruppo Dimensione Tasso di occupazione
accesso consentito al sito 5.000 70%
Non concesso l'accesso al sito web 5.000 70%
Tabella 4.6: visione più completa dei dati dalla sperimentazione di servizi di carriera.
Gruppo Dimensione Tasso di occupazione
Concesso l'accesso al sito e loggato 1.000 60%
Concesso l'accesso al sito e mai registrato 4.000 85%
Non concesso l'accesso al sito web 5.000 70%
Tabella 4.7: A piena vista dei dati dalla sperimentazione di servizi di carriera.
Gruppo Dimensione Tasso di occupazione
Concesso l'accesso al sito e loggato 1.000 60%
Concesso l'accesso al sito e mai registrato 4.000 72,5%
Non concesso l'accesso al sito e pagati per farlo 500 65%
Non concesso l'accesso al sito e non pagare per questo 4.500 70.56%