[ , ] Berinsky i col·legues (2012) avaluar MTurk en part per replicar tres experiments clàssics. Replicar l'experiment enquadrament clàssic de les malalties asiàtiques per Tversky and Kahneman (1981) . Els resultats coincideixen amb Tversky i Kahneman's? Els resultats coincideixen amb els de Berinsky i els seus companys? Què passa si això ens ensenya sobre l'ús de MTurk per realitzar experiments d'enquesta?
[ , ] En un document una miqueta de llengua a la galta titulat "Hem de trencar", el psicòleg social Robert Cialdini, un dels autors de Schultz et al. (2007) , va escriure que es retirava primerament del seu treball com a professor, en part a causa dels reptes als quals s'enfrontava fent experiments de camp en una disciplina (psicologia) que condueix principalment experiments de laboratori (Cialdini 2009) . Llegeix el document de Cialdini i escriu-li un correu electrònic demanant-li que reconsideri la seva ruptura a la llum de les possibilitats d'experiments digitals. Utilitzeu exemples específics de recerca que s'ocupin de les seves inquietuds.
[ ] Per determinar si petits èxits inicials s'apleguen o s'esvaeixen, Van de Rijt i i col·legues (2014) intervenir en quatre sistemes diferents que van donar èxit als participants seleccionats aleatòriament i després van mesurar els impactes a llarg termini d'aquest èxit arbitrari. Es pot pensar en altres sistemes en els quals es podria executar experiments similars? Avaluar aquests sistemes en termes de valor científic, confusió algorítmica (vegeu el capítol 2) i ètica.
[ , ] Els resultats d'un experiment poden dependre dels participants. Creeu un experiment i, a continuació, executeu-lo a MTurk utilitzant dues estratègies de reclutament diferents. Intenta triar les estratègies d'experiment i de selecció perquè els resultats siguin tan diferents com sigui possible. Per exemple, les estratègies de reclutament podrien ser reclutar participants al matí i al vespre o compensar els participants amb un saldo alt i baix. Aquest tipus de diferències en l'estratègia de selecció pot conduir a diferents grups de participants i diferents resultats experimentals. Quantes diferències han tingut els resultats? Què demostra això sobre l'execució d'experiments a MTurk?
[ , , ] Imagineu que estaveu planejant l'experiment Emocional Contagion (Kramer, Guillory, and Hancock 2014) . Utilitzeu els resultats d'un estudi observacional anterior de Kramer (2012) per decidir el nombre de participants en cada condició. Aquests dos estudis no coincideixen perfectament, així que assegureu-vos d'incloure explícitament totes les hipòtesis que feu:
[ , , ] Respon la pregunta anterior de nou, però aquesta vegada, en lloc d'utilitzar l'estudi observacional anterior de Kramer (2012) , utilitzeu els resultats d'un experiment natural anterior de Lorenzo Coviello et al. (2014) .
[ ] Tant Margetts et al. (2011) i van de Rijt et al. (2014) realitzar experiments estudiant el procés de signatura d'una petició. Comparar i contrastar els dissenys i les troballes d'aquests estudis.
[ ] Dwyer, Maki, and Rothman (2015) realitzar dos experiments sobre la relació entre les normes socials i el comportament mediambiental. Aquí teniu l'extracte del seu treball:
"Com es pot utilitzar la ciència psicològica per fomentar el comportament mediambiental? En dos estudis, les intervencions destinades a promoure el comportament de conservació de l'energia als banys públics van examinar les influències de les normes descriptives i de la responsabilitat personal. A l'Estudi 1, es va manipular l'estat de la llum (és a dir, activat o desactivat) abans que algú entrés en un bany públic desocupat, indicant la norma descriptiva d'aquesta configuració. Els participants eren molt més propensos a apagar les llums si estaven apagades quan van entrar. En l'Estudi 2, es va incloure una condició addicional en la qual la norma d'apagar la llum va ser demostrada per un confederat, però els participants no eren ells mateixos responsables d'encendre-la. La responsabilitat personal va moderar la influència de les normes socials sobre el comportament; quan els participants no van ser responsables d'encendre la llum, es va reduir la influència de la norma. Aquests resultats indiquen com les normes descriptives i la responsabilitat personal poden regular l'efectivitat de les intervencions mediambientals ".
Llegir el seu treball i dissenyar una replicació de l'estudi 1.
[ , ] Seguint la pregunta anterior, ara realitzeu el vostre disseny.
[ ] Hi ha hagut un debat important sobre experiments utilitzant els participants reclutats per MTurk. Paral·lelament, també s'ha produït un debat important sobre experiments utilitzant participants reclutats per poblacions d'estudiants de grau. Escriure un memoràndum de dues pàgines comparant i contrastant els turcs i els estudiants universitaris com a participants de la recerca. La seva comparació hauria d'incloure un debat sobre qüestions tant científiques com logístiques.
[ ] El llibre de Jim Manzi Uncontrolled (2012) és una magnífica introducció al poder de l'experimentació en els negocis. En el llibre va retransmetre la següent història:
"Vaig estar una vegada en una reunió amb un veritable geni comercial, un multimilionari autosuficient que tenia una profunda i intuïtiva subestimació del poder dels experiments. La seva empresa va dedicar recursos significatius a tractar de crear grans finestres de finestres que atreguin als consumidors i augmenti les vendes, com deia la saviesa convencional. Els experts van provar amb cura el disseny després del disseny, i en sessions de revisió de proves individuals durant un període d'anys no es va mostrar cap efecte causal significatiu de cada nou disseny de visualització a les vendes. Els executius sènior de màrqueting i marxandatge es van reunir amb el director general per revisar tots aquests resultats històrics a la vista. Després de presentar totes les dades experimentals, van arribar a la conclusió que la saviesa convencional era incorrecta: les pantalles de les finestres no condueixen a les vendes. La seva acció recomanada era reduir costos i esforços en aquesta àrea. Això va demostrar dramàticament la capacitat de l'experimentació per anul·lar la saviesa convencional. La resposta del CEO era simple: "La meva conclusió és que els dissenyadors no són molt bons". La seva solució era augmentar l'esforç en el disseny de la botiga i aconseguir que noves persones ho facin " (Manzi 2012, 158–9)
Quin tipus de validesa és la preocupació del CEO?
[ ] Basant-se en la pregunta anterior, imagineu que es trobava a la reunió on es van debatre els resultats dels experiments. Quines són les quatre preguntes que podeu demanar: una per cada tipus de validesa (estadística, constructiva, interna i externa)?
[ ] Bernedo, Ferraro, and Price (2014) estudiar l'efecte de set anys de la intervenció d'estalvi d'aigua descrita a Ferraro, Miranda, and Price (2011) (vegeu la figura 4.11). En aquest article, Bernedo i els seus col·legues també van intentar comprendre el mecanisme d'aquest efecte comparant el comportament de les famílies que han tingut i no s'han mogut després del lliurament del tractament. És a dir, més o menys, van intentar veure si el tractament va impactar a la llar o al propietari.
[ ] En un seguiment de Schultz et al. (2007) , Schultz i col·legues van realitzar una sèrie de tres experiments sobre l'efecte de les normes descriptives i cautelars sobre un comportament mediambiental diferent (reutilització de tovalloles) en dos contextos (un hotel i un condomini de temps compartit) (Schultz, Khazian, and Zaleski 2008) .
[ ] En resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) van realitzar una sèrie d'experiments relacionats amb el laboratori per estudiar el disseny de les factures elèctriques. A continuació s'explica com ho descriuen en abstracte:
"En un experiment basat en enquestes, cada participant va veure una hipotètica factura d'electricitat per a una família amb un ús relativament alt d'electricitat, que abastava informació sobre (a) ús històric, (b) comparacions amb veïns, i (c) ús històric amb desglossament de l'aparell. Els participants van veure tots els tipus d'informació en un dels tres formats, incloent (a) taules, (b) gràfics de barra, i (c) gràfics d'icones. Presentem tres troballes principals. En primer lloc, els consumidors van comprendre cada tipus d'informació sobre l'ús d'electricitat quan es presentava en una taula, potser perquè les taules faciliten la lectura simple de punts. En segon lloc, les preferències i intencions per estalviar electricitat eren les més fortes per a la informació d'ús històric, independentment del format. En tercer lloc, els individus amb menor alfabetització energètica entenen menys informació ".
A diferència d'altres estudis de seguiment, el principal resultat d'interès en Canfield, Bruin, and Wong-Parodi (2016) es denuncia conductes, no comportament real. Quins són els punts forts i febles d'aquest tipus d'estudi en un programa de recerca més ampli que promou l'estalvi energètic?
[ , ] Smith and Pell (2003) presentar un metaanàlisi satíric d'estudis que demostren l'efectivitat dels paracaigudes. Van concloure:
"Igual que amb moltes intervencions destinades a prevenir malaltia, l'efectivitat dels paracaigudes no ha estat sotmesa a una avaluació rigorosa mitjançant l'ús d'assaigs controlats aleatoris. Els defensors de la medicina basada en evidències han criticat l'adopció d'intervencions avaluades utilitzant només dades observacionals. Pensem que tothom podria beneficiar-se si els protagonistes més radicals de la medicina basada en evidències organitzessin i participessin en un assaig crossover doblec, aleatoritzat, controlat amb placebo del paracaigudes ".
Escriviu una versió adequada per a un diari de lectors generals, com ara el New York Times , argumentant contra la fetitxització de proves experimentals. Proporcioneu exemples específics i concrets. Suggeriment: Vegeu també Deaton (2010) i Bothwell et al. (2016) .
[ , , ] Els estimadors de diferències en diferències d'un efecte del tractament poden ser més precisos que els estimadors de diferència. Escriviu un record a un enginyer encarregat de proves A / B en una empresa de mitjans de comunicació social inicial que expliqui el valor de l'enfocament de diferència en diferències per executar un experiment en línia. La memòria hauria d'incloure una declaració del problema, una mica d'intuïció sobre les condicions en què l'estimador de diferència en diferència superarà l'estimador de diferència en la mitjana i un estudi de simulació simple.
[ , ] Gary Loveman va ser professor de Harvard Business School abans d'esdevenir el director general d'Harrah's, una de les companyies més grans del món. Quan es va traslladar a Harrah's, Loveman va transformar la companyia amb un programa de fidelització d'assistència freqüent que va cobrar enormes quantitats de dades sobre el comportament dels clients. A més d'aquest sistema de mesura permanent, l'empresa va començar a executar experiments. Per exemple, poden executar un experiment per avaluar l'efecte d'un cupó per a una nit d'hotel gratuït per als clients amb un patró d'apostes específic. Així és com Loveman va descriure la importància de l'experimentació amb les pràctiques empresarials quotidianes de Harrah:
"És com que no assetja a les dones, no robes, i has de tenir un grup de control. Aquesta és una de les coses que es pot perdre la feina a Harrah's, que no té un grup de control " (Manzi 2012, 146)
Escriure un correu electrònic a un nou empleat explicant per què Loveman creu que és tan important tenir un grup de control. Heu d'intentar incloure un exemple, ja sigui real o compost, per il·lustrar el vostre punt.
[ , ] Un nou experiment pretén estimar l'efecte de rebre recordatoris de missatges de text sobre la captació de vacunacions. Cent cinquanta clínics, cadascun amb 600 pacients elegibles, estan disposats a participar. Hi ha un cost fix de $ 100 per cada clínica amb la qual voleu treballar, i costa $ 1 per cada missatge de text que voleu enviar. A més, les clíniques amb les quals treballeu mesuraran el resultat (si algú ha rebut una vacunació) de forma gratuïta. Assumeixi que té un pressupost de $ 1,000.
[ , ] Un problema important amb els cursos en línia és el desgast: molts estudiants que inicien els cursos acaben abandonant. Imagineu que esteu treballant en una plataforma d'aprenentatge en línia i un dissenyador a la plataforma ha creat una barra de progrés visual que creu que ajudarà a evitar que els estudiants abandonin el curs. Voleu provar l'efecte de la barra de progrés dels estudiants en un gran curs computacional de ciències socials. Després d'abordar els problemes ètics que puguin sorgir en l'experiment, vostè i els seus col · laboradors es preocupen que el curs no tingui els estudiants suficients per detectar de manera fiable els efectes de la barra de progrés. En els següents càlculs, podeu assumir que la meitat dels estudiants rebran la barra de progrés i la meitat no. A més, podeu assumir que no hi ha interferències. En altres paraules, podeu assumir que els participants només es veuen afectats per si han rebut el tractament o el control; no es realitzen si altres persones han rebut el tractament o el control (per a una definició més formal, vegeu el capítol 8 de Gerber and Green (2012) ). Feu un seguiment de les suposicions addicionals que feu.
[ , , ] Imagineu que esteu treballant com a científic de dades en una empresa tecnològica. Algú del departament de màrqueting demana la vostra ajuda per avaluar una prova que està planejant per mesurar el rendiment de la inversió (ROI) per a una nova campanya publicitària en línia. El ROI es defineix com el benefici net de la campanya dividit pel cost de la campanya. Per exemple, una campanya que no tingués efecte en les vendes tindria un ROI de -100%; una campanya on els beneficis generats eren iguals als costos tindria un ROI de 0; i una campanya on els beneficis generats eren el doble del cost tindria un retorn de la inversió del 200%.
Abans de llançar l'experiment, el departament de màrqueting us proporciona la informació següent basada en la seva recerca anterior (de fet, aquests valors són típics de les campanyes publicitàries reals informades a Lewis i Rao (2015) ):
Escriure un memoràndum avaluant aquest experiment proposat. La vostra memòria hauria d'utilitzar proves d'una simulació que creeu i hauria d'abordar dos problemes importants: (1) Us recomanaria que iniciï aquesta prova tal com estava previst? Si és així, per què? Si no, per què no? Assegureu-vos que tingueu en compte els criteris que esteu utilitzant per prendre aquesta decisió. (2) Quina mida de la mostra recomanaries per a aquest experiment? Una vegada més, assegureu-vos de tenir clar els criteris que esteu utilitzant per prendre aquesta decisió.
Una bona nota abordarà aquest cas concret; una millor nota generalitzarà d'aquest cas d'una manera (per exemple, mostra com la decisió canvia en funció de la mida de l'efecte de la campanya); i un excel·lent record presentarà un resultat totalment generalitzat. La memòria ha d'utilitzar gràfics per ajudar a il·lustrar els resultats.
Aquí hi ha dos consells. En primer lloc, el departament de màrqueting podria haver proporcionat alguna informació innecessària, i és possible que no hagin proporcionat informació necessària. En segon lloc, si utilitzeu R, tingueu en compte que la funció rnnorm () no funciona de la manera que moltes persones esperen.
Aquesta activitat us permetrà practicar l'anàlisi de potència, crear simulacions i comunicar els vostres resultats amb paraules i gràfics. Hauria d'ajudar-vos a dur a terme anàlisis d'energia per a qualsevol tipus d'experiment, no només experiments dissenyats per estimar ROI. Aquesta activitat suposa que té alguna experiència amb proves estadístiques i anàlisi de potència. Si no esteu familiaritzat amb l'anàlisi de potència, us recomano que llegeixi "A Power Primer" de Cohen (1992) .
Aquesta activitat es va inspirar en un bonic treball de RA Lewis and Rao (2015) , que il·lustra vivament una limitació estadística fonamental de fins i tot experiments massius. El seu article, que originalment tenia el títol provocador "A la propera impossibilitat de mesurar els retorns a la publicitat", mostra el difícil que és mesurar el retorn de la inversió d'anuncis en línia, fins i tot amb experiments digitals que impliquen milions de clients. Més generalment, RA Lewis and Rao (2015) il·lustren un fet estadístic fonamental que és particularment important per a experiments en edat digital: és difícil estimar petits efectes de tractament enmig de dades de resultat sorolloses.
[ , ] Feu el mateix que la pregunta anterior, però, en lloc de la simulació, heu d'utilitzar els resultats analítics.
[ , , ] Feu el mateix que la pregunta anterior, però utilitzeu la simulació i els resultats analítics.
[ , , ] Imagineu que heu escrit la memòria descrita anteriorment, i algú del departament de màrqueting proporciona una nova informació: esperen una correlació de 0,4 entre les vendes abans i després de l'experiment. Com canvia això les recomanacions de la memòria? (Consell: consulteu la secció 4.6.2 per obtenir més informació sobre l'estimador de diferència de mitjans i l'estimador de diferència en diferències).
[ , ] Per tal d'avaluar l'efectivitat d'un nou programa d'assistència laboral basat en la web, una universitat va realitzar un assaig de control aleatoritzat entre 10.000 estudiants que ingressen a l'últim any de l'escola. Una subscripció gratuïta amb informació d'inici de sessió exclusiva es va enviar mitjançant una invitació exclusiva de correu electrònic a 5.000 dels estudiants seleccionats aleatòriament, mentre que els altres 5.000 estudiants estaven al grup de control i no tenien una subscripció. Dotze mesos més tard, una enquesta de seguiment (sense cap resposta) va demostrar que tant en el grup de tractament com en el de control, el 70% dels estudiants havien aconseguit ocupació a temps complet en el seu camp escollit (taula 4.6). Per tant, semblava que el servei basat en web no tenia cap efecte.
Tanmateix, un científic intel·ligent de dades a la universitat va analitzar les dades una mica més de prop i va trobar que només el 20% dels estudiants del grup de tractament van ingressar al compte després de rebre el correu electrònic. A més, i de manera sorprenent, entre els que van accedir al lloc web, només el 60% havien assegurat ocupació a temps complet en el camp escollit, que era més baix que la taxa per a persones que no tenien sessió i menys que la taxa de persones en la condició de control (taula 4.7).
Suggeriment: aquesta pregunta va més enllà del material que es cobreix en aquest capítol, però tracta temes freqüents en experiments. Aquest tipus de disseny experimental es denomina de vegades un disseny d'estímul perquè els participants se'ls anima a participar en el tractament. Aquest problema és un exemple del que es coneix com a incompliment d'unilateral (vegeu el capítol 5 de Gerber and Green (2012) ).
[ ] Després d'un examen posterior, es va descobrir que l'experiment descrit en la pregunta anterior era encara més complicat. Resulta que el 10% de les persones del grup de control van pagar l'accés al servei i van acabar amb una taxa d'ocupació del 65% (taula 4.8).
Suggeriment: aquesta pregunta va més enllà del material que es cobreix en aquest capítol, però tracta temes freqüents en experiments. Aquest problema és un exemple del que es coneix com a incompliment de dues cares (vegeu el capítol 6 de Gerber and Green (2012) ).
Grup | Mida | Taxa d'ocupació |
---|---|---|
Accés concedit al lloc web | 5.000 | 70% |
No es concedeix accés al lloc web | 5.000 | 70% |
Grup | Mida | Taxa d'ocupació |
---|---|---|
S'ha concedit accés al lloc web i s'ha iniciat la sessió | 1,000 | 60% |
Accedeix a l'accés al lloc web i mai no ha iniciat sessió | 4.000 | 72,5% |
No es concedeix accés al lloc web | 5.000 | 70% |
Grup | Mida | Taxa d'ocupació |
---|---|---|
S'ha concedit accés al lloc web i s'ha iniciat la sessió | 1,000 | 60% |
Accedeix a l'accés al lloc web i mai no ha iniciat sessió | 4.000 | 72,5% |
No es concedeix accés al lloc web i s'ha pagat per ella | 500 | 65% |
No es va concedir l'accés al lloc web ni es va pagar per ell | 4,500 | 70,56% |