clau:
[ , ] Berinsky i els seus col·legues (2012) avalua Mechanical Turk, en part, mitjançant la replicació de tres experiments clàssics. Replicar l'experiment enquadrament de Malalties asiàtica clàssic de Tversky and Kahneman (1981) . Els seus resultats Tversky i Kahneman partit de? Els seus resultats Berinsky partit i els seus col·legues? Què passaria si res-Què ens ensenya sobre l'ús de Mechanical Turk per als experiments de l'enquesta?
[ , ] En un article una mica la llengua a la galta titulat "Hem de trencar cap amunt," el psicòleg social Robert Cialdini, un dels autors de Schultz et al. (2007) , va escriure que es retirava d'hora de la seva feina com a professor, en part a causa dels desafiaments que va enfrontar fent experiments de camp en una disciplina (psicologia) que porta a terme principalment experiments de laboratori (Cialdini 2009) . Llegir l'article de Cialdini, i li escriu un correu electrònic demanant-li que reconsideri la seva ruptura a la llum de les possibilitats d'experiments digitals. Utilitza exemples específics d'investigació que responen a les seves preocupacions.
[ ] Per tal de determinar si els petits èxits inicials lock-in o desaparèixer, van de Rijt i i els seus col·legues (2014) han intervingut en quatre sistemes diferents que concedeixen l'èxit de participants seleccionats a l'atzar, i després van mesurar els efectes a llarg termini d'aquest èxit arbitrària. Pot pensar en altres sistemes en els quals es podia realitzar experiments similars? Avaluar aquests sistemes en termes de qüestions de valor científic, confusió algorísmica (vegeu el capítol 2), i l'ètica.
[ , ] Els resultats d'un experiment poden dependre dels participants. Crear un experiment i posteriorment executar-la en Amazon Mechanical Turk (MTurk) utilitzant dos diferents estratègies de reclutament. Intenta triar les estratègies d'experimentació i de contractació de manera que els resultats seran tan diferents com sigui possible. Per exemple, les seves estratègies de reclutament podrien ser per reclutar participants en el matí i la tarda o per compensar els participants amb alta i baixa remuneració. Aquest tipus de diferències en l'estratègia de contractació podrien donar lloc a diferents grups de participants i els diferents resultats experimentals. Què tan diferent què els seus resultats són? Què ens revelen sobre l'execució d'experiments MTurk?
[ , , , ] Imagineu que es planeja el contagi emocional estudi (Kramer, Guillory, and Hancock 2014) . Utilitzar els resultats d'un estudi observacional anteriorment per Kramer (2012) per decidir el nombre de participants en cada condició. Aquests dos estudis no coincideixen perfectament, així que assegureu-vos d'enumerar explícitament tots els supòsits que es realitzin:
[ , , , ] Respondre a la pregunta anterior, però en lloc d'utilitzar l'estudi observacional anteriorment per Kramer (2012) utilitzen els resultats d'un experiment natural abans per Coviello et al. (2014) .
[ ] Tant Rijt et al. (2014) i Margetts et al. (2011) tots dos realitzen experiments que estudien el procés de persones que han signat una petició. Comparar i contrastar el disseny i els resultats d'aquests estudis.
[ ] Dwyer, Maki, and Rothman (2015) van dur a terme dos experiments de camp sobre la relació entre les normes socials i la conducta proambiental. Aquí està el resum del seu treball:
"Com pot ser utilitzada la ciència psicològica per fomentar un comportament proambiental? En dos estudis, les intervencions destinades a promoure la conducta d'estalvi d'energia en els banys públics van examinar les influències de normes descriptives i la responsabilitat personal. A l'Estudi 1, l'estat de la llum (és a dir, encesa o apagat) va ser manipulat abans que algú va entrar en un bany públic desocupada, el que indica la norma descriptiva d'aquest entorn. Els participants van ser significativament més propensos a apagar els llums si estaven fora quan van entrar. A l'Estudi 2, es va incloure una condició addicional en el qual la norma d'apagar la llum va ser demostrat per un còmplice, però els participants no eren ells mateixos responsables de engegar. La responsabilitat personal va moderar la influència de les normes socials en el comportament; quan els participants no eren responsables d'encendre la llum, es va disminuir la influència de la norma. Aquests resultats indiquen com les normes i la responsabilitat personal descriptiva pot regular l'efectivitat de les intervencions proambiental ".
Llegir el seu paper i dissenyar una rèplica de l'estudi 1.
[ , ] A partir de la pregunta anterior, ara dur a terme el seu disseny.
[ ] Hi ha hagut un debat considerable sobre els experiments que utilitzen els participants reclutats d'Amazon Mechanical Turk. Alhora, també hi ha hagut un debat considerable sobre els experiments que utilitzen els participants reclutats de poblacions d'estudiants universitaris. Escriure una nota de dues pàgines per comparar i contrastar les Turkers i estudiants com a participants dels investigadors. La seva comparació ha d'incloure una discussió de les dues qüestions científiques i logístiques.
[ El llibre de] Jim Manzi no controlada (2012) és una meravellosa introducció al poder de l'experimentació en els negocis. En el llibre que transmet aquesta història:
"Una vegada vaig estar en una reunió amb un veritable geni dels negocis, un multimilionari fet a si mateix que tenia una profunda subestimació, intuïtiva del poder dels experiments. La seva empresa va invertir importants recursos tractant de crear grans aparadors botiga que atreguin als consumidors i les vendes augmenta, com la saviesa convencional diu que deurien. Els experts cura disseny després del disseny a prova, i en sessions de revisió de proves individuals al llarg d'un període d'anys va mantenir sense mostrar efecte causal significatiu de cada nou disseny de pantalla en les vendes. Alts executius de màrqueting i merchandising es van reunir amb el director general per revisar els resultats de les proves històriques íntegrament. Després de presentar totes les dades experimentals, es va concloure que la saviesa convencional era que les pantalles mal-finestra no impulsar les vendes. La seva acció recomanada era reduir costos i esforços en aquesta àrea. Això va demostrar dramàticament la capacitat d'experimentació per revocar la saviesa convencional. La resposta del CEO era simple: "La meva conclusió és que els seus dissenyadors no són molt bons." La seva solució era augmentar l'esforç en el disseny d'exhibició de la botiga, i per obtenir noves persones que ho facin. " (Manzi 2012, 158–9)
Quin tipus de validesa és la preocupació dels CEO?
[ ] A partir de la pregunta anterior, imaginin que eren a la reunió on es van discutir els resultats dels experiments. Quins són quatre preguntes que vostè podria demanar, una per a cada tipus de validesa (estadística, construir, intern o extern)?
[ ] Bernedo, Ferraro, and Price (2014) estudia l'efecte de set anys de la intervenció estalvi d'aigua es descriu en Ferraro, Miranda, and Price (2011) (vegeu la Figura 4.10). En aquest treball, Bernedo i col·legues també busquen entendre el mecanisme darrere de l'efecte mitjançant la comparació del comportament de les llars que tenen i no s'han mogut després del tractament va ser lliurat. És a dir, més o menys, tracten de veure si el tractament va impactar a la casa o l'amo de casa.
[ ] En un seguiment de Schultz et al. (2007) , Schultz i els seus col·legues realitzen una sèrie de tres experiments sobre l'efecte de les normes descriptives i judicials en un comportament ambiental diferent (reutilització de tovalloles) en dos contextos (un hotel i un condomini de temps compartit) (Schultz, Khazian, and Zaleski 2008) .
[ ] En resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) van realitzar una sèrie d'experiments de laboratori similars a estudiar el disseny de les factures d'electricitat. Així és com el descriuen en el resum:
"En un experiment basat en l'enquesta, cada participant va veure un projecte de llei hipotètica electricitat per a una família amb un ús relativament elevat d'electricitat, que cobreix informació sobre (a) l'ús històric, (b) les comparacions amb els veïns, i (c) l'ús històric amb la descomposició de l'aparell. Els participants van veure a tot tipus d'informació en un dels tres formats, incloent (a) les taules, (b) gràfics de barres, i (c) icon gràfics. Es presenta en tres conclusions principals. En primer lloc, els consumidors entenen cada tipus d'informació d'electricitat d'utilitzar al màxim quan va ser presentat en una taula, potser perquè les taules de facilitar la seva lectura simple punt. En segon lloc, les preferències i intencions d'estalviar electricitat eren els més forts de la informació amb fins històrics, independent del format. En tercer lloc, els individus amb menor energia alfabetització entenen tota la informació menys ".
A diferència d'altres estudis de seguiment, el resultat principal d'interès en Canfield, Bruin, and Wong-Parodi (2016) ha informat de comportament no comportament real. Quines són les fortaleses i debilitats d'aquest tipus d'estudis en un programa de recerca més ampli fomentar l'estalvi energètic?
[ , ] Smith and Pell (2003) és una metaanàlisi satírica d'estudis que demostren l'eficàcia dels paracaigudes. Arriben a la conclusió:
"Igual que amb moltes de les intervencions destinades a prevenir la mala salut, l'eficàcia dels paracaigudes no s'ha sotmès a una rigorosa avaluació mitjançant l'ús d'assajos controlats aleatoris. Els defensors de la medicina basada en l'evidència han criticat l'adopció d'intervencions avaluades mitjançant l'ús de dades només d'observació. Pensem que tothom podria beneficiar si els protagonistes més radicals de la medicina basada en l'evidència van organitzar i van participar en un estudi doble cec, aleatoritzat, controlat amb placebo, assaig creuat del paracaigudes ".
Escriure un article d'opinió adequat per a un diari lectors en general, com ara The New York Times, argumentant en contra de la fetitxització de l'evidència experimental. Donar exemples específics i concrets. Consell: Vegeu també, Bothwell et al. (2016) i Deaton (2010)
[ , , ] Diferència en diferències estimadors d'un efecte del tractament pot ser més precisa que els estimadors de diferència-en-mitjana. Escriure una nota a un enginyer a càrrec de les proves A / B a una companyia de mitjans socials de posada en marxa per explicar el valor de l'enfocament de diferències en diferències per al funcionament d'un experiment en línia. La nota ha d'incloure una declaració del problema, alguna intuïció sobre les condicions sota les quals l'estimador de diferències en diferències superarà l'estimador de diferències en la mitjana, i un estudi de simulació senzilla.
[ , ] Gary Loveman va ser professor a l'Escola de Negocis de Harvard abans de convertir-se en el CEO d'Harrah, una de les companyies de casinos més grans del món. Quan es va traslladar a Harrah, Loveman va transformar l'empresa amb un programa de fidelització volant similar freqüent que recull enormes quantitats de dades sobre el comportament del client. A la part superior d'aquest sistema de mesurament sempre activa, la companyia va començar a córrer experiments. Per exemple, podrien córrer un experiment per avaluar l'efecte d'un cupó per a una nit d'hotel gratis per als clients amb un patró de joc específic. Així és com Loveman va descriure la importància de l'experimentació amb les pràctiques comercials quotidianes de Harrah:
"És com si no molesten a les dones, no robes, i vostè ha de tenir un grup de control. Aquesta és una de les coses que vostè pot perdre la feina durant Harrah's-no s'està executant un grup de control. " (Manzi 2012, 146)
Escriure un correu electrònic a un nou empleat per explicar per què Loveman pensa que és tan important comptar amb un grup de control. Vostè ha de tractar d'incloure un exemple, ja sigui real o componien-per il·lustrar el seu punt.
[ , ] Un nou experiment té com a objectiu estimar l'efecte de rebre avisos de missatge de text en l'absorció de la vacunació. 150 clíniques, cadascuna amb 600 pacients elegibles, estan disposats a participar. Hi ha un cost fix de 100 dòlars per cada clínica que desitja treballar amb, i que costa 1 dòlar per cada missatge de text que voleu enviar. A més, cap clínica que està treballant amb mesuraran el resultat (si algú ha rebut una vacunació) de forma gratuïta. Suposeu que té un pressupost de 1.000 dòlars.
[ , ] Un problema important amb els cursos en línia és el desgast; molts estudiants que s'inicien els cursos acaben caient de sortida. Imagini que vostè està treballant en una plataforma d'aprenentatge en línia, i un dissenyador a la plataforma ha creat una barra de progrés visual que pensa que va a ajudar a prevenir la deserció escolar del curs. Vols provar l'efecte de la barra de progrés dels estudiants en un curs de gran ciència social computacional. Després d'abordar les qüestions ètiques que puguin sorgir en l'experiment, vostè i els seus col·legues es preocupen de que el curs podria no tenir suficients estudiants per detectar de forma fiable els efectes de la barra de progrés. En els càlculs següents es pot assumir que la meitat dels estudiants rebran la barra de progrés i l'altra meitat no. A més, es pot assumir que no hi ha interferència. En altres paraules, es pot suposar que els participants només es veuen afectades per si van rebre el tractament o control; que no es veuen afectats pel fet que altres persones van rebre el tractament o control (per a una definició més formal, vegeu Gerber and Green (2012) , cap. 8). Si us plau, no perdre de vista cap hipòtesi addicionals que es realitzin.
[ , ] En un article preciós, Lewis and Rao (2015) il·lustren clarament una limitació estadística fonamental dels experiments fins i tot massives. El paper que originalment tenia el títol provocatiu "A la gairebé impossibilitat de mesurar la respostes a la publicitat": mostra el difícil que és mesurar el retorn de la inversió dels anuncis en línia, fins i tot amb experiments digitals amb milions de clients. De manera més general, l'article mostra clarament que és difícil d'estimar petit efecte del tractament enmig de les dades de resultat sorollosos. O declarat a pintades, el document mostra que els efectes estimats de tractament tindran grans intervals de confiança quan la desviació estàndard d'impacte-a - (\ (\ frac {\ Delta \ bar {i}} {\ sigma} \)) proporció és petita. La lliçó general important d'aquest treball és que els resultats d'experiments amb petita proporció dels impactes de desviació estàndard (per exemple, el ROI de les campanyes publicitàries) serà insatisfactori. El seu repte serà redactar un document a algú en el departament de màrqueting de la seva empresa evaluting un experiment planejat per mesurar el ROI d'una campanya publicitària. La nota ha de ser recolzada amb gràfics dels resultats de les simulacions per ordinador.
Aquí hi ha alguna informació que pugui necessitar. Tots aquests valors numèrics són típics dels experiments reals reportats a Lewis and Rao (2015) :
Retorn de la inversió, una mesura clau per a les campanyes de publicitat en línia, es defineix com el benefici net de la campanya (benefici brut de campanya va costar menys de campanya), dividit pel cost de la campanya. Per exemple, una campanya que no va tenir cap efecte sobre les vendes tindria un retorn de la inversió del 100% i una campanya on els guanys generats eren iguals als costos tindria un retorn de la inversió de 0.
les vendes mitjana per client és $ 7 amb una desviació estàndard de $ 75.
S'espera que la campanya per augmentar les vendes per 0,35 $ per client que correspon a un increment en el guany de $ 0.175 per client. En altres paraules, el marge brut és 50%.
la mida previst de l'experiment és de 200.000 persones, un mitjà en el grup de tractament i mitja en el grup de control.
el cost de la campanya és $ 0.14 per participant.
Escriure una nota evaluting aquest experiment. Recomanaria el llançament d'aquest experiment com estava previst? Si és així, per què? Si no és així, quins canvis em recomanen?
Una bona nota abordarà aquest cas específic; una millor memòria serà generalitzar a partir d'aquest cas d'una manera (per exemple, mostrar com canvia la decisió com una funció de la relació impacte-a desviació estàndard); i una gran nota presentarà un resultat totalment generalitzada.
[ , ] Fer el mateix que la pregunta anterior, però en lloc de la simulació haurieu d'usar resultats analítics.
[ , , ] Fer el mateix que la pregunta anterior, però l'ús tant de simulació i els resultats analítics.
[ , , ] Imagini que vostè ha escrit la nota s'ha descrit anteriorment, utilitzant la simulació, els resultats analítics, o ambdues coses, i algú del departament de màrqueting recomana utilitzar un estimador de diferències en diferències en lloc d'un estimador de diferència en les mitjanes (vegeu la Secció 4.6.2) . Escriure una nova nota més curt que explica com una correlació entre les vendes de 0,4 abans de l'experiment i les vendes després de l'experiment alteraria la seva conclusió.
[ , ] Per tal d'avaluar l'eficàcia d'un nou servei de carrera basat en la web, una oficina de serveis de carrera universitària va dur a terme un assaig aleatoritzat de control entre els 10.000 estudiants que entren en el seu últim any d'escola. Una subscripció gratuïta amb la informació d'inici de sessió únic s'envia a través d'una invitació de correu electrònic exclusiva a l'5.000 dels estudiants elegits a l'atzar, mentre que els altres 5.000 estudiants estan en el grup de control i no tenen una subscripció. Dotze mesos més tard, una enquesta de seguiment (sense falta de resposta) mostra que en els grups de tractament i de control, el 70% dels estudiants han aconseguit ocupació a temps complet en el camp escollit (Taula 4.5). Per tant, sembla que el servei basat en web no va tenir cap efecte.
No obstant això, un científic de dades intel·ligent a la universitat mirava a les dades una mica més de prop i va trobar que només el 20% dels estudiants en el grup de tractament cada vegada registra en el compte després de rebre el correu electrònic. A més, i de manera una mica sorprenent, entre els que han iniciat sessió en el lloc web només el 60% havia aconseguit ocupació a temps complet en el camp elegit, que era inferior a la taxa per a les persones que no comença la sessió i més baixa que la taxa de la població en la condició de control (Taula 4.6).
Consell: Aquesta pregunta va més enllà del material cobert en aquest capítol, però s'ocupa dels problemes comuns en els experiments. Aquest tipus de disseny experimental de vegades es diu un disseny d'estímul perquè els participants són animats a participar en el tractament. Aquest problema és un exemple del que es diu un sol costat incompliment (veure Gerber and Green (2012) , Ch. 5)
[ ] Després d'un examen més detingut, resulta que l'experiment descrit a la pregunta anterior era encara més complicat. Resulta que el 10% de les persones en el grup de control satisfets per l'accés al servei, i que va acabar amb una taxa d'ocupació del 65% (Taula 4.7).
Consell: Aquesta pregunta va més enllà del material cobert en aquest capítol, però s'ocupa dels problemes comuns en els experiments. Aquest problema és un exemple del que es diu de dues cares incompliment (veure Gerber and Green (2012) , Ch. 6)
grup | mida | índex d'ocupació |
---|---|---|
accés concedit a la pàgina web | 5,000 | 70% |
No és permès l'accés a la pàgina web | 5,000 | 70% |
grup | mida | índex d'ocupació |
---|---|---|
Concedit l'accés a la pàgina web i connectat | 1000 | 60% |
Concedit l'accés a la pàgina web i mai connectat | 4.000 | 85% |
No és permès l'accés a la pàgina web | 5,000 | 70% |
grup | mida | índex d'ocupació |
---|---|---|
Concedit l'accés a la pàgina web i connectat | 1000 | 60% |
Concedit l'accés a la pàgina web i mai connectat | 4.000 | 72,5% |
No s'ha concedit l'accés a la pàgina web i pagat per ella | 500 | 65% |
No és permès l'accés a la pàgina web i no pagar per això | 4.500 | 70.56% |