activitats

Aquesta traducció va ser creat per un ordinador. ×

You are reading the Open Review Edition of Bit by Bit. Click here to read the 1st Edition.

activitats

clau:

grau de dificultat: fàcil , mitja i dur , molt dur
requereix matemàtiques ( $requereix matemàtiques$ )
requereix codificació ( )
recopilació de dades ( )
els meus favorits ( )

[ , ] Berinsky i els seus col·legues (2012) avalua Mechanical Turk, en part, mitjançant la replicació de tres experiments clàssics. Replicar l'experiment enquadrament de Malalties asiàtica clàssic de Tversky and Kahneman (1981) . Els seus resultats Tversky i Kahneman partit de? Els seus resultats Berinsky partit i els seus col·legues? Què passaria si res-Què ens ensenya sobre l'ús de Mechanical Turk per als experiments de l'enquesta?
[ , ] En un article una mica la llengua a la galta titulat "Hem de trencar cap amunt," el psicòleg social Robert Cialdini, un dels autors de Schultz et al. (2007) , va escriure que es retirava d'hora de la seva feina com a professor, en part a causa dels desafiaments que va enfrontar fent experiments de camp en una disciplina (psicologia) que porta a terme principalment experiments de laboratori (Cialdini 2009) . Llegir l'article de Cialdini, i li escriu un correu electrònic demanant-li que reconsideri la seva ruptura a la llum de les possibilitats d'experiments digitals. Utilitza exemples específics d'investigació que responen a les seves preocupacions.
[ ] Per tal de determinar si els petits èxits inicials lock-in o desaparèixer, van de Rijt i i els seus col·legues (2014) han intervingut en quatre sistemes diferents que concedeixen l'èxit de participants seleccionats a l'atzar, i després van mesurar els efectes a llarg termini d'aquest èxit arbitrària. Pot pensar en altres sistemes en els quals es podia realitzar experiments similars? Avaluar aquests sistemes en termes de qüestions de valor científic, confusió algorísmica (vegeu el capítol 2), i l'ètica.
[ , ] Els resultats d'un experiment poden dependre dels participants. Crear un experiment i posteriorment executar-la en Amazon Mechanical Turk (MTurk) utilitzant dos diferents estratègies de reclutament. Intenta triar les estratègies d'experimentació i de contractació de manera que els resultats seran tan diferents com sigui possible. Per exemple, les seves estratègies de reclutament podrien ser per reclutar participants en el matí i la tarda o per compensar els participants amb alta i baixa remuneració. Aquest tipus de diferències en l'estratègia de contractació podrien donar lloc a diferents grups de participants i els diferents resultats experimentals. Què tan diferent què els seus resultats són? Què ens revelen sobre l'execució d'experiments MTurk?
[ , $requereix matemàtiques$ , , ] Imagineu que es planeja el contagi emocional estudi (Kramer, Guillory, and Hancock 2014) . Utilitzar els resultats d'un estudi observacional anteriorment per Kramer (2012) per decidir el nombre de participants en cada condició. Aquests dos estudis no coincideixen perfectament, així que assegureu-vos d'enumerar explícitament tots els supòsits que es realitzin:
1. Executar una simulació que decidirà quants participants haurien estat necessaris per detectar un efecte tan gran com l'efecte de Kramer (2012) amb \ (\ alpha = 0,05 \) i \ (1 - \ beta = 0,8 \).
2. Fer el mateix càlcul analític.
3. Tenint en compte els resultats de Kramer (2012) va ser el contagi emocional (Kramer, Guillory, and Hancock 2014) l'excés de potència (és a dir, què té més participants que cal)?
4. Dels supòsits que ha realitzat, que tenen el major efecte sobre el càlcul?
[ , $requereix matemàtiques$ , , ] Respondre a la pregunta anterior, però en lloc d'utilitzar l'estudi observacional anteriorment per Kramer (2012) utilitzen els resultats d'un experiment natural abans per Coviello et al. (2014) .
[ ] Tant Rijt et al. (2014) i Margetts et al. (2011) tots dos realitzen experiments que estudien el procés de persones que han signat una petició. Comparar i contrastar el disseny i els resultats d'aquests estudis.
[ ] Dwyer, Maki, and Rothman (2015) van dur a terme dos experiments de camp sobre la relació entre les normes socials i la conducta proambiental. Aquí està el resum del seu treball:

"Com pot ser utilitzada la ciència psicològica per fomentar un comportament proambiental? En dos estudis, les intervencions destinades a promoure la conducta d'estalvi d'energia en els banys públics van examinar les influències de normes descriptives i la responsabilitat personal. A l'Estudi 1, l'estat de la llum (és a dir, encesa o apagat) va ser manipulat abans que algú va entrar en un bany públic desocupada, el que indica la norma descriptiva d'aquest entorn. Els participants van ser significativament més propensos a apagar els llums si estaven fora quan van entrar. A l'Estudi 2, es va incloure una condició addicional en el qual la norma d'apagar la llum va ser demostrat per un còmplice, però els participants no eren ells mateixos responsables de engegar. La responsabilitat personal va moderar la influència de les normes socials en el comportament; quan els participants no eren responsables d'encendre la llum, es va disminuir la influència de la norma. Aquests resultats indiquen com les normes i la responsabilitat personal descriptiva pot regular l'efectivitat de les intervencions proambiental ".

Llegir el seu paper i dissenyar una rèplica de l'estudi 1.
[ , ] A partir de la pregunta anterior, ara dur a terme el seu disseny.
1. Com es comparen els resultats?
2. El que podria explicar aquestes diferències?
[ ] Hi ha hagut un debat considerable sobre els experiments que utilitzen els participants reclutats d'Amazon Mechanical Turk. Alhora, també hi ha hagut un debat considerable sobre els experiments que utilitzen els participants reclutats de poblacions d'estudiants universitaris. Escriure una nota de dues pàgines per comparar i contrastar les Turkers i estudiants com a participants dels investigadors. La seva comparació ha d'incloure una discussió de les dues qüestions científiques i logístiques.
[ El llibre de] Jim Manzi no controlada (2012) és una meravellosa introducció al poder de l'experimentació en els negocis. En el llibre que transmet aquesta història:

"Una vegada vaig estar en una reunió amb un veritable geni dels negocis, un multimilionari fet a si mateix que tenia una profunda subestimació, intuïtiva del poder dels experiments. La seva empresa va invertir importants recursos tractant de crear grans aparadors botiga que atreguin als consumidors i les vendes augmenta, com la saviesa convencional diu que deurien. Els experts cura disseny després del disseny a prova, i en sessions de revisió de proves individuals al llarg d'un període d'anys va mantenir sense mostrar efecte causal significatiu de cada nou disseny de pantalla en les vendes. Alts executius de màrqueting i merchandising es van reunir amb el director general per revisar els resultats de les proves històriques íntegrament. Després de presentar totes les dades experimentals, es va concloure que la saviesa convencional era que les pantalles mal-finestra no impulsar les vendes. La seva acció recomanada era reduir costos i esforços en aquesta àrea. Això va demostrar dramàticament la capacitat d'experimentació per revocar la saviesa convencional. La resposta del CEO era simple: "La meva conclusió és que els seus dissenyadors no són molt bons." La seva solució era augmentar l'esforç en el disseny d'exhibició de la botiga, i per obtenir noves persones que ho facin. " (Manzi 2012, 158–9)

Quin tipus de validesa és la preocupació dels CEO?
[ ] A partir de la pregunta anterior, imaginin que eren a la reunió on es van discutir els resultats dels experiments. Quins són quatre preguntes que vostè podria demanar, una per a cada tipus de validesa (estadística, construir, intern o extern)?
[ ] Bernedo, Ferraro, and Price (2014) estudia l'efecte de set anys de la intervenció estalvi d'aigua es descriu en Ferraro, Miranda, and Price (2011) (vegeu la Figura 4.10). En aquest treball, Bernedo i col·legues també busquen entendre el mecanisme darrere de l'efecte mitjançant la comparació del comportament de les llars que tenen i no s'han mogut després del tractament va ser lliurat. És a dir, més o menys, tracten de veure si el tractament va impactar a la casa o l'amo de casa.
1. Llegir el diari, descriure el seu disseny, i resumir les seves conclusions. b) ¿influeixen en les seves troballes com s'ha d'avaluar la relació cost-efectivitat de les intervencions similars? Si és així, per què? Si no és així, per què no?
[ ] En un seguiment de Schultz et al. (2007) , Schultz i els seus col·legues realitzen una sèrie de tres experiments sobre l'efecte de les normes descriptives i judicials en un comportament ambiental diferent (reutilització de tovalloles) en dos contextos (un hotel i un condomini de temps compartit) (Schultz, Khazian, and Zaleski 2008) .
1. Resumir el disseny i els resultats d'aquests tres experiments.
2. Com, en tot cas, no canvien la seva interpretació de Schultz et al. (2007) ?
[ ] En resposta a Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) van realitzar una sèrie d'experiments de laboratori similars a estudiar el disseny de les factures d'electricitat. Així és com el descriuen en el resum:

"En un experiment basat en l'enquesta, cada participant va veure un projecte de llei hipotètica electricitat per a una família amb un ús relativament elevat d'electricitat, que cobreix informació sobre (a) l'ús històric, (b) les comparacions amb els veïns, i (c) l'ús històric amb la descomposició de l'aparell. Els participants van veure a tot tipus d'informació en un dels tres formats, incloent (a) les taules, (b) gràfics de barres, i (c) icon gràfics. Es presenta en tres conclusions principals. En primer lloc, els consumidors entenen cada tipus d'informació d'electricitat d'utilitzar al màxim quan va ser presentat en una taula, potser perquè les taules de facilitar la seva lectura simple punt. En segon lloc, les preferències i intencions d'estalviar electricitat eren els més forts de la informació amb fins històrics, independent del format. En tercer lloc, els individus amb menor energia alfabetització entenen tota la informació menys ".

A diferència d'altres estudis de seguiment, el resultat principal d'interès en Canfield, Bruin, and Wong-Parodi (2016) ha informat de comportament no comportament real. Quines són les fortaleses i debilitats d'aquest tipus d'estudis en un programa de recerca més ampli fomentar l'estalvi energètic?
[ , ] Smith and Pell (2003) és una metaanàlisi satírica d'estudis que demostren l'eficàcia dels paracaigudes. Arriben a la conclusió:

"Igual que amb moltes de les intervencions destinades a prevenir la mala salut, l'eficàcia dels paracaigudes no s'ha sotmès a una rigorosa avaluació mitjançant l'ús d'assajos controlats aleatoris. Els defensors de la medicina basada en l'evidència han criticat l'adopció d'intervencions avaluades mitjançant l'ús de dades només d'observació. Pensem que tothom podria beneficiar si els protagonistes més radicals de la medicina basada en l'evidència van organitzar i van participar en un estudi doble cec, aleatoritzat, controlat amb placebo, assaig creuat del paracaigudes ".

Escriure un article d'opinió adequat per a un diari lectors en general, com ara The New York Times, argumentant en contra de la fetitxització de l'evidència experimental. Donar exemples específics i concrets. Consell: Vegeu també, Bothwell et al. (2016) i Deaton (2010)
[ , , ] Diferència en diferències estimadors d'un efecte del tractament pot ser més precisa que els estimadors de diferència-en-mitjana. Escriure una nota a un enginyer a càrrec de les proves A / B a una companyia de mitjans socials de posada en marxa per explicar el valor de l'enfocament de diferències en diferències per al funcionament d'un experiment en línia. La nota ha d'incloure una declaració del problema, alguna intuïció sobre les condicions sota les quals l'estimador de diferències en diferències superarà l'estimador de diferències en la mitjana, i un estudi de simulació senzilla.
[ , ] Gary Loveman va ser professor a l'Escola de Negocis de Harvard abans de convertir-se en el CEO d'Harrah, una de les companyies de casinos més grans del món. Quan es va traslladar a Harrah, Loveman va transformar l'empresa amb un programa de fidelització volant similar freqüent que recull enormes quantitats de dades sobre el comportament del client. A la part superior d'aquest sistema de mesurament sempre activa, la companyia va començar a córrer experiments. Per exemple, podrien córrer un experiment per avaluar l'efecte d'un cupó per a una nit d'hotel gratis per als clients amb un patró de joc específic. Així és com Loveman va descriure la importància de l'experimentació amb les pràctiques comercials quotidianes de Harrah:

"És com si no molesten a les dones, no robes, i vostè ha de tenir un grup de control. Aquesta és una de les coses que vostè pot perdre la feina durant Harrah's-no s'està executant un grup de control. " (Manzi 2012, 146)

Escriure un correu electrònic a un nou empleat per explicar per què Loveman pensa que és tan important comptar amb un grup de control. Vostè ha de tractar d'incloure un exemple, ja sigui real o componien-per il·lustrar el seu punt.
[ , $requereix matemàtiques$ ] Un nou experiment té com a objectiu estimar l'efecte de rebre avisos de missatge de text en l'absorció de la vacunació. 150 clíniques, cadascuna amb 600 pacients elegibles, estan disposats a participar. Hi ha un cost fix de 100 dòlars per cada clínica que desitja treballar amb, i que costa 1 dòlar per cada missatge de text que voleu enviar. A més, cap clínica que està treballant amb mesuraran el resultat (si algú ha rebut una vacunació) de forma gratuïta. Suposeu que té un pressupost de 1.000 dòlars.
1. Sota quines condicions podria ser millor enfocar els seus recursos en un petit nombre de clíniques i sota quines condicions podria ser millor per difondre més àmpliament?
2. Quins factors podrien determinar la mida de l'efecte més petit que vostè serà capaç de detectar de forma fiable amb el seu pressupost?
3. Escriure una nota explicant aquestes compensacions a un donant potencial.
[ , $requereix matemàtiques$ ] Un problema important amb els cursos en línia és el desgast; molts estudiants que s'inicien els cursos acaben caient de sortida. Imagini que vostè està treballant en una plataforma d'aprenentatge en línia, i un dissenyador a la plataforma ha creat una barra de progrés visual que pensa que va a ajudar a prevenir la deserció escolar del curs. Vols provar l'efecte de la barra de progrés dels estudiants en un curs de gran ciència social computacional. Després d'abordar les qüestions ètiques que puguin sorgir en l'experiment, vostè i els seus col·legues es preocupen de que el curs podria no tenir suficients estudiants per detectar de forma fiable els efectes de la barra de progrés. En els càlculs següents es pot assumir que la meitat dels estudiants rebran la barra de progrés i l'altra meitat no. A més, es pot assumir que no hi ha interferència. En altres paraules, es pot suposar que els participants només es veuen afectades per si van rebre el tractament o control; que no es veuen afectats pel fet que altres persones van rebre el tractament o control (per a una definició més formal, vegeu Gerber and Green (2012) , cap. 8). Si us plau, no perdre de vista cap hipòtesi addicionals que es realitzin.
1. Suposem que s'espera que la barra de progrés per augmentar la proporció d'estudiants que acaben la classe en 1 punt percentual, quin és la mida de la mostra necessari per detectar de forma fiable l'efecte?
2. Suposem que s'espera que la barra de progrés per augmentar la proporció d'estudiants que acaben la classe en 10 punts percentuals, el que és la mida de mostra necessari per detectar de forma fiable l'efecte?
3. Ara imagina que ha executat l'experiment i els estudiants que han completat tots els materials del curs han pres un examen final. Quan es comparen els resultats dels exàmens finals dels estudiants que van rebre la barra de progrés per als que no ho va fer, trobareu, per la seva sorpresa, que els estudiants que no van rebre la barra de progrés en realitat van tenir una major puntuació. Vol dir això que la barra de progrés causat als estudiants a aprendre menys? Què es pot aprendre d'aquestes dades de resultat? (Pista: Veure Gerber and Green (2012) , cap. 7)
[ , ] En un article preciós, Lewis and Rao (2015) il·lustren clarament una limitació estadística fonamental dels experiments fins i tot massives. El paper que originalment tenia el títol provocatiu "A la gairebé impossibilitat de mesurar la respostes a la publicitat": mostra el difícil que és mesurar el retorn de la inversió dels anuncis en línia, fins i tot amb experiments digitals amb milions de clients. De manera més general, l'article mostra clarament que és difícil d'estimar petit efecte del tractament enmig de les dades de resultat sorollosos. O declarat a pintades, el document mostra que els efectes estimats de tractament tindran grans intervals de confiança quan la desviació estàndard d'impacte-a - (\ (\ frac {\ Delta \ bar {i}} {\ sigma} \)) proporció és petita. La lliçó general important d'aquest treball és que els resultats d'experiments amb petita proporció dels impactes de desviació estàndard (per exemple, el ROI de les campanyes publicitàries) serà insatisfactori. El seu repte serà redactar un document a algú en el departament de màrqueting de la seva empresa evaluting un experiment planejat per mesurar el ROI d'una campanya publicitària. La nota ha de ser recolzada amb gràfics dels resultats de les simulacions per ordinador.

Aquí hi ha alguna informació que pugui necessitar. Tots aquests valors numèrics són típics dels experiments reals reportats a Lewis and Rao (2015) :
- Retorn de la inversió, una mesura clau per a les campanyes de publicitat en línia, es defineix com el benefici net de la campanya (benefici brut de campanya va costar menys de campanya), dividit pel cost de la campanya. Per exemple, una campanya que no va tenir cap efecte sobre les vendes tindria un retorn de la inversió del 100% i una campanya on els guanys generats eren iguals als costos tindria un retorn de la inversió de 0.
- les vendes mitjana per client és $ 7 amb una desviació estàndard de $ 75.
- S'espera que la campanya per augmentar les vendes per 0,35 $ per client que correspon a un increment en el guany de $ 0.175 per client. En altres paraules, el marge brut és 50%.
- la mida previst de l'experiment és de 200.000 persones, un mitjà en el grup de tractament i mitja en el grup de control.
- el cost de la campanya és $ 0.14 per participant.
Escriure una nota evaluting aquest experiment. Recomanaria el llançament d'aquest experiment com estava previst? Si és així, per què? Si no és així, quins canvis em recomanen?

Una bona nota abordarà aquest cas específic; una millor memòria serà generalitzar a partir d'aquest cas d'una manera (per exemple, mostrar com canvia la decisió com una funció de la relació impacte-a desviació estàndard); i una gran nota presentarà un resultat totalment generalitzada.
[ , $requereix matemàtiques$ ] Fer el mateix que la pregunta anterior, però en lloc de la simulació haurieu d'usar resultats analítics.
[ , $requereix matemàtiques$ , ] Fer el mateix que la pregunta anterior, però l'ús tant de simulació i els resultats analítics.
[ , $requereix matemàtiques$ , ] Imagini que vostè ha escrit la nota s'ha descrit anteriorment, utilitzant la simulació, els resultats analítics, o ambdues coses, i algú del departament de màrqueting recomana utilitzar un estimador de diferències en diferències en lloc d'un estimador de diferència en les mitjanes (vegeu la Secció 4.6.2) . Escriure una nova nota més curt que explica com una correlació entre les vendes de 0,4 abans de l'experiment i les vendes després de l'experiment alteraria la seva conclusió.
[ , $requereix matemàtiques$ ] Per tal d'avaluar l'eficàcia d'un nou servei de carrera basat en la web, una oficina de serveis de carrera universitària va dur a terme un assaig aleatoritzat de control entre els 10.000 estudiants que entren en el seu últim any d'escola. Una subscripció gratuïta amb la informació d'inici de sessió únic s'envia a través d'una invitació de correu electrònic exclusiva a l'5.000 dels estudiants elegits a l'atzar, mentre que els altres 5.000 estudiants estan en el grup de control i no tenen una subscripció. Dotze mesos més tard, una enquesta de seguiment (sense falta de resposta) mostra que en els grups de tractament i de control, el 70% dels estudiants han aconseguit ocupació a temps complet en el camp escollit (Taula 4.5). Per tant, sembla que el servei basat en web no va tenir cap efecte.

No obstant això, un científic de dades intel·ligent a la universitat mirava a les dades una mica més de prop i va trobar que només el 20% dels estudiants en el grup de tractament cada vegada registra en el compte després de rebre el correu electrònic. A més, i de manera una mica sorprenent, entre els que han iniciat sessió en el lloc web només el 60% havia aconseguit ocupació a temps complet en el camp elegit, que era inferior a la taxa per a les persones que no comença la sessió i més baixa que la taxa de la població en la condició de control (Taula 4.6).
1. Donar una explicació del que podria haver passat.
2. Quins són dues formes diferents de calcular l'efecte del tractament en aquest experiment?
3. Donat aquest resultat, si el servei de carrera universitària proporcionar aquest servei de carrera basat en web per a tots els estudiants? Per ser clars, això no és una pregunta amb una resposta simple.
4. Què han de fer a continuació?
Consell: Aquesta pregunta va més enllà del material cobert en aquest capítol, però s'ocupa dels problemes comuns en els experiments. Aquest tipus de disseny experimental de vegades es diu un disseny d'estímul perquè els participants són animats a participar en el tractament. Aquest problema és un exemple del que es diu un sol costat incompliment (veure Gerber and Green (2012) , Ch. 5)
[ ] Després d'un examen més detingut, resulta que l'experiment descrit a la pregunta anterior era encara més complicat. Resulta que el 10% de les persones en el grup de control satisfets per l'accés al servei, i que va acabar amb una taxa d'ocupació del 65% (Taula 4.7).
1. Escriure un correu electrònic un resum del que vostè pensa que està succeint i recomanar un curs d'acció.
Consell: Aquesta pregunta va més enllà del material cobert en aquest capítol, però s'ocupa dels problemes comuns en els experiments. Aquest problema és un exemple del que es diu de dues cares incompliment (veure Gerber and Green (2012) , Ch. 6)

Taula 4.5: Vista simple de les dades de l'experiment de serveis de carrera.
grup	mida	índex d'ocupació
accés concedit a la pàgina web	5,000	70%
No és permès l'accés a la pàgina web	5,000	70%

Taula 4.6: visió més completa de les dades de l'experiment de serveis de carrera.
grup	mida	índex d'ocupació
Concedit l'accés a la pàgina web i connectat	1000	60%
Concedit l'accés a la pàgina web i mai connectat	4.000	85%
No és permès l'accés a la pàgina web	5,000	70%

Taula 4.7: A la vista de les dades de l'experiment de serveis de carrera.
grup	mida	índex d'ocupació
Concedit l'accés a la pàgina web i connectat	1000	60%
Concedit l'accés a la pàgina web i mai connectat	4.000	72,5%
No s'ha concedit l'accés a la pàgina web i pagat per ella	500	65%
No és permès l'accés a la pàgina web i no pagar per això	4.500	70.56%