[ , ] Berinsky i kolege (2012) procenili MTurk delom repliciranjem tri klasična eksperimenta. Replicirati eksperiment u klasičnom azijskom oboljenju Tversky and Kahneman (1981) . Da li se vaši rezultati uklapaju u Tversky i Kahneman? Da li se vaši rezultati podudaraju sa Berinskim i kolegama? Šta - ako išta - ovo nas nauči da koristimo MTurk za eksperimente istraživanja?
[ , ] U donjem radu sa jezikom u lice pod nazivom "Moramo da prekinemo", socijalni psiholog Robert Cialdini, jedan od autora Schultz et al. (2007) napisao je da se ranije napušta sa posla kao profesor, dijelom zbog izazova sa kojima se suočavao sa terenskim eksperimentima u disciplini (psihologiji) koja uglavnom vodi laboratorijske eksperimente (Cialdini 2009) . Pročitajte članak Cialdini i napišite mu e-poštu pozivajući ga da ponovo razmotri njegov raspad u svjetlu mogućnosti digitalnih eksperimenata. Koristite specifične primjere istraživanja koje se bave njegovom zabrinutošću
[ ] Da bi se utvrdilo da li su mali početni uspesi blokirani ili nestali, van de Rijt i kolege (2014) intervenisali su u četiri različita sistema koji su uspjeli na slučajno odabranim učesnicima, a zatim izmerili dugoročne uticaje ovog proizvoljnog uspjeha. Da li možete da razmislite o drugim sistemima u kojima biste mogli da pokrenete slične eksperimente? Procijenite ove sisteme u smislu pitanja naučne vrijednosti, algoritamskih konfuzija (vidi poglavlje 2) i etike.
[ , ] Rezultati eksperimenta mogu zavisiti od učesnika. Napravite eksperiment i onda ga pokrenite na MTurk koristeći dvije različite strategije zapošljavanja. Pokušajte odabrati strategije eksperimenta i zapošljavanja kako bi rezultati bili što drugačiji . Na primjer, vaše strategije zapošljavanja bi mogle biti zapošljavanje učesnika ujutro i veče ili za nadoknadu učesnika sa visokim i niskim platama. Ove vrste razlika u strategiji zapošljavanja mogu dovesti do različitih grupa učesnika i različitih eksperimentalnih rezultata. Koliko su različiti rezultati? Šta to otkriva o pokretanju eksperimenata na MTurk?
[ , , ] Zamislite da ste planirali eksperiment emocionalne kontagije (Kramer, Guillory, and Hancock 2014) . Koriste rezultate ranije posmatračke studije Kramer (2012) da odrede broj učesnika u svakom stanju. Ove dve studije se ne podudaraju tako da budite sigurni da izričito navodite sve pretpostavke koje ste napravili:
[ , , ] Ponovo odgovorite na prethodno pitanje, ali ovog puta umesto da koristite ranije posmatračko istraživanje Kramer (2012) , koristite rezultate ranijeg prirodnog eksperimenta Lorenzo Coviello et al. (2014) .
[ ] Margetts et al. (2011) i van de Rijt i dr. (2014) izvodio je eksperimente koji su proučavali proces ljudi koji su potpisali peticiju. Uporedite i kontrasta dizajna i nalaza ovih studija.
[ ] Dwyer, Maki, and Rothman (2015) sproveli dva terenska eksperimenta o odnosu između društvenih normi i pro-ekološkog ponašanja. Evo apstrakta njihovog rada:
"Kako se psihološka nauka može iskoristiti za podsticanje ponašanja u životnoj sredini? U dvije studije, intervencije u cilju promovisanja ponašanja o konzervaciji energije u javnim kupatilima ispitivale su uticaj deskriptivnih normi i lične odgovornosti. U studiji 1, svetlosni status (tj. Uključivanje ili isključivanje) je manipulisan pre nego što je netko ušao u nenaseljeno javno kupatilo, što je signaliziralo opisnu normu za to podešavanje. Učesnici su znatno verovatnije isključivali svetla ako su otišli kada su ušli. U studiji 2 uključen je dodatni uslov u kome je norma isključenja svetla pokazala konfederacija, ali učesnici nisu bili sami odgovorni za uključivanje. Lična odgovornost moderirala je uticaj društvenih normi na ponašanje; kada učesnici nisu bili odgovorni za uključivanje svjetla, uticaj norme je smanjen. Ovi rezultati ukazuju na to kako opisne norme i lična odgovornost mogu regulisati efikasnost intervencije u okolini. "
Pročitajte njihov rad i dizajnirajte replikaciju studije 1.
[ , ] Izgradite na prethodnom pitanju, sada izvršite svoj dizajn.
[ ] Postojala je suštinska debata o eksperimentima koristeći učesnike regrutovane od MTurk. Paralelno, postojala je i značajna debata o eksperimentima uz pomoć učesnika regrutovanih iz studentskih populacija studenata. Napišite dvostruku belešku koja upoređuje i kontraktira Turkere i studente kao učesnike istraživanja. Vaše poređenje treba da uključuje diskusiju o naučnim i logističkim pitanjima.
[ ] Knjiga Jim Manzia Uncontrolled (2012) je divan uvod u moć eksperimenta u poslu. U knjizi je prenio sledeću priču:
"Bio sam jednom na sastanku sa istinskim poslovnim genijem, samom sebi napravljenim milijarderom koji je imao duboku, intuitivnu sagledavanje moći eksperimenata. Njegova kompanija je potrošila značajna sredstva u nastojanju da napravi odlične prozore koji će privući potrošače i povećati prodaju, kako su rekli konvencionalna mudrost. Stručnjaci pažljivo su testirali dizajn nakon dizajna, au pojedinačnim testnim pregledima tokom perioda godina i dalje ne pokazuju značajan uzročni efekat svakog novog dizajna ekrana na prodaju. Viši marketinški i trgovački rukovodioci su se sastali sa izvršnim direktorom za pregled ovih istorijskih rezultata testiranja. Nakon prezentacije svih eksperimentalnih podataka, oni su zaključili da je konvencionalna mudrost pogrešna - prikazi prozora ne prave prodaju. Njihova preporučena akcija je bila smanjenje troškova i napora u ovoj oblasti. Ovo je dramatično pokazalo sposobnost eksperimenta da obori konvencionalnu mudrost. Odgovor glavnog direktora bio je jednostavan: "Moj zaključak je da vaši dizajneri nisu vrlo dobri". Njegovo rješenje je bilo povećanje napora u dizajnu dizajna i omogućavanje novih ljudi da to učine. " (Manzi 2012, 158–9)
Koja vrsta važnosti je zabrinutost izvršnog direktora?
[ ] Izgradite na prethodnom pitanju, zamislite da ste bili na sastanku na kojem su diskutovane o rezultatima eksperimenata. Koja su četiri pitanja koja biste mogli da postavite - po jedan za svaku vrstu valjanosti (statističke, konstruktivne, interne i eksterne)?
[ ] Bernedo, Ferraro, and Price (2014) proučavali sedmogodišnji efekat intervencije uštede vode opisane u Ferraro, Miranda, and Price (2011) (vidi sliku 4.11). U ovom radu, Bernedo i njegovi kolege takođe su pokušavali da razumeju mehanizam koji stoji iza efekta poređenjem ponašanja domaćinstava koja su se i nisu pomerala nakon što je tretman isporučen. To je grubo, pokušali su da vide da li je lečenje uticalo na dom ili na kuću.
[ ] U nastavku sa Schultz et al. (2007) , Schultz i kolege izvodili su niz tri eksperimenta o uticaju deskriptivnih i odredbenih normi na različito ekološko ponašanje (ponovnu upotrebu peškira) u dva konteksta (hotel i (Schultz, Khazian, and Zaleski 2008) ) (Schultz, Khazian, and Zaleski 2008) .
[ ] Kao odgovor na Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) vodili seriju laboratorijskih eksperimenata za proučavanje dizajna električnih računa. Evo kako to opisuju u apstraktu:
"U eksperimentu zasnovanom na istraživanju, svaki učesnik je vidio hipotetički račun za električnu energiju za porodicu sa relativno visokom potrošnjom električne energije, koja pokriva informacije o (a) istorijskoj upotrebi, (b) upoređivanju suseda, i (c) istorijskoj upotrebi sa slomom uređaja. Učesnici su vidjeli sve tipove informacija u jednom od tri formata, uključujući (a) tabele, (b) grafikone i (c) ikone grafikona. Prijavljujemo se o tri glavna zaključka. Prvo, potrošači su najviše shvatili svaku vrstu informacija o korištenju električne energije kada su predstavljeni u tabeli, možda zato što tabele omogućavaju jednostavno čitanje tačaka. Drugo, preferencije i namjere štednje električne energije bile su najjače za istorijsku upotrebu, nezavisno od formata. Treće, osobe sa nižom energetskom pismenošću razumeju sve informacije manje. "
Za razliku od drugih istraživanja, glavni ishod interesa za Canfield, Bruin, and Wong-Parodi (2016) je prijavljen ponašanje, a ne stvarno ponašanje. Koje su prednosti i slabosti ove vrste studija u širem istraživačkom programu koji promoviše uštedu energije?
[ , Smith and Pell (2003) predstavili satiričnu meta-analizu studija koje pokazuju efikasnost padobrana. Zaključili su:
"Kao i kod mnogih intervencija namenjenih sprečavanju lošeg zdravlja, efektivnost padobrana nije bila podvrgnuta rigoroznoj procjeni primjenom randomiziranih kontrolisanih ispitivanja. Zagovornici lekova zasnovanih na dokazima kritikovali su usvajanje intervencija procijenjenih korištenjem samo posmatračkih podataka. Mislimo da bi svima moglo biti od koristi ako su najradikalniji protagonisti lekova zasnovanih na dokazima organizovali i učestvovali u dvostrukom slepom, randomizovanom, s placebom kontrolisanom suđenju padobranu. "
Napišite op-ed pogodnu za časopis za opšte čitaštvo, kao što je New York Times , tvrdeći se protiv fetišizacije eksperimentalnih dokaza. Navedite konkretne i konkretne primere. Napomena: Vidi i Deaton (2010) i Bothwell et al. (2016) .
[ , , ] Ocjenjivači razlika u razlikama efekta tretmana mogu biti precizniji od procjena različitih vrijednosti. Napišite belešak inženjeru koji je zadužen za testiranje A / B u start-up kompaniji društvenih medija objašnjavajući vrijednost pristupa razlika u razlikama za pokretanje online eksperimenta. Memorandum treba da sadrži izjavu o problemu, neku intuiciju o uslovima pod kojima će procena razlika između razlika u odnosu na razliku-u-srednja procena i jednostavna simulaciona studija.
[ , ] Gary Loveman je bio profesor na Harvard Business School-u pre nego što je postao direktor Harrah's, jedne od najvećih kompanija za kazino na svetu. Kada se preselio u Harrah's, Loveman je transformisao kompaniju sa programom lojalnosti poput čestih letilica koji je prikupio ogromne količine podataka o ponašanju kupaca. Pored ovog sistema za merenje vremena, kompanija je započela sa eksperimentima. Na primjer, oni mogu pokrenuti eksperiment da bi ocijenili efekat kupona za besplatnu hotelsku noć za potrošače sa specifičnim obrascem kockanja. Evo kako je Loveman opisao važnost eksperimentisanja Harrahove svakodnevne poslovne prakse:
"To je kao da ne uznemiravate žene, ne krađete, a vi morate imati kontrolnu grupu. Ovo je jedna od stvari za koju možete izgubiti svoj posao u Harrah-u - bez pokretanja kontrolne grupe. " (Manzi 2012, 146)
Napišite e-poštu novom zaposleniku objašnjavajući zašto Loveman misli da je tako važno imati kontrolnu grupu. Pokušajte da uključite primer - ili stvarni ili izmišljeni - da biste ilustrirali vašu tačku.
[ , ] Novi eksperiment ima za cilj da proceni uticaj primanja tekstualnih poruka podsetnika o uzimanju vakcinacije. Stotinu i pedeset klinika, svaka sa 600 kvalifikovanih pacijenata, spremna su da učestvuju. Postoji fiksni trošak od 100 dolara za svaku kliniku sa kojom želite raditi, a košta 1 dolar za svaku tekstualnu poruku koju želite poslati. Dalje, sve klinike sa kojima radite mjeriće ishod (bilo da je neko primio vakcinaciju) besplatno. Pretpostavimo da imate budžet od 1.000 dolara.
[ , ] Glavni problem sa online kursevima je iscrpljivanje: mnogi učenici koji započinju kurseve završe sa ispadanjem. Zamislite da radite na platformi za učenje na mreži, a dizajner na platformi je napravio vizuelni napredak koji misli da će pomoći studentima da izbjegnu kurs. Želite da testirate efekat napretka na učenike na velikom računarskom društvenom kursu. Posle adresiranja etičkih pitanja koja mogu nastati u eksperimentu vi i vaše kolege zabrinuti ste da kurs možda neće imati dovoljno studenata da pouzdano otkriju efekte trake napretka. U narednim proračunima, možete pretpostaviti da će polovina studenata primiti traku napretka i pola ne. Nadalje, možete pretpostaviti da nema smetnji. Drugim rečima, možete pretpostaviti da učesnici utiču samo na to da li su primili lečenje ili kontrolu; oni se ne sprovode ako su drugi ljudi primili tretman ili kontrolu (za formalniju definiciju, vidi poglavlje 8 Gerber and Green (2012) ). Pratite sve dodatne pretpostavke koje ste napravili.
[ , , ] Zamislite da radite kao naučnik podataka u tehnološkoj kompaniji. Neko iz marketinškog odeljenja traži vašu pomoć u ocenjivanju eksperimenta koji oni planiraju kako bi se mjerilo povraćaj investicije (ROI) za novu online kampanju. ROI se definiše kao neto dobit iz kampanje podijeljena na cenu kampanje. Na primjer, kampanja koja nije imala efekta na prodaju imala bi ROI od -100%; kampanja u kojoj je ostvarena zarada jednaka troškovima imala bi ROI od 0; i kampanju u kojoj je ostvaren profit dvostruko bi trošak imao ROI od 200%.
Pre pokretanja eksperimenta, odjel marketinga pruža vam sljedeće informacije na osnovu svojih ranijih istraživanja (ustvari, ove vrijednosti su tipične za prave online kampanje kampanje prijavljene u Lewis i Rao (2015) ):
Napišite belešku koja ocjenjuje predloženi eksperiment. Vaš belešak bi trebao koristiti dokaze iz simulacije koju kreirate, i trebao bi riješiti dva glavna pitanja: (1) Da li biste preporučili pokretanje ovog eksperimenta prema planu? Ako jeste, zašto? Ako ne, zašto ne? Budite sigurni da ste jasno o kriterijumima koje koristite da biste doneli ovu odluku. (2) Koja veličina uzorka biste preporučili za ovaj eksperiment? Ponovo molimo da budete sigurni da ste jasno o kriterijumima koje koristite za donošenje ove odluke.
Dobar memorandum će se baviti ovim konkretnim slučajem; bolji belešak će se generalizovati iz ovog slučaja na jedan način (npr. pokazati kako se odluka mijenja kao funkcija veličine efekta kampanje); a veliki belešak će predstaviti potpuno generalizovani rezultat. Vaša beleška treba da koristi grafikone kako bi ilustrovao svoje rezultate.
Evo dva upozorenja. Prvo, odeljenje marketinga vam je možda pružalo neke nepotrebne informacije i možda vam nisu pružile neke potrebne informacije. Drugo, ako koristite R, budite svjesni da funkcija rlnorm () ne radi na način koji mnogi očekuju.
Ova aktivnost će vam omogućiti vežbanje analize moći, stvaranje simulacija i komunikaciju rezultata sa rečima i grafikonima. Trebalo bi vam pomoći da izvršite analizu snage za bilo koju vrstu eksperimenta, a ne samo eksperimente dizajnirane da procijenite ROI. Ova aktivnost pretpostavlja da imate neka iskustva sa statističkim ispitivanjem i analizom moći. Ako niste upoznati sa analizom moći, preporučujem da pročitate "Power Primer" od Cohen (1992) .
Ova aktivnost inspirisana je lijepim radovima RA Lewis and Rao (2015) , koji jasno ilustruju osnovno statističko ograničenje čak i masivnih eksperimenata. Njihov rad - koji je izvorno imao provokativnu titulu "O bliskoj nemožnosti merenja povratka reklamiranja" - pokazuje koliko je teško meriti povrat investicija online oglasa, čak i sa digitalnim eksperimentima koji uključuju milione kupaca. Općenito, RA Lewis and Rao (2015) ilustruju osnovnu statističku činjenicu koja je posebno važna za eksperimente digitalnog doba: teško je procijeniti efekte malog tretmana usred bučnih podataka o ishodu.
[ , ] Uradite isto kao prethodno pitanje, ali, umjesto simulacije, trebate koristiti analitičke rezultate.
[ , , ] Uradite isto kao prethodno pitanje, ali koristite simulacijske i analitičke rezultate.
[ , , ] Zamislite da ste napisali belešku opisano gore, a neko iz odjeljenja marketinga obezbedi jedan novi podatak: oni očekuju 0.4 korelaciju između prodaje pre i posle eksperimenta. Kako ovo menja preporuke u vašem belešku? (Sažetak: pogledajte odeljak 4.6.2 za više o proceni razlika u sredstvima i procenjivaču razlike u razlikama.)
[ , ] Da bi se procenila efikasnost novog programa pomoći za zapošljavanje na mreži, univerzitet je sproveo randomizovano kontrolno ispitivanje među 10.000 učenika koji su ušli u poslednju školsku godinu. Besplatna pretplata sa jedinstvenim prijavljenim informacijama upućena je ekskluzivnim pozivom za e-poštu na 5.000 slučajno odabranih studenata, dok je ostalo 5.000 učenika bilo u kontrolnoj grupi i nije imalo pretplatu. Dvanaest meseci kasnije, naknadna anketa (bez odgovora) pokazala je da je i kod terapijskih i kontrolnih grupa 70% učenika osiguralo redovno zaposlenje u izabranoj oblasti (tabela 4.6). Stoga se činilo da web usluga nije imala efekta.
Međutim, pametan naučnik podataka na univerzitetu je pažljivo pogledao podatke i ustanovio da se samo 20% učenika u terapijskoj grupi ikada prijavilo na račun nakon prijema e-pošte. Štaviše, i nešto iznenađujuće, među onima koji su se prijavili na web stranicu, samo 60% je osiguralo zaposlenje sa punim radnim vremenom u svom izabranom polju, što je niže od stope za ljude koji se nisu prijavili i niži od stope za ljude u kontrolnom stanju (tabela 4.7).
Napomena: Ovo pitanje prevazilazi materijale obuhvaćene u ovom poglavlju, ali se bavi problemima uobičajenim u eksperimentima. Ova vrsta eksperimentalnog dizajna ponekad se naziva dizajnom ohrabrenja, jer se učesnici ohrabruju da se angažuju u lečenju. Ovaj problem je primer onoga što se naziva jednostrano nepoštovanje (vidi poglavlje 5 Gerber and Green (2012) ).
[ ] Nakon dodatnog ispitivanja ispostavilo se da je eksperiment opisan u prethodnom pitanju još komplikovaniji. Ispostavilo se da je 10% ljudi u kontrolnoj grupi platilo pristup uslugama, a završile su sa stopom zaposlenosti od 65% (tabela 4.8).
Napomena: Ovo pitanje prevazilazi materijale obuhvaćene u ovom poglavlju, ali se bavi problemima uobičajenim u eksperimentima. Ovaj problem je primer onoga što se naziva dvostranom neusklađenošću (videti poglavlje 6 Gerber and Green (2012) ).
Grupa | Veličina | Stopa zaposlenosti |
---|---|---|
Dozvoljen pristup veb lokaciji | 5.000 | 70% |
Nije odobren pristup veb lokaciji | 5.000 | 70% |
Grupa | Veličina | Stopa zaposlenosti |
---|---|---|
Dodijeljen pristup web lokaciji i prijavljen | 1.000 | 60% |
Dodijeljen pristup web lokaciji i nikad se nije prijavio | 4,000 | 72,5% |
Nije odobren pristup veb lokaciji | 5.000 | 70% |
Grupa | Veličina | Stopa zaposlenosti |
---|---|---|
Dodijeljen pristup web lokaciji i prijavljen | 1.000 | 60% |
Dodijeljen pristup web lokaciji i nikad se nije prijavio | 4,000 | 72,5% |
Nije dobio pristup veb lokaciji i platio za to | 500 | 65% |
Nije odobren pristup internetu i nije platio za to | 4.500 | 70.56% |