[ , ] Berinsky i njegovi kolege (2012) procjenjivali su MTurk dijelom replicirajući tri klasična eksperimenta. Reproducirajte klasični eksperiment okvira za azijsku bolest Tversky and Kahneman (1981) . Odgovara li vaši rezultati Tversky i Kahneman? Jesu li ti rezultati odgovarali onima Berinsky i kolegama? Što-ako ništa-to nas naučiti o korištenju MTurka za pokusne pokuse?
[ , ] U nekom papiru "u obrazovanju", socijalni psiholog Robert Cialdini, jedan od autora Schultz et al. (2007) , napisao je da se povukao rano od svog posla kao profesor, dijelom zbog izazova s kojima se suočavao na terenskim eksperimentima u disciplini (psihologiji) koja uglavnom provodi laboratorijske eksperimente (Cialdini 2009) . Pročitao je Cialdinijev rad i napisao mu e-mail koji ga je pozivao da razmotri svoj prekid u svjetlu mogućnosti digitalnih eksperimenata. Upotrijebite specifične primjere istraživanja koji se bave njegovim zabrinutošću.
[ Da bi se utvrdilo jesu li mali početni uspjesi zaključani ili nestali, van de Rijt i njegovi kolege (2014) intervenirali su u četiri različita sustava koji su donijeli uspjeh na slučajno odabranim sudionicima, a zatim izmjerili dugoročne učinke ovog proizvoljnog uspjeha. Možete li zamisliti druge sustave u kojima možete pokrenuti slične eksperimente? Procijenite ove sustave u smislu pitanja znanstvene vrijednosti, algoritamske konfuzije (vidi poglavlje 2) i etike.
[ , Rezultati eksperimenta mogu ovisiti o sudionicima. Izradite eksperiment, a zatim ga pokrenite na MTurk pomoću dvije različite strategije zapošljavanja. Pokušajte odabrati strategije eksperimenta i regrutiranja kako bi rezultati bili što različiti . Na primjer, strategije zapošljavanja mogu biti regrutiranje sudionika ujutro i navečer ili kompenziranje sudionika s visokom i niskom plaćom. Ove razlike u strategiji zapošljavanja mogu dovesti do različitih skupina sudionika i različitih eksperimentalnih ishoda. Koliko su različiti rezultati vaših rezultata? Što to otkriva o pokretanju eksperimenata na MTurku?
[ , , Zamislite da planirate eksperiment emocionalne zaraze (Kramer, Guillory, and Hancock 2014) . Koristite rezultate iz ranijih opservacijskih studija od strane Kramer (2012) kako bi odlučili broj sudionika u svakom stanju. Ove dvije studije ne odgovaraju savršeno, stoga svakako izričito navedite sve pretpostavke koje napravite:
[ , , ] Ponovno odgovorite na prethodno pitanje, no ovaj put, umjesto korištenja prethodne opservacijske studije Kramer (2012) , koristite rezultate iz ranijih prirodnih eksperimenata Lorenzo Coviello et al. (2014) .
[ ] I Margetts et al. (2011) i van de Rijt i sur. (2014) izveli su pokuse koji proučavaju proces ljudi koji potpišu peticiju. Usporedite i kontrastite nacrte i nalaz ovih studija.
[ ] Dwyer, Maki, and Rothman (2015) provode dva eksperimenta na terenu o odnosu društvenih normi i pro-okolišnog ponašanja. Evo primjera njihovog rada:
"Kako bi se psihološka znanost mogla iskoristiti za poticanje prostornog ponašanja? U dvije studije, intervencije usmjerene na promicanje ponašanja očuvanja energije u javnim kupaonicama ispituju utjecaj opisnih normi i osobne odgovornosti. U Studiji 1 stanje svjetlosti (tj. Uključeno ili isključeno) manipulirano je prije nego što je netko ušao u neukupiranu javnu kupaonicu signalizirajući opisnu normu za tu postavku. Sudionici su znatno vjerojatnije isključili svjetla ako su bili isključeni kad su ušli. U Studiji 2 uključen je dodatni uvjet u kojemu je pokazao normu isključivanja svjetla od strane konfederacije, ali sudionici nisu bili sami odgovorni za njegovo uključivanje. Osobna odgovornost moderirala je utjecaj društvenih normi na ponašanje; kada sudionici nisu bili odgovorni za uključivanje svjetla, utjecaj norme je smanjen. Ovi rezultati ukazuju na to kako opisne norme i osobna odgovornost mogu regulirati djelotvornost prokondijskih intervencija. "
Pročitajte svoj rad i dizajnirati replikaciju studije 1.
[ , ] Na temelju prethodnog pitanja, sada provodite svoj dizajn.
[ ] Postojala je velika rasprava o eksperimentima pomoću sudionika regrutiranih iz MTurka. Paralelno se također raspravljalo o eksperimentima pomoću sudionika regrutiranih iz preddiplomskih studentskih populacija. Napišite dopis od dvije stranice uspoređujući i suprotstavljajući Turkers i preddiplomante kao sudionici istraživanja. Vaša usporedba treba uključivati raspravu o znanstvenim i logističkim pitanjima.
[ ] Jim Manzijeva knjiga Uncontrolled (2012) prekrasan je uvod u moć eksperimentiranja u poslovanju. U knjizi je prenio sljedeću priču:
"Bila sam nekoć na sastanku s pravim poslovnim genijem, self-made milijarderom koji je imao duboke, intuitivno understating o snazi pokusa. Njegova je tvrtka provela značajna sredstva pokušavajući stvoriti sjajne zaslone za pohranu koji bi privukli potrošače i povećava prodaju, kako je konvencionalna mudrost rekla da treba. Stručnjaci su pažljivo testirali dizajn nakon dizajna, a tijekom individualnih testnih pregleda kroz razdoblje od nekoliko godina nisu pokazivali značajni uzročni učinak svakog novog dizajna zaslona na prodaju. Viši rukovoditelji marketinga i trgovine sastali su se s izvršnim direktorom kako bi pregledali ove povijesne rezultate ispitivanja u toto. Nakon što su prezentirali sve eksperimentalne podatke, zaključili su da je konvencionalna mudrost pogrešna - da prozorčići ne pokreću prodaju. Njihova preporučena radnja bila je smanjiti troškove i napore u ovom području. To je dramatično pokazalo sposobnost eksperimentiranja da prevlada konvencionalnu mudrost. Odgovor izvršnog direktora bio je jednostavan: "Moj je zaključak da vaši dizajneri nisu baš dobri." Njegovo je rješenje bilo povećati napor u dizajnu prikaza trgovine, i kako bi dobili nove ljude da to učine. " (Manzi 2012, 158–9)
Koja je vrsta važnosti zabrinutost izvršnog direktora?
[ ] Oslanjajući se na prethodno pitanje, zamislite da ste bili na sastanku na kojem su raspravljani rezultati eksperimenata. Koja su četiri pitanja koja biste mogli zatražiti - jedan za svaku vrstu valjanosti (statistički, konstruktivan, unutarnji i vanjski)?
[ Bernedo, Ferraro, and Price (2014) proučavali su sedmogodišnji učinak uštede intervencije opisane u Ferraro, Miranda, and Price (2011) (vidi sliku 4.11). U ovom radu Bernedo i njegovi kolege također su nastojali razumjeti mehanizam iza učinka usporedbom ponašanja kućanstava koja su se i nisu preselila nakon što je tretman bio isporučen. To je, otprilike, pokušali vidjeti je li tretman utjecao na dom ili vlasnik kuće.
[ ] U nastavku Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) , Schultz i njegovi kolege izvode niz tri eksperimenta o učincima opisnih i injunktivnih normi na drugačiji ponašanje u okolišu (ponovna upotreba ručnika) u dva konteksta ,
[ ] Kao odgovor na Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) izvode niz laboratorijskih eksperimenata za proučavanje dizajna električnih računa. Evo kako ih opisuju u sažetku:
"U eksperimentu na temelju ankete, svaki sudionik je vidio hipotetski račun za električnu energiju za obitelj s relativno visokom potrošnjom električne energije koja obuhvaća informacije o (a) povijesnoj uporabi, (b) usporedbama sa susjedima, i (c) povijesnom korištenju s podjelom uređaja. Sudionici su vidjeli sve vrste podataka u jednom od tri formata, uključujući (a) tablice, (b) grafikone i (c) grafikone ikona. Izvješćujemo o tri glavna otkrića. Prvo, potrošači su najviše razumjeli svaku vrstu informacija o korištenju električne energije kada je prikazana u tablici, možda zato što tablice olakšavaju jednostavnu procjenu točaka. Drugo, preferencije i namjere uštede električne energije bile su najsnažnije za informacije o povijesnoj uporabi, neovisno o formatu. Treće, osobe s nižom energetskom pismenosti sve manje razumiju sve informacije. "
Za razliku od drugih praćenja, glavni ishod interesa za Canfield, Bruin, and Wong-Parodi (2016) navodi ponašanje, a ne stvarno ponašanje. Koje su prednosti i slabosti ove vrste studija u širem istraživačkom programu koji promiče uštede energije?
[ , Smith and Pell (2003) prikazali su satiričnu meta-analizu studija koje pokazuju učinkovitost padobrana. Zaključili su:
"Kao i kod mnogih intervencija namijenjenih sprečavanju zagađenja, učinkovitost padobrana nije podvrgnuta strogoj procjeni pomoću randomiziranih kontroliranih ispitivanja. Zagovornici medicine na temelju dokaza kritizirali su usvajanje intervencija koje se procjenjuju korištenjem samo opservacijskih podataka. Smatramo da bi svatko mogao imati koristi ukoliko su najradikalniji protagonisti dokazne medicine organizirali i sudjelovali u dvostruko slijepom, randomiziranom, placebo kontroliranom, preklopnom sudaru padobrana. "
Napišite op-ed prikladan za novine u čitateljstvu, kao što je New York Times , tvrdeći protiv fetishizacije eksperimentalnih dokaza. Navedite konkretne, konkretne primjere. Savjet: Vidi također Deaton (2010) i Bothwell et al. (2016) .
[ , , ] Razlike u razlikama u procjeni učinka liječenja mogu biti precizniji od razlika u srednjim procjeniteljima. Napišite dopis inženjeru zaduženom za testiranje na A / B kod tvrtke koja započinje s društvenim medijima, objašnjavajući vrijednost pristupa razlikama u različitosti za pokretanje eksperimenta na mreži. Dopis bi trebao sadržavati izjavu o problemu, neku intuiciju o uvjetima pod kojima će procjenjivač razlike u razlici nadmašiti razliku u srednjem procjenitelju i jednostavnu studiju simulacije.
[ , ] Gary Loveman bio je profesor na Harvard Business School prije nego što je postao izvršni direktor Harrah's, jedne od najvećih casino tvrtki na svijetu. Kad se preselio u Harrah's, Loveman je transformirao tvrtku s programom lojalnosti čestih letača koji je prikupljao ogromne količine podataka o ponašanju kupaca. Na vrhu ovog sustava uvijek mjerenja, tvrtka je počela izvoditi eksperimente. Na primjer, mogu pokrenuti eksperiment kako bi procijenili učinak kupona za besplatnu hotelsku noć za korisnike s određenim uzorkom kockanja. Evo kako je Loveman opisao važnost eksperimentiranja Harrahovoj svakodnevnoj poslovnoj praksi:
"To je kao da ne zlostavljate žene, ne ukradite, i morate imati kontrolnu skupinu. Ovo je jedna od stvari koju možete izgubiti za posao kod Harrahova - da ne upravlja kontrolnom skupinom. " (Manzi 2012, 146)
Pišite e-mail novom zaposleniku objašnjavajući zašto Loveman smatra da je tako važno imati kontrolnu skupinu. Trebali biste pokušati uključiti primjer - bilo stvaran ili sastavljen - kako biste ilustrirali točku.
[ , ] Novi eksperiment ima za cilj procijeniti učinak primanja podsjetnika na tekstualnu poruku na primanje cjepiva. Stotine i pedeset klinika, svaka sa 600 pacijenata koji ispunjavaju uvjete, spremni su sudjelovati. Postoji fiksni trošak od 100 USD za svaku kliniku s kojom želite raditi, a košta 1 USD za svaku tekstualnu poruku koju želite poslati. Nadalje, sve klinike s kojima surađujete će mjeriti ishod (bez obzira je li netko primio cjepivo) besplatno. Pretpostavimo da imate proračun od 1000 USD.
[ , Glavni problem s on-line tečajevima je odvraćanje: mnogi učenici koji započinju tečajeve završavaju na ispadanju. Zamislite da radite na platformi za učenje putem interneta, a dizajner na platformi stvorio je vizualni napredak koji smatra kako će spriječiti učenike da napuste tečaj. Želite testirati učinak trake napretka na studentima u velikoj računalnoj društvenoj znanosti. Nakon rješavanja bilo kakvih etičkih problema koji se mogu pojaviti u eksperimentu, vi i vaši kolege zabrinuti su da tečaj možda neće imati dovoljno učenika da pouzdano otkrije učinke trake napretka. U sljedećim proračunima možete pretpostaviti da će polovica studenata primiti traku napretka i polovicu. Nadalje, možete pretpostaviti da nema smetnji. Drugim riječima, možete pretpostaviti da sudionici samo utječu na to jesu li primili tretman ili kontrolu; ne provode li se drugi ljudi tretman ili kontrolu (za formalniju definiciju, vidi poglavlje 8 Gerber and Green (2012) ). Pratite sve dodatne pretpostavke koje napravite.
[ , , Zamislite da radite kao znanstvenik podataka u tehničkoj tvrtki. Netko iz marketinškog odjela traži vašu pomoć u procjeni eksperimenta koji planiraju kako bi izmjerili povrat ulaganja (ROI) za novu online oglasnu kampanju. ROI je definirana kao neto dobit iz kampanje podijeljena s troškovima kampanje. Na primjer, kampanja koja nije imala utjecaja na prodaju imala bi ROI od -100%; kampanja u kojoj je dobivena zarada jednaka troškovima bi imala ROI od 0; i kampanja u kojoj je ostvarena zarada dvostruko veća, cijena bi imala ROI od 200%.
Odjel marketinga prije pokretanja eksperimenta pruža sljedeće informacije temeljene na ranijim istraživanjima (u stvari, te su vrijednosti tipično za stvarne oglasne kampanje na mreži koje su objavljene u Lewisu i Raou (2015) ):
Napišite dopis koji ocjenjuje ovaj predloženi eksperiment. Vaš dopis trebao bi upotrijebiti dokaze iz simulacije koju izradite i trebao bi se baviti dvama glavnim pitanjima: (1) Želite li pokrenuti ovaj eksperiment prema planu? Ako jeste, zašto? Ako ne, zašto ne? Obavezno pročitajte kriterije koji koristite za donošenje ove odluke. (2) Koju biste veličinu uzorka preporučili za ovaj eksperiment? Ponovno molimo svakako budite jasni o kriterijima koje koristite za donošenje ove odluke.
Dobar dopis će se obratiti ovom konkretnom slučaju; bolji memorandum generalizira iz ovog slučaja na jedan način (npr. pokazati kako se odluka mijenja ovisno o veličini učinka kampanje); i veliki zapis će predstaviti potpuno generalizirani rezultat. Vaš dopis trebao bi upotrebljavati grafikone kako bi vam pomogao ilustrirati vaše rezultate.
Evo dva savjeta. Prvo, marketinški odjel možda vam je dao neke nepotrebne informacije, a možda vam nisu pružili potrebne informacije. Drugo, ako koristite R, imajte na umu da funkcija rlnorm () ne funkcionira na način na koji mnogi očekuju.
Ova aktivnost će vam pružiti praksu analizom moći, stvaranjem simulacija i komuniciranju rezultata pomoću riječi i grafikona. To bi vam trebalo pomoći u provođenju analize moći za bilo koju vrstu eksperimenta, a ne samo eksperimenata dizajniranih za procjenu ROI-ja. Ova aktivnost pretpostavlja da imate neko iskustvo s statističkim testiranjem i analizom snage. Ako niste upoznati s analizom snage, preporučujem vam da pročitate "Power Primer" Cohen (1992) .
Ova aktivnost bila je inspirirana lijepim radom RA Lewis and Rao (2015) , koji živo ilustrira temeljno statističko ograničenje čak i masivnih eksperimenata. Njihov rad - koji je izvorno imao provokativni naslov "O neposrednoj nemogućnosti mjerenja povrata na oglašavanje", pokazuje koliko je teško mjeriti povrat ulaganja online oglasa, čak i uz digitalne eksperimente koji uključuju milijune kupaca. Općenitije, RA Lewis and Rao (2015) ilustriraju temeljnu statističku činjenicu koja je osobito važna za eksperimente u digitalnom dobu: teško je procijeniti male učinke liječenja uslijed bučnih podataka o ishodu.
[ , Učinite isto kao i prethodno pitanje, ali, umjesto simulacije, trebali biste upotrijebiti analitičke rezultate.
[ , , Učinite isto kao i prethodno pitanje, ali koristite i simulacijske i analitičke rezultate.
[ , , Zamislite da ste napisali prethodno opisani zapis, a netko iz marketinškog odjela pruža jedan komad novih informacija: očekuje 0,4 korelaciju između prodaje prije i poslije eksperimenta. Kako ovo mijenja preporuke u dopisu? (Napomena: pogledajte odjeljak 4.6.2 za više o procjeni razlika sredstava i razlika u razlici u procjeni.)
[ , ] Kako bi se ocijenila učinkovitost novog programa pomoći za zapošljavanje putem interneta, sveučilište je provelo randomizirano ispitivanje nad 10.000 učenika koji su ušli u završnu školu. Besplatna pretplata s jedinstvenim informacijama za prijavu poslana je putem ekskluzivne e-mail pozivnice na 5.000 od nasumce odabranih učenika, a ostali 5.000 učenika bili su u kontrolnoj skupini i nisu imali pretplatu. Dvanaest mjeseci kasnije, praćenje (bez odgovora) pokazalo je da je u obje skupine liječenja i kontrole 70% studenata osiguralo puno radno vrijeme na svom odabranom području (tablica 4.6). Tako se činilo da usluga temeljena na webu nije imala nikakvog učinka.
Međutim, pametan znanstvenik podataka na sveučilištu malo je bliže pogledao podatke i utvrdio da je samo 20% studenata u liječničkoj grupi ikada prijavljeno na račun nakon primitka e-pošte. Nadalje, i nešto iznenađujuće, među onima koji su se prijavili na web stranicu, samo 60% je osiguralo puno radno vrijeme na svom odabranom polju, što je bilo niže od stope za ljude koji se nisu prijavili i niži od stope za ljude u kontrolnom stanju (tablica 4.7).
Savjet: Ovo pitanje nadilazi materijale obuhvaćene u ovom poglavlju, ali rješava probleme uobičajene u eksperimentima. Ova vrsta eksperimentalnog dizajna ponekad se naziva dizajn poticanja jer se sudionici potiču da se uključe u tretman. Ovaj je problem primjer onoga što se naziva jednostrano nesukladnost (vidi 5. poglavlje Gerber and Green (2012) ).
[ ] Nakon daljnjeg ispitivanja, pokazalo se da je eksperiment opisan u prethodnom pitanju još kompliciraniji. Pokazalo se da 10% ljudi iz kontrolne skupine plaća pristup usluzi, a završili su s stopom zaposlenosti od 65% (tablica 4.8).
Savjet: Ovo pitanje nadilazi materijale obuhvaćene u ovom poglavlju, ali rješava probleme uobičajene u eksperimentima. Ovaj je problem primjer onoga što se naziva dvostrani nesukladnost (vidi 6. poglavlje Gerber and Green (2012) ).
Skupina | Veličina | Razina zaposlenosti |
---|---|---|
Dopušteni pristup web stranici | 5000 | 70% |
Nije dopušten pristup web stranici | 5000 | 70% |
Skupina | Veličina | Razina zaposlenosti |
---|---|---|
Dopušteni pristup web-lokaciji i prijavljeni | 1000 | 60% |
Odobren pristup web stranici i nikada se ne prijavljuje | 4000 | 72,5% |
Nije dopušten pristup web stranici | 5000 | 70% |
Skupina | Veličina | Razina zaposlenosti |
---|---|---|
Dopušteni pristup web-lokaciji i prijavljeni | 1000 | 60% |
Odobren pristup web stranici i nikada se ne prijavljuje | 4000 | 72,5% |
Nije odobren pristup web stranici i plaćen je za to | 500 | 65% |
Nije odobren pristup web stranici i nije ga platio | 4500 | 70,56% |