[ , ] Berinsky in sodelavci (2012) delno ocenili MTurk s ponovitvijo treh klasičnih eksperimentov. Tversky and Kahneman (1981) ponovite klasičen preizkus Azijske bolezenske strukture. Ali se vaši rezultati ujemajo s Tverskyjem in Kahnemanom? Ali se vaši rezultati ujemajo z Berinsky in kolegi? Kaj - če karkoli - ali to nas nauči o uporabi MTurk za raziskovalne poskuse?
[ , ] V nekem papirju v obrazu z naslovom "Mi moramo razbiti", socialni psiholog Robert Cialdini, eden od avtorjev Schultz et al. (2007) , je zapisal, da se je zgodaj upokojil od svojega dela kot profesorja, deloma zaradi izzivov, s katerimi se je soočal s poljskimi eksperimenti v disciplini (psihologija), ki v glavnem izvaja laboratorijske eksperimente (Cialdini 2009) . Preberite članek Cialdini in mu napišite elektronsko pošto, ki ga pozove, naj ponovno razmisli o njegovem razpadu glede na možnosti digitalnih eksperimentov. Uporabite specifične primere raziskav, ki obravnavajo njegove skrbi.
[ ] Da bi ugotovili, ali se majhni začetni uspehi zaklenejo ali izginejo, so van de Rijt in kolegi (2014) intervenirali v štiri različne sisteme, ki so naključno izbranim udeležencem podeljevali uspeh, nato pa so izmerili dolgoročne vplive tega samovoljnega uspeha. Ali lahko razmišljate o drugih sistemih, v katerih bi lahko izvajali podobne eksperimente? Ovrednotite te sisteme v smislu vprašanj znanstvene vrednosti, algoritmičnega zmede (glej poglavje 2) in etike.
[ , ] Rezultati preizkusa so lahko odvisni od udeležencev. Ustvarite poskus in ga nato pognajte na MTurk z uporabo dveh različnih strategij zaposlovanja. Poskusite izbrati eksperiment in strategije zaposlovanja, tako da bodo rezultati čim bolj različni . Na primer, vaše strategije zaposlovanja bi lahko bile zaposlitev udeležencev zjutraj in zvečer ali nadomestilo udeležencem z visoko in nizko plačo. Te razlike v strategiji zaposlovanja bi lahko pripeljale do različnih skupin udeležencev in različnih eksperimentalnih rezultatov. Kako drugačni so bili vaši rezultati? Kaj to razkrije o tekočih poskusih na MTurk?
[ , , ] Predstavljajte si, da ste načrtovali eksperiment Emotional Contagion (Kramer, Guillory, and Hancock 2014) . Uporabite rezultate prejšnje opazovalne študije Kramer (2012) da določite število udeležencev v vsakem pogoju. Ti dve študiji se ne ujemata popolnoma, zato se prepričajte, da izrecno navedete vse predpostavke, ki ste jih naredili:
[ , , ] Spet odgovorite na prejšnje vprašanje, toda tokrat namesto s pomočjo starejše opazovalne študije Kramer (2012) uporabite rezultate prejšnjega naravnega eksperimenta Lorenzo Coviello et al. (2014) .
[ ] Margetts et al. (2011) in van de Rijt et al. (2014) izvedla eksperimente, ki so proučevali proces ljudi, ki so podpisali peticijo. Primerjajte in nasprotujoč si zasnove in ugotovitve teh študij.
[ ] Dwyer, Maki, and Rothman (2015) izvedla dva poljska eksperimenta na odnos med družbenimi normami in pro-okoljskim vedenjem. Tu je povzetek njihovega prispevka:
"Kako bi se psihološka znanost lahko uporabila za spodbujanje vedenja o okolju? V dveh študijah so intervencije za spodbujanje varčevanja z energijo v javnih kopalnicah preučevale vpliv deskriptivnih norm in osebne odgovornosti. V študiji 1 je bil status lučke (tj. Vklop ali izklop) manipuliran, preden je nekdo vstopil v nenaseljeno javno kopalnico, ki je signaliziral opisno normo za to nastavitev. Udeleženci so bili znatno bolj verjetno, da bi ugasnili luči, če bi bili izključeni, ko so vstopili. V Študiji 2 je bil vključen dodaten pogoj, v katerem je bila norma izklopa svetlobe dokazana s strani konfederacije, vendar udeleženci sami niso bili odgovorni za vključitev. Osebna odgovornost je moderirala vpliv družbenih norm na vedenje; ko udeleženci niso bili odgovorni za vključevanje svetlobe, je bil vpliv norma zmanjšan. Ti rezultati kažejo, kako lahko opisne norme in osebna odgovornost urejajo učinkovitost posegov v okolju. "
Preberite njihov prispevek in oblikujte replikacijo študije 1.
[ , ] Izhajajoč iz prejšnjega vprašanja, zdaj izvedite svojo zasnovo.
[ ] Razpravljali so o preizkusih z udeleženci, ki so bili zaposleni pri MTurk. Vzporedno je potekala tudi precejšnja razprava o eksperimentih z udeleženci, ki so jih zaposlili na dodiplomskem študentskem prebivalstvu. Napišite dvomestno beležko, ki bo primerjala in nasprotovala Turkerjem in študentom kot raziskovalcem. Vaša primerjava mora vključevati razpravo o znanstvenih in logističnih vprašanjih.
[ ] Knjiga Jim Manzi Uncontrolled (2012) je čudovit uvod v moč eksperimentiranja v podjetju. V knjigi je objavil naslednjo zgodbo:
"Nekoč sem se srečal z resničnim poslovnim genijem, samomorilnim milijarderjem, ki je imel globoko, intuitivno podcenjevanje moči eksperimentov. Njegovo podjetje je porabilo znatna sredstva, ki so poskušali ustvariti odlične prodajalne oken, ki bi pritegnili potrošnike in povečali prodajo, kot je rekel konvencionalni modrost. Strokovnjaki skrbno preizkušajo zasnovo po načrtu in v posameznih testnih pregledih v daljšem časovnem obdobju ne kažejo nobenega pomembnega vzročnega učinka vsakega novega zaslona na prodajo. Strokovni direktorji za trženje in trgovanje so se srečali z direktorjem za preučitev teh zgodovinskih rezultatov testa v toto. Po predstavitvi vseh eksperimentalnih podatkov so ugotovili, da je konvencionalna modrost napačna, da prikazovalnik oken ne vodi prodaje. Njihov priporočeni ukrep je bil zmanjšati stroške in napore na tem področju. To je dramatično pokazalo sposobnost eksperimentiranja, da prevrne konvencionalno modrost. Odgovor CEO je bil preprost: "Moj zaključek je, da vaši oblikovalci niso zelo dobri." Njegova rešitev je bila povečati prizadevanja pri zasnovi zasnove in pridobiti nove ljudi, da to storijo. « (Manzi 2012, 158–9)
Katere vrste veljavnosti skrbi CEO?
[ ] Na podlagi prejšnjega vprašanja si predstavljamo, da ste bili na sestanku, na katerem so bili obravnavani rezultati poskusov. Kakšna so štiri vprašanja, ki bi jih lahko vprašali - za vsako vrsto veljavnosti (statistični, konstruktni, notranji in zunanji)?
[ ] Bernedo, Ferraro, and Price (2014) proučili sedemletni učinek varčevanja z vodo, opisan v Ferraro, Miranda, and Price (2011) (glej sliko 4.11). V tem prispevku so Bernedo in sodelavci želeli tudi razumeti mehanizem, ki je za posledico učinek, in sicer s primerjavo vedenja gospodinjstev, ki so imeli in niso se preselili po zdravljenju. To je grobo, poskušali ugotoviti, ali je zdravljenje vplivalo na dom ali lastnika stanovanj.
[ ] V nadaljevanju Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) izvedla vrsto treh eksperimentov o vplivu opisnih in sodnih norm za drugačno okoljsko vedenje (ponovna uporaba brisač) v dveh kontekstih (hotel in kondominium (Schultz, Khazian, and Zaleski 2008) .
[ ] V odgovor na Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) vodili serijo poskusov, podobnih laboratoriju, ki so proučevali zasnovo električnih računov. Evo, kako jih opisujejo v povzetku:
"V anketnem poskusu je vsak udeleženec hipotetično račun za električno energijo za družino s sorazmerno visoko porabo električne energije zajemal informacije o (a) zgodovinski uporabi, (b) primerjavi s sosedami in (c) zgodovinski uporabi z razčlenitvijo naprave. Udeleženci so vse vrste podatkov videli v eni od treh formatov, vključno z (a) tabelami, (b) grafičnimi grafikami in (c) ikonskimi grafikoni. Poročamo o treh glavnih ugotovitvah. Prvič, potrošniki so vse informacije o porabi električne energije najbolj razumeli, ko so bili predstavljeni v tabeli, morda zato, ker tabele omogočajo enostavno branje točk. Drugič, preferenciali in nameni za varčevanje z električno energijo so bili najmočnejši za informacije o zgodovinski uporabi, ne glede na obliko. Tretjič, posamezniki z nižjo energijsko pismenostjo so vse informacije razumeli manj. "
Za razliko od drugih nadaljnjih študij, je glavni izid zanimanja za Canfield, Bruin, and Wong-Parodi (2016) opisan obnašanje, ne pa dejansko vedenje. Kakšne so prednosti in slabosti te vrste študija v širšem raziskovalnem programu, ki spodbuja prihranke energije?
[ , ] Smith and Pell (2003) predstavila satirično meta-analizo študij, ki dokazujejo učinkovitost padalcev. Zaključili so:
"Kot pri mnogih posegih, namenjenih preprečevanju slabega zdravja, učinkovitost padalcev ni bila predmet strogega vrednotenja z uporabo randomiziranih kontroliranih preskušanj. Zagovorniki dokazov, ki temeljijo na medicini, so kritizirali sprejetje posegov, ocenjenih z uporabo samo opazovalnih podatkov. Menimo, da bi lahko vsi koristili, če so najbolj radikalni protagonisti zdravil na podlagi dokazov organizirali in sodelovali v dvojno slepem, randomiziranem, s placebom kontroliranem preizkusu padala. "
Napišite op-ed primeren za časopis za splošno bralno delo, kot je časopis New York Times , ki nasprotuje fetišizaciji eksperimentalnih dokazov. Navedite konkretne konkretne primere. Nasvet: Glej tudi Deaton (2010) in Bothwell et al. (2016) .
[ , , ] Ocene učinka razlike v razlikah so lahko bolj natančne kot ocenjevalci razlik v povprečju. Napišite beležko inženirju, ki je zadolžen za testiranje A / B v zagonski družbi za socialne medije, ki pojasnjuje vrednost pristopa razlik med različnostmi pri vodenju spletnega poskusa. Zapis mora vsebovati izjavo o problemu, nekaj intuicije o pogojih, pod katerimi bo ocenjevalec razlik v razlikah presegel razliko v srednjem ocenjevalcu in preprosto simulacijsko študijo.
[ , ] Gary Loveman je bil profesor na poslovni šoli Harvard, preden je postal direktor Harrah's, enega največjih igralniških podjetij na svetu. Ko se je preselil v Harrah's, je Loveman preoblikoval podjetje s programom zvestobe, ki je bil pogosto prisoten, in zbirali ogromno podatkov o vedenju kupcev. Poleg merilnega sistema je podjetje začelo izvajati tudi eksperimente. Na primer, lahko izvajajo poskus, da ocenijo učinek kupona za brezplačno hotelsko noč za stranke s posebnim vzorcem iger na srečo. Evo, kako je Loveman opisal pomen eksperimentiranja Harrahjevim vsakodnevnim poslovnim praksam:
"To je, kot da ne nadleguješ žensk, ne ukradeš, in moraš imeti nadzorno skupino. To je ena izmed stvari, ki bi lahko izgubili službo pri Harrah-ih - ne bi izvajali kontrolne skupine. « (Manzi 2012, 146)
Napišite e-pošto novemu zaposlenemu, ki pojasnjuje, zakaj Loveman meni, da je tako pomembno, da ima nadzorno skupino. Poskusite vključiti primer - bodisi resničen bodisi izdelan - za ponazoritev vaše točke.
[ , ] Cilj novega eksperimenta je oceniti učinek prejemanja opomnikov za sporočila o prevzemu cepljenja. Stotine petdeset klinik, od katerih je vsak sodelovalo 600 upravičencev, so pripravljeni sodelovati. Obstaja fiksni strošek 100 USD za vsako kliniko, s katero želite delati, in stane 1 $ za vsako besedilno sporočilo, ki ga želite poslati. Poleg tega bodo vse klinike, s katerimi delate, merilo izid (ali je kdo prejel cepljenje) brezplačno. Predvidevajte, da imate proračun v višini 1.000 USD.
[ , ] Pomemben problem s spletnimi tečaji je zmanjševanje števila: veliko študentov, ki začenjajo tečaji, se izpuščajo. Predstavljajte si, da delate na platformi za spletno učenje, oblikovalec na platformi pa je ustvaril vizualno vrstico napredka, za katero meni, da bo preprečila, da bi študentje opustili tečaj. Želite preizkusiti učinek napredne vrstice na študente na velikem računalniškem družbenem predmetu. Po obravnavanju vseh etičnih vprašanj, ki se lahko pojavijo v poskusu, se vi in vaši kolegi zaskrbite, da tečaja morda ne bo dovolj študentov, da bi zanesljivo zaznali učinke vrstice napredovanja. V naslednjih izračunih lahko domnevate, da bo polovica študentov prejela vrstico napredka in polovico ne. Nadalje lahko domnevate, da ni motenj. Z drugimi besedami, lahko domnevate, da udeleženci vplivajo samo na to, ali so prejeli zdravljenje ali nadzor; niso opravljeni s tem, ali so drugi ljudje prejeli zdravljenje ali nadzor (za bolj formalno opredelitev glej poglavje 8 Gerber and Green (2012) ). Spremljajte dodatne predpostavke, ki jih naredite.
[ , , ] Predstavljajte si, da delate kot znanstvenik za podatke v tehnološkem podjetju. Nekdo iz oddelka za trženje prosi za pomoč pri ocenjevanju preizkusa, ki ga načrtujejo, da bi merili donosnost naložbe (ROI) za novo spletno oglaševalsko akcijo. Donosnost naložbe je opredeljena kot neto dobiček iz oglaševalske akcije, deljeno s stroški oglaševalske akcije. Na primer, akcija, ki ni imela vpliva na prodajo, bi imela donosnost naložbe v višini -100%; akcija, kjer so bili dobljeni dobički enaki stroškom, bi imela donosnost naložbe v višini 0; in kampanjo, kjer je bil dobiček dvakrat večji, bi imela ROI 200-odstotno donosnost.
Pred začetkom preizkusa vam oddelek za trženje vsebuje naslednje informacije, ki temeljijo na njihovi prejšnji raziskavi (dejansko so te vrednosti značilne za prave spletne oglaševalske kampanje, o katerih poročajo Lewis in Rao (2015) ):
Napišite beležko, ki oceni ta predlagani preizkus. Vaš beležki morajo uporabiti dokaze iz simulacije, ki jo ustvarite, in obravnavati dve glavni težavi: (1) Ali bi priporočili, da se ta poskus izvede, kot je bilo načrtovano? Če je tako, zakaj? Če ne, zakaj ne? Bodite prepričani, da je jasno o merilih, ki jih uporabljate za to odločitev. (2) Kakšno velikost vzorca bi priporočali za ta preizkus? Spet prosimo, da se prepričate o merilih, ki jih uporabljate za to odločitev.
Dober beležek bo obravnaval ta poseben primer; boljši beležek se bo v tem primeru posplošil na primer (na primer, pokazati, kako se odločitev spreminja glede na velikost učinka oglaševalske akcije); in velik beležek bo predstavil povsem generaliziran rezultat. Vaša beležka bi morala uporabiti grafikone, s katerimi bi ilustriral vaše rezultate.
Tu sta dva namiga. Prvič, oddelek za trženje vam je morda priskrbel nekaj nepotrebnih informacij in morda vam ni uspelo priskrbeti nekaterih potrebnih informacij. Drugič, če uporabljate R, se zavedajte, da funkcija rlnorm () ne deluje tako, kot mnogi pričakujejo.
Ta dejavnost vam bo omogočila analizo moči, ustvarjanje simulacij in sporočanje rezultatov z besedami in grafikoni. Pomagati vam bo pri izvedbi analize moči za katero koli vrsto preizkusa, ne le za poskuse, zasnovane za oceno ROI. Ta dejavnost predpostavlja, da imate nekaj izkušenj s statističnim testiranjem in analizo moči. Če niste seznanjeni z analizo moči, vam priporočam, da preberete "Power Primer", ki ga je pripravil Cohen (1992) .
To dejavnost je navdihnila lep list papirja RA Lewis and Rao (2015) , ki živo ilustrira temeljno statistično omejitev celo množičnih eksperimentov. Njihov dokument, ki je prvotno imel provokativen naslov "O skoraj nemožnosti merjenja vrnitve v oglaševanje", kaže, kako težko je izmeriti donosnost naložb spletnih oglasov, tudi z digitalnimi eksperimenti, ki vključujejo milijone strank. Na splošno RA Lewis and Rao (2015) ponazarjata temeljno statistično dejstvo, ki je še posebej pomembno pri eksperimentih z digitalno dobo: težko je oceniti majhne učinke zdravljenja med hrupnimi podatki o rezultatih.
[ , ] Naredite enako kot prejšnje vprašanje, toda, namesto simulacije, uporabite analitične rezultate.
[ , , ] Naredite enako kot prejšnje vprašanje, vendar uporabite simulacijske in analitične rezultate.
[ , , ] Predstavljajte si, da ste napisali beležko, opisano zgoraj, in nekdo iz oddelka za trženje ponuja en kos novih informacij: pričakujejo 0,4 korelacije med prodajo pred in po eksperimentu. Kako to spremeni priporočila v vašem beležki? (Nasvet: glej razdelek 4.6.2 za več o ocenjevalcu razlik v sredstvih in ocenjevalcu razlik med razlikami.)
[ , ] Za oceno učinkovitosti novega programa za pomoč pri zaposlovanju na spletu je univerza izvedla naključno kontrolno preskušanje med 10.000 študenti, ki so vstopili v zadnji šolski letnik. Brezplačna naročnina z edinstvenimi podatki za prijavo je bila poslana z ekskluzivnim e-poštnim vabilom na 5.000 naključno izbranih študentov, medtem ko je ostalih 5.000 študentov v kontrolni skupini in ni imelo naročnine. Dvanajst mesecev kasneje je nadaljnja raziskava (brez nespremenjenosti) pokazala, da je v skupinah za zdravljenje in nadzor 70% učencev zagotovilo zaposlitev za polni delovni čas na izbranem področju (tabela 4.6). Tako se je zdelo, da spletna storitev ni imela vpliva.
Vendar pa je pameten znanstvenik na univerzi podrobneje preučil podatke in ugotovil, da se je po prejemu e-pošte vedno prijavilo le 20% študentov v tretirani skupini. Nadalje in nekoliko presenetljivo je, da med tistimi, ki so se prijavili na spletno mesto, je le 60% zagotovilo zaposlitev za polni delovni čas v svojem izbranem polju, kar je bilo nižje od stopnje za tiste, ki se niso prijavili in nižji od stopnje za ljudi v kontrolnem stanju (tabela 4.7).
Namig: To vprašanje presega gradivo, ki ga obravnava to poglavje, vendar obravnava probleme, ki so pogosti v poskusih. Ta vrsta eksperimentalnega oblikovanja se včasih imenuje motiv za spodbujanje, ker se udeleženci spodbujajo, da se vključijo v zdravljenje. Ta problem je primer tega, kar imenujemo enostransko neupoštevanje (glej poglavje 5 Gerber and Green (2012) ).
[ ] Po nadaljnjem pregledu se je izkazalo, da je poskus, opisan v prejšnjem vprašanju, še bolj zapleten. Izkazalo se je, da je 10% ljudi v kontrolni skupini plačalo dostop do storitve, in končalo s stopnjo zaposlenosti 65% (tabela 4.8).
Namig: To vprašanje presega gradivo, ki ga obravnava to poglavje, vendar obravnava probleme, ki so pogosti v poskusih. Ta problem je primer tega, kar imenujemo dvostransko neupoštevanje (glej poglavje 6 Gerber and Green (2012) ).
Skupina | Velikost | Stopnja zaposlenosti |
---|---|---|
Podeljen dostop do spletne strani | 5000 | 70% |
Ni odobren dostop do spletne strani | 5000 | 70% |
Skupina | Velikost | Stopnja zaposlenosti |
---|---|---|
Podeljen dostop do spletne strani in prijavljen | 1.000 | 60% |
Podeljen dostop do spletne strani in se nikoli ni prijavil | 4.000 | 72,5% |
Ni odobren dostop do spletne strani | 5000 | 70% |
Skupina | Velikost | Stopnja zaposlenosti |
---|---|---|
Podeljen dostop do spletne strani in prijavljen | 1.000 | 60% |
Podeljen dostop do spletne strani in se nikoli ni prijavil | 4.000 | 72,5% |
Nima dostopa do spletne strani in ga je plačal | 500 | 65% |
Ni odobren dostop do spletne strani in ni plačal za to | 4.500 | 70,56% |