[ , ] Berinsky a kolegovia (2012) hodnotili MTurk čiastočne replikovaním troch klasických experimentov. Replikujte klasický pokus o rámovanie ázijských chorôb Tversky and Kahneman (1981) . Sú vaše výsledky rovnaké ako Tversky a Kahneman? Vaše výsledky zodpovedajú tým Berinskému a kolegom? Čo - ak niečo - to nás naučí používať MTurk na prieskumné experimenty?
[ , ] Na papieri s názvom "Musíme sa rozpadnúť", trochu v jazyku v tvári, je sociálny psychológ Robert Cialdini, jeden z autorov Schultz et al. (2007) napísal, že predčasne odišiel z funkcie profesora, čiastočne z dôvodu výziev, ktorým čelil v teréne v disciplíne (psychológii), ktorá vykonáva hlavne laboratórne experimenty (Cialdini 2009) . Prečítajte si dokument Cialdiniho a napíšte mu e-mail, ktorý ho vyzýva, aby prehodnotil svoj rozpad vzhľadom na možnosti digitálnych experimentov. Použite konkrétne príklady výskumu, ktoré riešia jeho obavy.
[ ] Aby sa určilo, či malý počiatočný úspech zamkne alebo zmizne, van de Rijt a kolegovia (2014) zasiahli do štyroch rôznych systémov, ktoré udeľovali náhodne vybraným účastníkom, a potom merali dlhodobé vplyvy tohto svojvoľného úspechu. Môžete si predstaviť ďalšie systémy, v ktorých by ste mohli spustiť podobné experimenty? Vyhodnoťte tieto systémy z hľadiska otázok vedeckej hodnoty, algoritmického zmätok (pozri kapitolu 2) a etiky.
[ , ] Výsledky experimentu môžu závisieť od účastníkov. Vytvorte experiment a spustite ho na MTurk pomocou dvoch rôznych stratégií náboru. Pokúste sa vybrať experimenty a stratégie náboru tak, aby boli výsledky čo najrôznejšie . Napríklad, vaše náborové stratégie by mohli byť nábor účastníkov ráno a večer alebo kompenzáciu účastníkov s vysokými a nízkymi platmi. Tieto rozdiely v stratégii prijímania zamestnancov by mohli viesť k rôznym skupinám účastníkov a rôznym experimentálnym výsledkom. Ako sa odlišovali výsledky? Čo to odhaľuje o spustení experimentov na MTurku?
[ , , ] Predstavte si, že ste plánovali experiment s emocionálnymi nákazami (Kramer, Guillory, and Hancock 2014) . Použite výsledky z predchádzajúcej pozorovacej štúdie od Kramer (2012) aby ste rozhodli o počte účastníkov v každej chorobe. Tieto dve štúdie sa nezhodujú perfektne, takže nezabudnite explicitne uvádzať všetky predpoklady, ktoré robíte:
[ , , ] Odpoveď na predchádzajúcu otázku opäť, ale skôr než použiť predchádzajúcu observačnú štúdiu od Kramer (2012) , použite výsledky z predchádzajúceho prirodzeného experimentu Lorenzo Coviello et al. (2014) .
[ ] Margetts et al. (2011) a van de Rijt a spol. (2014) uskutočnil experimenty, ktoré skúmali proces podpisu petícií. Porovnajte a kontrastujte návrhy a zistenia týchto štúdií.
[ ] Dwyer, Maki, and Rothman (2015) uskutočnili dva experimenty na poli vzťahov medzi sociálnymi normami a pro-environmentálnym správaním. Tu je abstrakt ich príspevku:
"Ako by sa mohla psychologická veda využiť na podporu proenvironmentálneho správania? V dvoch štúdiách sa zásahy zamerané na podporu správania na zachovanie energie vo verejných kúpeľniach skúmali vplyvy popisných noriem a osobnej zodpovednosti. V štúdii 1 bol svetelný stav (tj zapnutý alebo vypnutý) manipulovaný skôr, ako niekto vstúpil do neobsadenej verejnej kúpeľne a signalizoval popisnú normu pre toto nastavenie. Účastníci mali výrazne väčšiu pravdepodobnosť vypnutia svetla, ak boli pri vstupe vypnutí. V štúdii 2 bola zahrnutá ďalšia podmienka, v ktorej bola norma vypnutia svetla preukázaná konfederátom, ale účastníci neboli zodpovední za jeho zapnutie. Osobná zodpovednosť zmiernila vplyv spoločenských noriem na správanie; keď účastníci neboli zodpovední za zapnutie svetla, vplyv normy sa zmenšil. Tieto výsledky naznačujú, ako môžu opisné normy a osobná zodpovednosť regulovať účinnosť proenvironmentálnych zásahov. "
Prečítajte si ich článok a navrhnite replikáciu štúdie 1.
[ , ] Vychádzajúc z predchádzajúcej otázky, teraz vykonajte svoj dizajn.
[ ] Vyskytla sa rozsiahla diskusia o pokusoch s použitím účastníkov prijatých z MTurk. Zároveň sa uskutočnila rozsiahla debata o experimentoch s využitím účastníkov prijatých z vysokoškolského študentského obyvateľstva. Napíšte dvojstránkovú poznámku porovnávajúcu a kontrastujúcu turkárov a vysokoškolských študentov ako účastníkov výskumu. Vaše porovnanie by malo zahŕňať diskusiu o vedeckých aj logistických otázkach.
[ ] Kniha Jim Manziho Nekontrolovaná (2012) je úžasný úvod do sily experimentovania v podnikaní. V knihe odovzdal nasledujúci príbeh:
"Bol som raz na stretnutí s pravým obchodným géniom, vlastným miliardárom, ktorý mal hlboké a intuitívne podceňovanie sily experimentov. Jeho spoločnosť vynaložila značné zdroje na to, aby sa snažila vytvoriť skvelé vitríny v obchodoch, ktoré by prilákali spotrebiteľov a zvýšili predaj, ako povedali konvenčné múdrosti. Odborníci starostlivo otestovaný dizajn po konštrukcii av jednotlivých revíznych skúškach skúšok počas niekoľkých rokov nepretržite vykazovali žiadny významný príčinný dopad každého dizajnu displeja na predaj. Vedúci predstavitelia marketingu a merchandisingu sa stretli s generálnym riaditeľom, aby preskúmali tieto historické výsledky testov v tomto období. Po predstavení všetkých experimentálnych údajov dospeli k záveru, že konvenčná múdrosť je nesprávna - to, že zobrazenie okien nevedie k predaju. Ich odporúčanou akciou bolo zníženie nákladov a úsilia v tejto oblasti. Toto dramaticky demonštruje schopnosť experimentovania prevrátiť konvenčnú múdrosť. Reakcia generálneho riaditeľa bola jednoduchá: "Môj záver je, že vaši dizajnéri nie sú veľmi dobrí." Jeho riešením bolo zvýšiť úsilie v dizajne displeja v obchode a prinútiť nových ľudí, aby to urobili. " (Manzi 2012, 158–9)
Ktorý typ platnosti je obavou generálneho riaditeľa?
[ ] Na základe predchádzajúcej otázky si predstavte, že ste boli na stretnutí, kde boli diskutované výsledky experimentov. Aké sú štyri otázky, ktoré by ste si mohli položiť - jeden pre každý typ platnosti (štatistický, konštruktívny, interný a externý)?
[ ] Bernedo, Ferraro, and Price (2014) skúmali sedemročný účinok intervencie šetriacej vody opísanej v Ferraro, Miranda, and Price (2011) (pozri obrázok 4.11). V tomto dokumente sa Bernedo a kolegovia snažili porozumieť aj mechanizmu efektov porovnaním správania domácností, ktoré sa po vysadení liečby nehýbali. Znamená to, že sa zhruba pokúsili zistiť, či liečba zasiahla doma alebo majiteľ domu.
[ ] V nadväznosti na Schultz et al. (2007) , Schultz a jeho kolegovia vykonali sériu troch experimentov týkajúcich sa účinku popisných a príkazových noriem na iné environmentálne správanie (opätovné použitie uterákov) v dvoch kontextoch (hotel a časovo vymedzené kondominium) (Schultz, Khazian, and Zaleski 2008) ,
[ ] V reakcii na Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) prebehli sériu laboratórnych experimentov s cieľom študovať návrh elektrických účtov. Tu je návod, ako to opisujú abstraktne:
"V experimente založenom na prieskume každý účastník zaznamenal hypotetický účet za elektrickú energiu pre rodinu s relatívne vysokou spotrebou elektrickej energie, ktorá zahŕňala informácie o (a) historickom použití, (b) porovnaní so susedmi a (c) historické použitie s rozdelením spotrebiča. Účastníci videli všetky typy informácií v jednom z troch formátov vrátane (a) tabuliek, (b) stĺpcových grafov a (c) ikonových grafov. Uvádzame tri hlavné zistenia. Po prvé, spotrebitelia chápali každý typ informácií o spotrebe elektrickej energie najviac, keď bol uvedený v tabuľke, možno preto, že tabuľky uľahčujú jednoduché čítanie bodov. Po druhé, preferencie a zámery na šetrenie elektriny boli najsilnejšie pre informácie o historickom použití, nezávisle od formátu. Po tretie, osoby s nižšou energetickou gramotnosťou chápali všetky informácie menej. "
Na rozdiel od iných následných štúdií je hlavným výsledkom záujmu v spoločnosti Canfield, Bruin, and Wong-Parodi (2016) hlásené správanie, nie skutočné správanie. Aké sú silné a slabé stránky tohto typu štúdia v rámci širšieho výskumného programu na podporu úspor energie?
[ , ] Smith and Pell (2003) predstavili satirickú metaanalýzu štúdií demonštrujúcich účinnosť padákov. Dospeli k záveru:
"Tak ako pri mnohých intervenciách zameraných na predchádzanie zlému zdravotnému stavu, efektívnosť padákov nebola podrobená rigoróznemu hodnoteniu pomocou randomizovaných kontrolovaných štúdií. Zástancovia medicíny založenej na dôkazoch kritizovali prijatie intervencií, ktoré boli vyhodnotené iba pomocou pozorovacích údajov. Myslíme si, že každý by mohol mať prospech, ak by sa najradikálnejší protagonisti medicíny založenej na dôkazoch usporiadali a zúčastnili sa dvojnásobne slepej, randomizovanej, placebom kontrolovanej krížovej skúšky padáka. "
Napíšte op-ed vhodný pre noviny pre všeobecnú čitateľskú literatúru, ako napríklad New York Times , s argumentom proti fetišizácii experimentálnych dôkazov. Uveďte konkrétne konkrétne príklady. Tip: Pozri tiež Deaton (2010) a Bothwell et al. (2016) .
[ , , ] Odhady rozdielov v rozdieloch medzi efektom liečby môžu byť presnejšie ako odhadové rozdiely v priemere. Napíšte poznámku inžinierovi zodpovednému za testovanie A / B v začiatočnej spoločnosti sociálnych médií, ktorá vysvetľuje hodnotu prístupu rozdielov v rozdieloch pre spustenie online experimentu. Táto poznámka by mala obsahovať vyhlásenie o probléme, určitú intuíciu o podmienkach, za ktorých by odhadovač rozdielu v rozdieloch prevýšil odhad rozdielu v priemere a jednoduchú simulačnú štúdiu.
[ , ] Gary Loveman bol profesorom na Harvard Business School predtým, ako sa stal generálnym riaditeľom spoločnosti Harrah's, jednej z najväčších kasínových spoločností na svete. Keď sa presťahoval do spoločnosti Harrah's, spoločnosť Loveman premenila spoločnosť s vernostným programom, ktorý sa podobal na časté lietanie, ktorý zhromažďoval obrovské množstvo údajov o správaní zákazníkov. Na vrchole tohto stále meraného systému spoločnosť začala experimentovať. Napríklad môžu experimentovať s cieľom vyhodnotiť účinok kupónu na bezplatnú hotelovú noc pre zákazníkov s určitým typom hazardných hier. Tu je to, ako Loveman opísal dôležitosť experimentovania na každodenné obchodné praktiky Harrah:
"Je to ako keby ste neobťažovali ženy, nekradnete a musíte mať kontrolnú skupinu. To je jedna z vecí, ktoré môžete stratiť svoju prácu pre Harrahovu - nepoužívajte kontrolnú skupinu. " (Manzi 2012, 146)
Napíšte e-mailovi novému zamestnancovi, ktorý vysvetľuje, prečo Loveman myslí, že je také dôležité mať kontrolnú skupinu. Mali by ste sa pokúsiť zahrnúť príklad - či už skutočný alebo upravený - aby ste ilustrovali váš bod.
[ , ] Cieľom nového experimentu je odhadnúť účinok prijatia upozornení na textové správy o očkovaní. Je ochotné zúčastniť sa sto päťdesiat kliniky, z ktorých každá má 600 oprávnených pacientov. Existuje pevná cena 100 USD za každú klímu, s ktorou chcete pracovať, a za každú textovú správu, ktorú chcete poslať, stojí 1 dolár. Ďalej, všetky kliniky, s ktorými pracujete, budú merať výsledok (či už niekto dostal očkovanie) zadarmo. Predpokladajme, že máte rozpočet 1000 USD.
[ , ] Hlavným problémom s on-line kurzami je znetvorenie: veľa študentov, ktorí začínajú kurzy, skončia. Predstavte si, že pracujete v on-line vzdelávacej platforme a dizajnér na platforme vytvoril lištu vizuálneho pokroku, o ktorej sa domnieva, že pomôže predísť tomu, aby študenti odchádzali z kurzu. Chcete skúsiť účinok priebežného pruhu na študentov vo veľkom počítačovom kurze sociálnych vied. Po riešení akýchkoľvek etických otázok, ktoré by mohli vyplynúť z experimentu, sa vy a tvoji kolegovia obávajú, že kurz nemusí mať dostatok študentov na spoľahlivé odhalenie účinkov pruhu postupu. V nasledujúcich výpočtoch môžete predpokladať, že polovica študentov dostane pruh postupu a polovica nie. Ďalej môžete predpokladať, že nedochádza k rušeniu. Inými slovami, môžete predpokladať, že účastníci sú ovplyvnení len tým, či dostali liečbu alebo kontrolu; nie sú ovplyvnené tým, či ostatní ľudia dostali liečbu alebo kontrolu (pre formálnejšiu definíciu pozri kapitolu 8 Gerber and Green (2012) ). Sledujte všetky dodatočné predpoklady, ktoré ste urobili.
[ , , ] Predstavte si, že pracujete ako vedúci údajov v technologickej spoločnosti. Niekto z marketingového oddelenia vás požiada o pomoc pri hodnotení experimentu, ktorý plánuje, aby sa merala návratnosť investícií (ROI) pre novú online reklamnú kampaň. ROI je definovaná ako čistý zisk kampane vydelený nákladmi kampane. Napríklad kampaň, ktorá nemá vplyv na predaj, by mala návratnosť investícií vo výške -100%; kampaň, pri ktorej sa zisky rovnajú nákladom, by mali návratnosť investícií vo výške 0; a kampaň, pri ktorej boli zisky dvojnásobné, by mala návratnosť investícií vo výške 200%.
Pred spustením experimentu vám marketingové oddelenie poskytuje na základe predchádzajúceho výskumu nasledujúce informácie (v skutočnosti sú tieto hodnoty typické pre skutočné online reklamné kampane hlásené v Lewis a Rao (2015) ):
Napíšte poznámku hodnotiacu tento navrhovaný experiment. Vaša poznámka by mala použiť dôkazy zo simulácie, ktorú vytvoríte, a mala by sa zaoberať dvoma hlavnými problémami: (1) Odporúčali by ste spustiť tento experiment podľa plánu? Ak áno, prečo? Ak nie, prečo nie? Uistite sa, že máte jasné kritériá, ktoré používate na vykonanie tohto rozhodnutia. (2) Akú veľkosť vzorky by ste odporúčali pre tento experiment? Znova, uistite sa, že máte jasné kritériá, ktoré používate na prijatie tohto rozhodnutia.
Dobrá poznámka sa bude zaoberať týmto konkrétnym prípadom. lepšia poznámka sa z tohto prípadu zovšeobecní jedným spôsobom (napr. ukážte, ako sa rozhodnutie mení v závislosti od veľkosti vplyvu kampane); a veľká poznámka prinesie úplne všeobecný výsledok. Vaša poznámka by mala použiť grafy na ilustráciu vašich výsledkov.
Tu sú dva rady. Po prvé, marketingové oddelenie vám mohlo poskytnúť zbytočné informácie a pravdepodobne vám neposkytol potrebné informácie. Po druhé, ak používate R, uvedomte si, že funkcia rlnorm () nefunguje spôsobom, ktorý očakáva mnoho ľudí.
Táto aktivita vám poskytne skúsenosti s analýzou výkonu, vytváraním simulácií a komunikáciou výsledkov so slovami a grafmi. Mala by vám pomôcť pri vykonávaní analýzy energie pre akýkoľvek druh experimentu, nielen experimenty navrhnuté na odhad návratnosti investícií. Táto aktivita predpokladá, že máte skúsenosti so štatistickým testovaním a analýzou výkonu. Ak nie ste oboznámení s analýzou napájania, odporúčam vám, aby ste si prečítali "Power Primer" od Cohen (1992) .
Táto aktivita bola inšpirovaná krásnym papierom RA Lewis and Rao (2015) , ktorý jasne ilustruje základné štatistické obmedzenie dokonca masívnych experimentov. Ich papier - ktorý pôvodne mal provokatívny názov "O najbližšej nemožnosti merania návratov k reklame" - ukazuje, ako ťažké je merať návratnosť investícií do on-line reklám, a to aj pri digitálnych experimentoch zahŕňajúcich milióny zákazníkov. Všeobecnejšie, RA Lewis and Rao (2015) ilustrujú základnú štatistickú skutočnosť, ktorá je obzvlášť dôležitá pre experimenty v digitálnom veku: je ťažké odhadnúť malé účinky liečby v prostredí hlučných výsledkov.
[ , ] Urobte to isté ako predchádzajúca otázka, ale skôr než simulácia, mali by ste použiť analytické výsledky.
[ , , ] Vykonajte to isté ako predchádzajúca otázka, ale použite simulačné aj analytické výsledky.
[ , , ] Predstavte si, že ste napísali vyššie popísanú poznámku a niekto z marketingového oddelenia vám poskytne jednu novú informáciu: očakáva 0,4 koreláciu medzi predajom pred experimentom a po ňom. Ako to mení odporúčania vo vašej poznámke? (Tip: viac informácií o odhade rozdielov prostriedkov a odhade rozdielov v rozdieloch nájdete v časti 4.6.2.)
[ , ] Aby sa vyhodnotila účinnosť nového webového programu na podporu zamestnanosti, univerzita vykonala randomizovanú kontrolnú štúdiu medzi 10 000 študentmi, ktorí vstúpili do posledného ročníka školy. Bezplatné prihlásenie s jedinečnými prihlasovacími informáciami bolo odoslané prostredníctvom exkluzívnej e-mailovej pozvánky na 5000 náhodne vybraných študentov, zatiaľ čo ostatných 5 000 študentov bolo v kontrolnej skupine a nemalo predplatné. O dvanásť mesiacov neskôr následný prieskum (bez odozvy) ukázal, že v skupine liečených aj kontrolných skupinách 70% študentov zabezpečilo zamestnanie na plný úväzok vo svojej zvolenej oblasti (tabuľka 4.6). Zdá sa teda, že webová služba nemala žiadny vplyv.
Chytrý vedúci údajov na univerzite sa však podrobnejšie zaoberal údajmi a zistil, že po prijímaní e-mailu sa na účet prihlásilo iba 20% študentov v skupine liečených pacientov. Ďalej a trochu prekvapujúco, medzi tými, ktorí sa prihlásili na webovú stránku, iba 60% zabezpečilo zamestnanie na plný úväzok vo svojej zvolenej oblasti, čo bolo nižšie ako sadzba pre ľudí, ktorí sa neprihlásili, a nižšia ako sadzba pre ľudí v kontrolnom stave (tabuľka 4.7).
Tip: Táto otázka presahuje rámec materiálu, ktorý je v tejto kapitole obsiahnutý, ale rieši problémy bežné v experimentoch. Tento typ experimentálneho dizajnu sa niekedy nazýva dizajn povzbudenia, pretože účastníci sú vyzvaní, aby sa zapojili do liečby. Tento problém je príkladom toho, čo sa nazýva jednostranné nedodržanie (pozri kapitolu 5 od Gerber and Green (2012) ).
[ ] Po ďalšom preskúmaní sa ukázalo, že experiment opísaný v predchádzajúcej otázke bol ešte komplikovanejší. Ukázalo sa, že 10% ľudí v kontrolnej skupine zaplatilo za prístup k službe a skončilo s mierou zamestnanosti 65% (tabuľka 4.8).
Tip: Táto otázka presahuje rámec materiálu, ktorý je v tejto kapitole obsiahnutý, ale rieši problémy bežné v experimentoch. Tento problém je príkladom toho, čo sa nazýva obojstranné nedodržanie (pozri kapitolu 6 od Gerber and Green (2012) ).
skupina | veľkosť | Miera zamestnanosti |
---|---|---|
Poskytnutý prístup k webovým stránkam | 5000 | 70% |
Nemáte prístup k webovým stránkam | 5000 | 70% |
skupina | veľkosť | Miera zamestnanosti |
---|---|---|
Udelený prístup k webovým stránkam a prihlásený | 1000 | 60% |
Udelený prístup na webové stránky a nikdy neprihlásený | 4000 | 72,5% |
Nemáte prístup k webovým stránkam | 5000 | 70% |
skupina | veľkosť | Miera zamestnanosti |
---|---|---|
Udelený prístup k webovým stránkam a prihlásený | 1000 | 60% |
Udelený prístup na webové stránky a nikdy neprihlásený | 4000 | 72,5% |
Nemáte povolený prístup na webové stránky a platia za to | 500 | 65% |
Nemal prístup k webovým stránkam a za to neplatí | 4500 | 70,56% |