[ , ] Berinsky és munkatársai (2012) részben értékelték a MTurk-ot három klasszikus kísérlet ismétlésével. A Tversky and Kahneman (1981) klasszikus ázsiai betegség-framing kísérletét reprodukálja. Eredményeid megfelelnek a Tversky és a Kahneman-nak? Eredményeid megfelelnek azoknak a Berinsky-nek és kollégáinak? Mi van - ha valami - megtanít bennünket a MTurk felmérési kísérletek használatára?
[ , ] A szexuálisan elterjedt, "Meg kell szakítanunk" címet viselő, Robert Cialdini, a szociálpszichológus, Schultz et al. (2007) , azt írta, hogy korán visszavonul a professzor munkájától, részben azon kihívások miatt, amelyekkel a szántóföldi kísérleteket olyan pszichológiában végezte (pszichológia), amely főként laboratóriumi kísérleteket végez (Cialdini 2009) . Olvassa el Cialdini papíroit, és írjon neki egy e-mailt, amelyben arra kérte őt, hogy vizsgálja felül a felbomlását a digitális kísérletek lehetőségeinek fényében. Használjon konkrét kutatási példákat, amelyek foglalkoznak aggodalmaival.
[ ] Annak megállapítása érdekében, hogy a kis kezdeti sikerek zárolódnak-e vagy elhalványodnak-e, van de Rijt és munkatársai (2014) négy különböző rendszerbe kerültek be, amelyek sikereket vittek a véletlenszerűen kiválasztott résztvevők között, majd mérlegelték ennek az önkényes sikernek a hosszú távú hatásait. Gondolhat olyan rendszerekre, amelyekben hasonló kísérleteket végezhettek? Értékelje ezeket a rendszereket a tudományos értékekkel, az algoritmikus zavarokkal (lásd a 2. fejezetet) és az etikával kapcsolatban.
[ , ] A kísérlet eredményei a résztvevőktől függhetnek. Készítsen kísérletet, majd futtassa azt MTurk-on két különböző munkaerő-felvételi stratégiával. Próbálja meg felvenni a kísérletet, és toborzási stratégiák, hogy az eredményt nem lehet más, mint lehetséges. Például a toborzási stratégiák lehetnek reggeli és esti résztvevők toborzása vagy a résztvevők magas és alacsony fizetéssel történő kompenzálása. A toborzási stratégia ilyen jellegű különbségei különböző résztvevőkhöz és különböző kísérleti eredményekhez vezethetnek. Mennyire különböznek az eredményei? Mit mutat ez a MTurk futási kísérleteiről?
[ , , ] Képzelje el, hogy tervezte az Érzelmi fertőzés kísérletet (Kramer, Guillory, and Hancock 2014) . Használja a Kramer (2012) korábbi megfigyelési tanulmányának eredményeit, hogy meghatározza a résztvevők számát minden állapotban. Ez a két vizsgálat nem egyezik tökéletesen, ezért győződjön meg róla, hogy kifejezetten felsorolja az összes feltevést:
[ , , ] Az előző kérdésre ismét válaszoljon, de ezúttal a Kramer (2012) korábbi megfigyelési tanulmánya helyett, használja Lorenzo Coviello et al. (2014) korábbi természetes kísérletének eredményeit Lorenzo Coviello et al. (2014) .
[ ] Mind Margetts et al. (2011) és van de Rijt et al. (2014) kísérleteket készített a petíciót aláíró emberek folyamatának tanulmányozására. Hasonlítsuk össze és szembeállítsuk ezeket a tanulmányokat.
[ ] Dwyer, Maki, and Rothman (2015) két kísérletet végeztek a társadalmi normák és a környezeti magatartás viszonyáról. Itt van a papír absztraktja:
"Hogyan alkalmazható a pszichológiai tudomány a környezeti magatartás ösztönzésére? Két tanulmányban a nyilvános fürdőszobák energiatakarékossági viselkedésének előmozdítását célzó beavatkozások megvizsgálták a leíró normák és a személyes felelősség hatásait. Az 1. vizsgálatban a fényállapotot (vagyis a be- vagy kikapcsolást) manipulálták, mielőtt valaki üres nyilvános fürdőszobába lépett, jelezve a leíró jellegzetességet az adott környezetben. A résztvevők jelentősen nagyobb valószínűséggel kapcsolták ki a fényeket, ha leértek, amikor beléptek. A 2. tanulmányban egy további feltétel is szerepelt, amelyben a fény kikapcsolásának normáját egy konföderáció igazolta, de a résztvevők nem voltak felelősek a bekapcsolásért. A személyes felelősség mérsékelte a társadalmi normák viselkedésre gyakorolt hatását; amikor a résztvevők nem voltak felelősek a fény bekapcsolásáért, a normák hatása csökkent. Ezek az eredmények azt mutatják, hogy a leíró jellegű normák és a személyes felelősség szabályozhatja a környezetvédelmi beavatkozások hatékonyságát. "
Olvassa el papírját és tervezze meg az 1. tanulmány ismétlését.
[ , ] Az előző kérdésre építve most végezze el a tervét.
[ ] Volt jelentős vita a kísérletekről a résztvevők résztvevői által felvett MTurk. Ezzel párhuzamosan jelentős vita folyik az egyetemi hallgatók körében felvett résztvevők kísérleteiről. Írj egy kétoldalas emlékeztetőt, összehasonlítva a Turkers-et és a hallgatókat, mint a kutatók résztvevői. Összehasonlításának magában kell foglalnia a tudományos és logisztikai kérdések megvitatását is.
[ ] Jim Manzi Uncontrolled (2012) című könyve csodálatos bemutató az üzleti kísérletezés erejére. A könyvben a következő történetet közvetítette:
"Egyszer találkoztam egy valódi üzleti zsenialommal, egy önálló milliárdossal, aki mélyen, intuitív módon alábecsülte a kísérletek erejét. Társasága jelentős erőforrásokat költött ahhoz, hogy nagyszerű tárolóablakokat hozzon létre, amelyek a fogyasztókat vonzzák és növelik az értékesítést, amint azt a hagyományos bölcsesség mondja. A szakértők gondosan tesztelték a tervezést a tervezés után, és az egyéni vizsgálati áttekintések során egy év múlva nem mutatták ki, hogy az új megjelenítési tervek jelentősebb okozati hatással voltak az értékesítésre. A vezető marketing és merchandising vezetők találkoztak a vezérigazgatóval, hogy vizsgálják felül ezeket a történeti teszt eredményeket toto-ban. A kísérleti adatok bemutatását követően arra a következtetésre jutottak, hogy a hagyományos bölcsesség téves - az ablakon megjelenő értékek nem vezetnek értékesítéshez. Ajánlott intézkedésük a költségek és erőfeszítések csökkentése volt ezen a területen. Ez drámaian bizonyította a kísérletezés képességét a hagyományos bölcsesség felborulására. A vezérigazgató válasza egyszerű volt: "Az a következtetésem, hogy a tervezőid nem túl jóak." A megoldás az volt, hogy megnövelje az erõfeszítéseket a (Manzi 2012, 158–9) , és hogy új embereket szerezzen. " (Manzi 2012, 158–9)
Milyen típusú érvényesség a vezérigazgató aggodalma?
[ ] Az előző kérdésre alapozva képzeld el, hogy az ülésen voltál, ahol megvitatták a kísérletek eredményeit. Milyen négy kérdésre lehet kérdezni - minden egyes érvényességi típust (statisztikai, konstrukció, belső és külső)?
[ ] Bernedo, Ferraro, and Price (2014) tanulmányozta a Ferraro, Miranda, and Price (2011) víztakarékos beavatkozás hétéves hatását (lásd a 4.11 ábrát). Ebben a tanulmányban Bernedo és munkatársai arra is törekedték, hogy megértsék a hatás mögötti mechanizmust, összehasonlítva azoknak a háztartásoknak a magatartását, amelyek a kezelés megkezdése után nem mozogtak és nem mozogtak. Vagyis nagyjából megpróbálták megnézni, hogy a kezelés hatással volt-e az otthonra vagy a háztulajdonosra.
[ ] Schultz et al. (2007) (Schultz, Khazian, and Zaleski 2008) három különböző kísérleti kísérletet végeztek a leíró és a megtiltó normáknak egy másik környezeti viselkedés (törölköző újrafelhasználás) hatására két kontextusban (egy szálloda és időben megosztott társasház (Schultz, Khazian, and Zaleski 2008) .
[ ] Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) számos laboratóriumi kísérletet végeztek az elektromos számlák tervezésének tanulmányozására. Így írják le absztrakt módon:
"Egy felmérésen alapuló kísérletben minden résztvevő egy hipotetikus villamosenergia-számlát látott egy viszonylag magas villamosenergia-felhasználású család számára, amely a következőket tartalmazza: (a) történelmi felhasználás, (b) összehasonlítás a szomszédokkal, (c) történelmi felhasználás a készülék meghibásodásával kapcsolatban. A résztvevők háromféle formátumban láthatták az összes információtípust: a) táblázatokat, b) oszlopdiagramokat, és c) ikongrafikonokat. Három fő megállapításról számolunk be. Először a fogyasztók mindenfajta villamosenergia-felhasználási információt legjobban megértettek, amikor táblázatban szerepeltek, talán azért, mert a táblázatok megkönnyítik az egyszerű leolvasást. Másodszor, a villamos energia megtakarításának preferenciái és szándékai a legerősebbek a formátumtól független történelmi felhasználási információkhoz. Harmadszor, az alacsonyabb energia-műveltséggel rendelkező egyének kevesebbet értettek az összes információval. "
Más nyomonkövetési tanulmányoktól eltérően a Canfield, Bruin, and Wong-Parodi (2016) érdeklődésének fő eredménye a viselkedés, nem a tényleges viselkedés. Melyek az ilyen típusú tanulmányok erősségei és gyengeségei az energiamegtakarítást elősegítő szélesebb kutatási programban?
[ , Smith and Pell (2003) az ejtőernyők hatékonyságát bizonyító tanulmányok szatirikus metaanalízisét mutatták be. Megállapították:
"Mint sok, a betegség megelőzésére irányuló beavatkozás, az ejtőernyők hatékonyságát nem szigorú értékelésnek vetették alá véletlen besorolásos ellenőrzött vizsgálatok alkalmazásával. A bizonyítékokon alapuló gyógyszerészek támogatói csak megfigyelési adatok felhasználásával értékelték a beavatkozások elfogadását. Úgy véljük, hogy mindenki számára előnyös lehet, ha a bizonyítékokon alapuló orvoslás legradikálisabb főszereplői szerveztek és részt vettek az ejtőernyős kettős vak, randomizált, placebo-kontrollos, átkeléses kísérletekben. "
Írj egy olyan op-edet, amely megfelel egy általános olvasói újságnak, például a New York Times-nak , a kísérleti bizonyítékok fetisizálásával szemben. Adjon konkrét konkrét példákat. Tipp: Lásd még Deaton (2010) és Bothwell et al. (2016) .
[ , , ] A kezelés hatásának különbség-különbség-becslései pontosabbak lehetnek, mint a különbség az átlagos becsléseknél. Írj egy emlékeztetőt egy A / B tesztelésért felelős mérnök számára egy induló közösségi médiavállalatnál, amely megmagyarázza a különbség a különbségek megközelítését az online kísérlet futtatásához. A feljegyzésnek tartalmaznia kell egy, a probléma megfogalmazását, valamilyen intuíciót azon feltételekről, amelyek mellett a differenciál-különbség becslõ felülmúlja a különbséget az átlagos becslésben és egy egyszerû szimulációs vizsgálatot.
[ , ] Gary Loveman a Harvard Business School professzora volt, mielőtt a Harrah egyik, a világ egyik legnagyobb kaszinóvállalata lett. Amikor elköltözött Harrahhoz, Loveman átalakította a céget egy olyan gyakori, kedvelt hűségprogrammal, amely hatalmas mennyiségű adatot gyűjtött össze az ügyfelek viselkedéséről. A folyamatos mérési rendszer mellett a vállalat kísérleteket indított. Például egy kísérletet futtathatnak annak érdekében, hogy értékelhessék a kupon hatását egy ingyenes szállodai éjszakára a meghatározott szerencsejáték-minta ügyfelei számára. Eszerint Loveman leírta a kísérletezés fontosságát Harrah mindennapi üzleti gyakorlataihoz:
"Olyan, mintha nem zaklatnátok a nőket, nem lopnátok, és kontrollcsoportot kell szerezned. Ez az egyik dolog, hogy elveszítheti a munkáját a Harrahnál - nem működtet kontrollcsoportot. " (Manzi 2012, 146)
Írj egy e-mailt egy új alkalmazottnak, aki elmagyarázza, miért fontos úgy, hogy Loveman olyan kontrollcsoportot tartson fenn. Próbáljon meg példát mutatni - vagy valós vagy felkészült -, hogy illusztrálja a pontot.
[ , ] Egy új kísérlet arra törekszik, hogy megbecsülje a szöveges üzenetek emlékeztetőinek befogadásának hatását a vakcinák felvételére. Ötvenöt klinika, mindegyik 600 jogosult pácienssel hajlandó részt venni. Minden egyes klinikán 100 dollár fix költséggel kell dolgozni, és minden egyes szöveges üzenethez 1 dollárba kerül. Ezenkívül minden olyan klinika, amellyel dolgozol, mérni fogja az eredményt (függetlenül attól, hogy megkapta-e az oltást) ingyen. Tegyük fel, hogy van egy 1000 dolláros költségkeret.
[ , ] Az online tanfolyamok egyik legnagyobb problémája a lemorzsolódás: sok tanuló, aki elkezdi a tanfolyamokat, végül lemond. Képzelje el, hogy online tanulás platformon dolgozik, és a platform tervezője létrehozott egy olyan vizuális előrehaladási sávot, amelyet úgy gondolja, hogy segít megelőzni a diákok lemorzsolódását. A nagyszámítótudományi társadalomtudományi kurzuson szeretné tesztelni a haladás ütemének hatását a hallgatókra. A kísérlet során esetlegesen felmerülő etikai problémák megoldása után Ön és munkatársai aggódnak amiatt, hogy a kurzusnak talán nincs elég diákja ahhoz, hogy megbízhatóan észlelje a folyamat sáv hatásait. Az alábbi számításokban azt feltételezheti, hogy a hallgatók fele megkapja az előrehaladási sávot, és félig nem. Továbbá feltételezheti, hogy nincs interferencia. Más szóval, feltételezhetjük, hogy a résztvevőkre csak akkor van hatással, ha megkapták a kezelést vagy ellenőrzést; nem arról van szó, hogy mások is megkapják-e a kezelést vagy az ellenőrzést (formálisabb definíció esetén lásd a Gerber and Green (2012) 8. fejezetét). Tartson nyomon minden további feltételezést, amit teszel.
[ , , ] Képzeld el, hogy egy technikus cég adatkutatójaként dolgozik. A marketing részlegtől érkező személy megkéri a segítségét egy olyan kísérlet értékelésében, amelyet terveznek annak érdekében, hogy mérje a befektetés megtérülését (ROI) egy új online hirdetési kampányhoz. A ROI-t a kampány nettó nyereségének és a kampány költségének elosztásával határozzák meg. Például egy olyan kampány, amely nem befolyásolta az értékesítést, -100% ROI-t eredményezne; egy olyan kampány, amelyben a keletkező nyereség egyenlő a költségekkel, 0 ROI-t eredményezne; és egy olyan kampány, amelyben a nyereség kétszeres volt, a költség 200% -os megtérülést jelentene.
A kísérlet megkezdése előtt a marketing osztály a korábbi kutatásai alapján a következő információkat nyújtja Önnek (valójában ezek az értékek a Lewis és a Rao (2015) közölt valódi online hirdetési kampányokra jellemzőek:
Írj egy jegyzetet, amely értékeli ezt a javasolt kísérletet. Az emlékeztetőnek bizonyítékot kell használnia az Ön által létrehozott szimulációról, és két fontos kérdéssel kell foglalkoznia: (1) Javasolná, hogy ezt a kísérletet a terveknek megfelelően indítsa el? Ha igen, miért? Ha nem, akkor miért ne? Győződjön meg arról, hogy tisztában van azzal a kritériummal, amelyet a döntés meghozatalához használ. (2) Milyen mintaméretet javasolna ehhez a kísérlethez? Ismét feltétlenül tisztában legyen azzal a kritériummal, amelyet a döntés meghozatalához használ.
Egy jó emlékeztető foglalkozik ezzel az egyedi esetvel; egy jobb emlékeztető általánosan fogalmazza meg ezt az esetet egy módon (pl. megmutatja, hogyan változik a döntés a kampány hatásának méretétől függően); és egy nagy emlékeztető egy teljesen általánosított eredményt fog mutatni. A feljegyzésnek grafikonokat kell használnia az eredmények bemutatásához.
Íme két tipp. Először is, a marketing részleg adott volna némi felesleges információt, és előfordulhat, hogy nem adott meg néhány szükséges információt. Másodszor, ha az R-t használod, ügyelj rá, hogy az rlnorm () függvény nem olyan módon működik, ahogy sokan elvárják.
Ez a tevékenység gyakorolja az energiagazdálkodást, a szimulációkat és az eredményeket szövegekkel és grafikonokkal. Segíteni kell az energiagazdálkodás bármilyen kísérlet elvégzéséhez, nem csak a ROI becsléséhez tervezett kísérleteket. Ez a tevékenység feltételezi, hogy van némi tapasztalat a statisztikai teszteléssel és teljesítményelemzéssel kapcsolatban. Ha nem ismeri a teljesítményelemzést, azt javaslom, hogy olvassa el "A Power Primer" Cohen (1992) .
Ezt a tevékenységet RA Lewis and Rao (2015) kedves tanulmánya inspirálta, amely élénken szemlélteti az egykori hatalmas kísérletek alapvető statisztikai korlátait. Papíruk - amely eredetileg provokáló címet kapott: "A hirdetések visszaküldésének mércéje elmaradhatatlansága" - azt mutatja, hogy milyen nehéz mérni az online hirdetések befektetési megtérülését, még a több millió ügyfél bevonásával végzett digitális kísérletek során is. Általánosságban elmondható, hogy RA Lewis and Rao (2015) egy olyan alapvető statisztikai tényt illusztrál, amely különösen fontos a digitális korú kísérletekben: nehéz a kisméretű kezelési hatások becslése zajos kimeneti adatok közepette.
[ , ] Ugyanaz, mint az előző kérdés, de a szimuláció helyett elemző eredményeket kell használnia.
[ , , ] Tegye ugyanazt, mint az előző kérdést, de használja mind a szimulációs, mind az analitikai eredményeket.
[ , , ] Képzeld el, hogy írtál az előzőekben leírt feljegyzést, és a marketing osztály egyik tagja egy új információt szolgáltat: 0,4 korrelációt vár a kísérlet előtt és után. Hogyan változtatja meg az emlékeztető ajánlásai? (Tipp: lásd a 4.6.2 fejezetet, ha többet szeretne az eszköz-különbség becslőről és a különbség a különbségek becslőről.)
[ , ] Egy új, webalapú foglalkoztatási segélyprogram hatékonyságának értékelése érdekében az egyetem randomizált ellenőrzési kísérletet végzett 10.000 hallgató számára, akik beiratkoztak az utolsó iskolai évre. Az egyedülálló bejelentkezési adatokkal rendelkező ingyenes előfizetést egy véletlenszerűen kiválasztott diákok 5000-nél, exkluzív e-mail meghívón keresztül küldték, míg a többi 5000 diák a kontrollcsoportban volt, és nem rendelkezett előfizetéssel. Tizenkét hónap múlva egy utólagos felmérés (nem válasz nélkül) azt mutatta, hogy mind a kezelési, mind a kontrollcsoportban a hallgatók 70% -a teljes munkaidőt biztosít a választott területen (4.6. Táblázat). Így úgy tűnt, hogy a webalapú szolgáltatásnak nincs hatása.
Az egyetem egyik okos adatkutatója azonban jobban megvizsgálta az adatokat, és megállapította, hogy a kezelési csoportba tartozó diákok mindössze 20% -a valaha bejelentkezett a fiókba az e-mail kézhezvétele után. Továbbá, és kissé meglepő, hogy a weboldalt bejelentők közül csak 60% biztosított teljes munkaidőt a választott területen, ami alacsonyabb volt azoknál az aránynál, akik nem jelentkeztek be, és alacsonyabbak voltak az emberek aránya az ellenőrzési állapotban (4.7. táblázat).
Tipp: Ez a kérdés meghaladja az ebben a fejezetben tárgyalt anyagot, de foglalkozik a kísérletekben szokásos kérdésekkel. Ezt a fajta kísérleti tervet néha ösztönző tervezésnek nevezik, mivel a résztvevőket arra ösztönzik, hogy vegyenek részt a kezelésben. Ez a probléma egy példa az úgynevezett egyoldalú nem megfelelőségről (lásd Gerber and Green (2012) 5. fejezetét).
[ ] További vizsgálat után kiderült, hogy az előző kérdésben leírt kísérlet még bonyolultabb volt. Kiderült, hogy a kontrollcsoportban résztvevők 10% -a fizette a szolgáltatáshoz való hozzáférést, és 65% -os foglalkoztatási arányt ért el (4.8. Táblázat).
Tipp: Ez a kérdés meghaladja az ebben a fejezetben tárgyalt anyagot, de foglalkozik a kísérletekben szokásos kérdésekkel. Ez a probléma egy példa a kétoldalú nem megfelelőségről (lásd Gerber and Green (2012) 6. fejezetét).
Csoport | Méret | Foglalkoztatási ráta |
---|---|---|
Hozzáférés a weboldalhoz | 5000 | 70% |
Nem biztosított a weboldalhoz való hozzáférés | 5000 | 70% |
Csoport | Méret | Foglalkoztatási ráta |
---|---|---|
Hozzáférés a weboldalhoz és bejelentkezés | 1000 | 60% |
Hozzáférés a weboldalhoz és soha nem jelentkezett be | 4000 | 72,5% |
Nem biztosított a weboldalhoz való hozzáférés | 5000 | 70% |
Csoport | Méret | Foglalkoztatási ráta |
---|---|---|
Hozzáférés a weboldalhoz és bejelentkezés | 1000 | 60% |
Hozzáférés a weboldalhoz és soha nem jelentkezett be | 4000 | 72,5% |
Nem engedélyezték a weboldalhoz való hozzáférést és fizetett | 500 | 65% |
Nem engedélyezték a weboldalhoz való hozzáférést, és nem fizetett érte | 4500 | 70.56% |