[ , ] Berinsky i jego współpracownicy (2012) ocenili MTurka po części, replikując trzy klasyczne eksperymenty. Reprezentuj eksperyment klasycznego azjatyckiego eksperymentu Tversky and Kahneman (1981) . Czy twoje wyniki pasują do Tversky'ego i Kahnemana? Czy twoje wyniki pasują do tych Berinsky'ego i kolegów? Co - jeśli cokolwiek - uczy nas o używaniu MTurk do eksperymentów z ankietą?
[ , W nieco nieokrzesanym artykule zatytułowanym "Musimy się rozpaść", psycholog społeczny Robert Cialdini, jeden z autorów Schultz et al. (2007) , napisał, że wcześniej odchodził na emeryturę ze swojej profesury, po części z powodu wyzwań, z jakimi musiał się zmierzyć podczas eksperymentów terenowych w dyscyplinie (psychologii), która głównie prowadzi eksperymenty laboratoryjne (Cialdini 2009) . Przeczytaj artykuł Cialdiniego i napisz mu e-mail z prośbą o ponowne rozpatrzenie jego rozpadu w świetle możliwości cyfrowych eksperymentów. Użyj konkretnych przykładów badań, które rozwiązują jego wątpliwości.
[ ] Aby ustalić, czy małe początkowe sukcesy się zamykają, czy też zanikają, van de Rijt i współpracownicy (2014) interweniowali w cztery różne systemy zapewniające sukces losowo wybranym uczestnikom, a następnie mierzyli długoterminowe skutki tego arbitralnego sukcesu. Czy możesz wymyślić inne systemy, w których możesz przeprowadzić podobne eksperymenty? Oceniaj te systemy pod kątem kwestii wartości naukowej, mieszania algorytmicznego (patrz rozdział 2) i etyki.
[ , ] Wyniki eksperymentu mogą zależeć od uczestników. Utwórz eksperyment, a następnie uruchom go w serwisie MTurk, używając dwóch różnych strategii rekrutacji. Spróbuj wybrać strategie eksperymentalne i rekrutacyjne, aby wyniki były jak najbardziej różne . Na przykład, twoje strategie rekrutacji mogą polegać na rekrutowaniu uczestników rano i wieczorem lub na rekompensowaniu uczestnikom wysokich i niskich zarobków. Tego rodzaju różnice w strategii rekrutacji mogą prowadzić do różnych grup uczestników i różnych wyników eksperymentalnych. Jak różne były twoje wyniki? Co to ujawnia o przeprowadzaniu eksperymentów na MTurku?
[ , , ] Wyobraź sobie, że planujesz eksperyment Emocjonalny Contagion (Kramer, Guillory, and Hancock 2014) . Wykorzystaj wyniki z wcześniejszego badania obserwacyjnego Kramer (2012) aby określić liczbę uczestników w każdym stanie. Te dwa badania nie pasują idealnie, dlatego należy wyraźnie wymienić wszystkie założenia, które należy wykonać:
[ , , ] Ponownie odpowiedz na poprzednie pytanie, ale tym razem, zamiast wykorzystywać wcześniejsze obserwacyjne badanie Kramer (2012) , wykorzystaj wyniki wcześniejszego naturalnego eksperymentu Lorenzo Coviello et al. (2014) .
[ ] Zarówno Margetts et al. (2011) i van de Rijt et al. (2014) przeprowadzili eksperymenty badające proces osób podpisujących petycję. Porównaj i kontrastuj projekty i wyniki tych badań.
[ ] Dwyer, Maki, and Rothman (2015) przeprowadzili dwa eksperymenty terenowe dotyczące związku między normami społecznymi a zachowaniami proekologicznymi. Oto streszczenie ich pracy:
"W jaki sposób można wykorzystać naukę psychologiczną do zachęcania do zachowań proekologicznych? W dwóch badaniach interwencje mające na celu promowanie zachowania oszczędzania energii w łazienkach publicznych badały wpływ norm opisowych i osobistej odpowiedzialności. W badaniu 1 status światła (tj. Włączony lub wyłączony) został zmanipulowany, zanim ktoś wszedł do niezamieszkałej publicznej łazienki, sygnalizując normę opisową dla tego ustawienia. Uczestnicy znacznie częściej wyłączali światła, jeśli byli wyłączeni, gdy weszli. W badaniu 2 uwzględniono dodatkowy warunek, w którym normę wyłączania światła wykazał konfederat, ale uczestnicy nie byli sami odpowiedzialni za włączenie go. Osobista odpowiedzialność moderowała wpływ norm społecznych na zachowanie; gdy uczestnicy nie byli odpowiedzialni za włączanie światła, wpływ normy został zmniejszony. Wyniki te wskazują, w jaki sposób normy opisowe i odpowiedzialność osobista mogą regulować skuteczność interwencji proekologicznych. "
Przeczytaj ich artykuł i zaprojektuj replikę badania 1.
[ , ] W oparciu o poprzednie pytanie, teraz wykonaj swój projekt.
[ ] Odbyła się spora debata na temat eksperymentów z udziałem uczestników rekrutowanych z MTurk. Równolegle toczyła się również spora debata na temat eksperymentów z udziałem uczestników rekrutowanych z populacji studentów studiów licencjackich. Napisz dwustronicową notatkę porównującą Turków i studentów i kontrastującą z nimi jako uczestników badań. Twoje porównanie powinno obejmować dyskusję zarówno na temat zagadnień naukowych, jak i logistycznych.
[ ] Książka Jim Manzi Niekontrolowana (2012) jest wspaniałym wprowadzeniem do potęgi eksperymentowania w biznesie. W książce zamieścił następującą historię:
"Byłem kiedyś na spotkaniu z prawdziwym geniuszem biznesu, samozwańczym miliarderem, który miał głębokie, intuicyjne zrozumienie potęgi eksperymentów. Jego firma przeznaczyła znaczne zasoby, starając się stworzyć wspaniałe witryny wystawowe, które przyciągnęłyby konsumentów i zwiększyłyby sprzedaż, jak to powszechnie uświadomiła mądrość. Eksperci dokładnie testowali projekt po zaprojektowaniu, a podczas indywidualnych sesji przeglądu testów przez wiele lat nie wykazywali znaczącego wpływu przyczynowego każdego nowego projektu wyświetlania na sprzedaż. Kierownicy wyższego marketingu i merchandisingu spotkali się z dyrektorem generalnym, aby zapoznać się z tymi historycznymi wynikami testów w toto. Po przedstawieniu wszystkich danych eksperymentalnych doszli do wniosku, że konwencjonalna mądrość była błędna - że wyświetlacze okien nie napędzają sprzedaży. Ich zalecanym działaniem była redukcja kosztów i wysiłków w tym obszarze. To dramatycznie zademonstrowało zdolność eksperymentowania do obalenia konwencjonalnej mądrości. Odpowiedź dyrektora generalnego była prosta: "Podsumowując, twoi projektanci nie są zbyt dobrzy". Jego rozwiązanie polegało na zwiększeniu wysiłków w zakresie projektowania wystaw sklepowych i pozyskaniu nowych ludzi. " (Manzi 2012, 158–9)
Jaki rodzaj ważności dotyczy dyrektora generalnego?
[ ] W oparciu o poprzednie pytanie wyobraź sobie, że byłeś na spotkaniu, na którym omawiano wyniki eksperymentów. Jakie są cztery pytania, które możesz zadać - jeden dla każdego typu ważności (statystyczny, konstrukcyjny, wewnętrzny i zewnętrzny)?
[ ] Bernedo, Ferraro, and Price (2014) badali siedmioletni efekt interwencji oszczędzającej wodę opisanej w Ferraro, Miranda, and Price (2011) (patrz rysunek 4.11). W tym dokumencie Bernedo i współpracownicy starali się również zrozumieć mechanizm, który kryje się za skutkiem, porównując zachowanie gospodarstw domowych, które się nie poruszały po dostarczeniu leczenia. To znaczy, w przybliżeniu, próbowali sprawdzić, czy leczenie wpłynęło na dom lub właściciela domu.
[ ] W następstwie Schultz et al. (2007) , Schultz i współpracownicy przeprowadzili serię trzech eksperymentów dotyczących wpływu norm opisowych i nakazowych na różne zachowania środowiskowe (ponowne użycie ręczników) w dwóch kontekstach (hotel i apartament w oznaczonym czasie) (Schultz, Khazian, and Zaleski 2008) .
[ ] W odpowiedzi na Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) przeprowadzili serię laboratoryjnych eksperymentów w celu zbadania projektu rachunków za energię elektryczną. Oto, jak opisują to w sposób abstrakcyjny:
"W eksperymencie opartym na ankiecie każdy uczestnik widział hipotetyczny rachunek za energię elektryczną dla rodziny o stosunkowo wysokim zużyciu energii elektrycznej, obejmujący informacje o (a) użytkowaniu historycznym, (b) porównaniach z sąsiadami oraz (c) historycznym użytkowaniu z podziałem na urządzenia. Uczestnicy zobaczyli wszystkie typy informacji w jednym z trzech formatów, w tym (a) tabele, (b) wykresy słupkowe i (c) wykresy ikon. Opowiadamy o trzech głównych ustaleniach. Po pierwsze, konsumenci rozumieli każdy typ informacji o wykorzystaniu energii elektrycznej najbardziej, gdy został przedstawiony w tabeli, być może dlatego, że tabele ułatwiają proste czytanie w punktach. Po drugie, preferencje i zamiary oszczędzania energii elektrycznej były najsilniejsze dla historycznych informacji o użytkowaniu, niezależnie od formatu. Po trzecie, osoby z niższą znajomością energii rozumiały wszystkie informacje mniej. "
W przeciwieństwie do innych badań kontrolnych, głównym rezultatem zainteresowania Canfield, Bruin, and Wong-Parodi (2016) jest zachowanie, a nie faktyczne zachowanie. Jakie są mocne i słabe strony tego rodzaju badań w szerszym programie badawczym promującym oszczędzanie energii?
[ , ] Smith and Pell (2003) przedstawili satyryczną metaanalizę badań wykazujących skuteczność spadochronów. Stwierdzili:
"Podobnie jak w przypadku wielu interwencji mających na celu zapobieganie chorobie, skuteczność spadochronów nie została poddana rygorystycznej ocenie przy użyciu randomizowanych kontrolowanych badań klinicznych. Zwolennicy medycyny opartej na dowodach skrytykowali przyjęcie interwencji ocenianych za pomocą wyłącznie danych obserwacyjnych. Sądzimy, że każdy może zyskać, jeśli najbardziej radykalni protagoniści medycyny opartej na dowodach zorganizują i będą uczestniczyć w podwójnie ślepej, losowej, kontrolowanej przez placebo, próbie krzyżowej spadochronu. "
Napisz artykuł odpowiedni dla gazety o powszechnym czytaniu, taki jak New York Times , argumentując przeciwko fetyszyzacji dowodów eksperymentalnych. Podaj konkretne, konkretne przykłady. Wskazówka: Zobacz także Deaton (2010) i Bothwell et al. (2016) .
[ , , ] Estymatory różnicy w różnicach efektu leczenia mogą być dokładniejsze niż estymatory różnicowe. Napisz notatkę do inżyniera odpowiedzialnego za testowanie A / B w firmie z mediów społecznościowych, która rozpoczyna działalność, wyjaśniając wartość podejścia różnicowego w różnicach w prowadzeniu eksperymentu online. Notatka powinna zawierać stwierdzenie problemu, pewną intuicję dotyczącą warunków, w których estymator różnicy w różnicy przewyższy różnicę w średnim estymatorze i proste badanie symulacyjne.
[ , ] Gary Loveman był profesorem Harvard Business School, zanim został dyrektorem generalnym Harrah's, jednej z największych firm kasynowych na świecie. Kiedy przeniósł się do Harrah's, firma Loveman przekształciła firmę w program lojalnościowy typu "frequent flier", który zgromadził ogromne ilości danych na temat zachowań klientów. Oprócz tego stałego systemu pomiarowego firma rozpoczęła eksperymenty. Mogą na przykład przeprowadzić eksperyment, aby ocenić wpływ kuponu na bezpłatną noc w hotelu dla klientów o określonym wzroście hazardu. Oto jak Loveman opisał znaczenie eksperymentowania codziennych praktyk biznesowych Harrah:
"To tak, jakbyś nie nękał kobiet, nie kradniesz i musisz mieć grupę kontrolną. Jest to jedna z rzeczy, dla których możesz stracić pracę dla Harrah - nie prowadząc grupy kontrolnej. " (Manzi 2012, 146)
Napisz e-mail do nowego pracownika, wyjaśniając, dlaczego Loveman uważa, że tak ważne jest posiadanie grupy kontrolnej. Powinieneś spróbować podać przykład - rzeczywisty lub stworzony - aby zilustrować twój punkt widzenia.
[ , ] Nowy eksperyment ma na celu oszacowanie wpływu otrzymywania przypomnień o wiadomościach tekstowych na pobieranie szczepionki. Sto pięćdziesiąt klinik, z których każda ma 600 kwalifikujących się pacjentów, chętnie bierze udział. Każdy przychodnia, z którą chcesz pracować, ma stały koszt w wysokości 100 USD i kosztuje 1 USD za każdą wiadomość tekstową, którą chcesz wysłać. Ponadto wszelkie kliniki, z którymi współpracujesz, będą mierzyć wynik (niezależnie od tego, czy ktoś otrzymał szczepienie) za darmo. Załóżmy, że masz budżet w wysokości 1000 USD.
[ , ] Głównym problemem związanym z kursami online jest wyczerpanie: wielu uczniów, którzy rozpoczynają kursy, kończy działalność. Wyobraź sobie, że pracujesz na internetowej platformie edukacyjnej, a projektant na platformie stworzył wizualny pasek postępu, który według niej pomoże zapobiec opuszczaniu kursu przez uczniów. Chcesz przetestować wpływ paska postępu na uczniów w dużym kursie nauk społecznych. Po rozwiązaniu wszelkich problemów etycznych, które mogą pojawić się w eksperymencie, ty i twoi współpracownicy martwicie się, że kurs może nie mieć wystarczającej liczby studentów, aby rzetelnie wykryć efekty paska postępu. W poniższych obliczeniach można założyć, że połowa uczniów otrzyma pasek postępu, a połowa nie. Co więcej, możesz założyć, że nie ma żadnych zakłóceń. Innymi słowy, można założyć, że uczestnicy są uzależnieni od tego, czy otrzymali leczenie lub kontrolę; nie mają one wpływu na to, czy inne osoby otrzymały leczenie lub kontrolę (bardziej formalna definicja, patrz rozdział 8 Gerber and Green (2012) ). Śledź wszelkie dodatkowe założenia, które podejmujesz.
[ , , ] Wyobraź sobie, że pracujesz jako informatyk w firmie technologicznej. Ktoś z działu marketingu prosi o pomoc w ocenie eksperymentu, który planuje, aby zmierzyć zwrot z inwestycji (ROI) w nowej kampanii reklamowej online. ROI określa się jako zysk netto z kampanii podzielony przez koszt kampanii. Na przykład kampania, która nie miała wpływu na sprzedaż, uzyska zwrot z inwestycji w wysokości -100%; kampania, w której generowane zyski były równe kosztom, miałaby zwrot z inwestycji równy 0; a kampania, w której generowane zyski były dwa razy wyższe, miałaby zwrot z inwestycji w wysokości 200%.
Przed uruchomieniem eksperymentu dział marketingu przekazuje następujące informacje na podstawie ich wcześniejszych badań (w rzeczywistości te wartości są typowe dla prawdziwych kampanii reklamowych online zgłoszonych w Lewis i Rao (2015) ):
Napisz notatkę oceniającą proponowany eksperyment. Twoja notatka powinna wykorzystywać dowody z symulacji, którą tworzysz, i powinna dotyczyć dwóch głównych kwestii: (1) Czy zaleciłbyś rozpoczęcie eksperymentu zgodnie z planem? Jeśli tak, dlaczego? Jeśli nie, dlaczego nie? Pamiętaj, aby jasno określić kryteria, których używasz do podjęcia tej decyzji. (2) Jaki rozmiar próbki poleciłbyś do tego eksperymentu? Ponownie, upewnij się, że masz jasność co do kryteriów, których używasz do podjęcia tej decyzji.
Dobra notatka zajmie się tym konkretnym przypadkiem; lepsza notatka zostanie uogólniona na podstawie tej sprawy w jeden sposób (np. pokaż, w jaki sposób decyzja zmienia się w zależności od wielkości efektu kampanii); a świetna notatka przedstawi w pełni uogólniony wynik. Twoja notatka powinna wykorzystywać wykresy, aby pomóc zilustrować twoje wyniki.
Oto dwie wskazówki. Po pierwsze, dział marketingu mógł dostarczyć ci niepotrzebnych informacji i prawdopodobnie nie dostarczył ci pewnych niezbędnych informacji. Po drugie, jeśli używasz R, pamiętaj, że funkcja rlnorm () nie działa tak, jak wielu ludzi się spodziewa.
Ta aktywność pozwoli ci ćwiczyć z analizą mocy, tworzyć symulacje i komunikować wyniki za pomocą słów i wykresów. Pomoże Ci to przeprowadzić analizę mocy dla dowolnego eksperymentu, a nie tylko eksperymenty mające na celu oszacowanie zwrotu z inwestycji. Ta aktywność zakłada, że masz trochę doświadczenia z testowaniem statystycznym i analizą mocy. Jeśli nie jesteś zaznajomiony z analizą mocy, polecam przeczytanie "A Power Primer" autorstwa Cohen (1992) .
Działanie to zostało zainspirowane pięknym dokumentem RA Lewis and Rao (2015) , który żywo ilustruje podstawowe statystyczne ograniczenia nawet masowych eksperymentów. Ich praca, która pierwotnie miała prowokacyjny tytuł "O prawie niemożliwym mierzeniu powrotu do reklamy", pokazuje, jak trudno jest zmierzyć zwrot z inwestycji w reklamy online, nawet przy cyfrowych eksperymentach z udziałem milionów klientów. Ogólnie rzecz biorąc, RA Lewis and Rao (2015) ilustrują fundamentalny fakt statystyczny, który jest szczególnie ważny w eksperymentach z cyfrowym wiekiem: ciężko jest oszacować małe efekty leczenia wśród hałaśliwych danych wynikowych.
[ , ] Wykonaj to samo, co poprzednie pytanie, ale zamiast symulacji powinieneś użyć wyników analitycznych.
[ , , ] Wykonaj to samo, co poprzednie pytanie, ale użyj wyników symulacji i wyników analitycznych.
[ , , ] Wyobraź sobie, że napisałeś notatkę opisaną powyżej, a ktoś z działu marketingu dostarcza jedną nową informację: oczekują korelacji 0.4 między sprzedażą przed eksperymentem i po nim. W jaki sposób zmienia to zalecenia w notatce? (Podpowiedź: patrz punkt 4.6.2, aby uzyskać więcej informacji na temat estymatora różnicy średnich i estymatora różnicy na różnice).
[ , ] Aby ocenić skuteczność nowego internetowego programu pomocy w zakresie zatrudnienia, uczelnia przeprowadziła losową próbę kontrolną wśród 10 000 studentów rozpoczynających ostatni rok nauki w szkole. Bezpłatna subskrypcja z unikalnymi informacjami logowania została wysłana za pośrednictwem ekskluzywnego zaproszenia e-mailowego do 5000 losowo wybranych studentów, podczas gdy pozostałe 5000 studentów było w grupie kontrolnej i nie było abonamentu. Dwanaście miesięcy później badanie uzupełniające (bez braku odpowiedzi) wykazało, że zarówno w grupach leczonych, jak i kontrolnych 70% studentów zapewniło zatrudnienie w pełnym wymiarze czasu w wybranej przez nich dziedzinie (tabela 4.6). Tak więc wydawało się, że usługa internetowa nie przyniosła żadnego efektu.
Jednak mądry naukowiec danych na uniwersytecie spojrzał na dane nieco bliżej i stwierdził, że tylko 20% studentów w grupie leczenia kiedykolwiek zalogował się na konto po otrzymaniu e-maila. Co więcej, i co nieco zaskakujące, wśród osób, które zalogowały się na stronie internetowej, tylko 60% miało zapewnione zatrudnienie w pełnym wymiarze czasu w wybranej przez siebie dziedzinie, która była niższa niż stawka dla osób, które nie zalogowały się i były niższe niż stawki dla osób. w warunku kontrolnym (tabela 4.7).
Podpowiedź: to pytanie wykracza poza tematykę omawianą w tym rozdziale, ale odnosi się do problemów typowych dla eksperymentów. Ten typ eksperymentalnego projektu jest czasami nazywany projektem zachęty, ponieważ uczestnicy są zachęcani do angażowania się w leczenie. Ten problem jest przykładem tego, co nazywa się jednostronną niezgodnością (patrz rozdział 5 Gerber and Green (2012) ).
[ Po dalszych badaniach okazało się, że eksperyment opisany w poprzednim pytaniu był jeszcze bardziej skomplikowany. Okazało się, że 10% osób w grupie kontrolnej zapłaciło za dostęp do usługi, a skończyło się to stopą zatrudnienia na poziomie 65% (tabela 4.8).
Podpowiedź: to pytanie wykracza poza tematykę omawianą w tym rozdziale, ale odnosi się do problemów typowych dla eksperymentów. Ten problem jest przykładem tego, co nazywa się dwustronną niezgodnością (patrz rozdział 6 Gerber and Green (2012) ).
Grupa | Rozmiar | Wskaźnik zatrudnienia |
---|---|---|
Udzielono dostępu do strony internetowej | 5000 | 70% |
Nie przyznano dostępu do strony internetowej | 5000 | 70% |
Grupa | Rozmiar | Wskaźnik zatrudnienia |
---|---|---|
Udzielono dostępu do strony i zalogowałem się | 1000 | 60% |
Udzielono dostępu do witryny i nigdy się nie zalogowałem | 4000 | 72,5% |
Nie przyznano dostępu do strony internetowej | 5000 | 70% |
Grupa | Rozmiar | Wskaźnik zatrudnienia |
---|---|---|
Udzielono dostępu do strony i zalogowałem się | 1000 | 60% |
Udzielono dostępu do witryny i nigdy się nie zalogowałem | 4000 | 72,5% |
Nie przyznano dostępu do strony internetowej i zapłacono za nią | 500 | 65% |
Nie uzyskał dostępu do strony internetowej i nie zapłacił za nią | 4500 | 70,56% |