Klawisz:
[ , ] Berinsky i współpracownicy (2012) ocenia Mechanical Turk częściowo przez replikację trzy klasyczne eksperymenty. Replikować klasycznej azjatyckiej kadrowania choroba eksperyment Tversky and Kahneman (1981) . Czy Tversky wyniki meczu i Kahneman użytkownika? Czy Berinsky wyniki meczów i współpracowników? Co-jeśli coś, to nas uczy o używaniu Mechanical Turk do eksperymentów badawczych?
[ , ] W artykule trochę tongue-in-cheek zatytułowanej "Musimy zerwać," psycholog społeczny Robert Cialdini, jeden z autorów Schultz et al. (2007) , napisał, że było przejście na wcześniejszą emeryturę z pracy jako profesor, po części ze względu na wyzwania, z jakimi borykają się robi eksperymentów polowych w zakresie dyscypliny (psychologia), który głównie prowadzi eksperymenty laboratoryjne (Cialdini 2009) . Czytaj papier Cialdini, a napisać do niego e-mail, wzywając go do ponownego rozpatrzenia jego rozpad w świetle możliwości eksperymentów cyfrowych. Za pomocą konkretnych przykładów badawczych zajmujących się jego obawy.
[ ] W celu ustalenia, czy małe początkowe sukcesy lock-in lub zanikać, van de Rijt i wraz ze współpracownikami (2014) interweniował w czterech różnych systemach nadając sukces na losowo wybranych uczestników, a następnie zmierzyć długofalowe skutki tej arbitralnej sukcesu. Można myśleć o innych systemach, w których można uruchomić podobne eksperymenty? Oceny tych systemów w zakresie problematyki wartości naukowej, algorytmiczne zakłócającym (patrz rozdział 2), i etyki.
[ , ] Wyniki eksperymentu może zależeć od uczestników. Utwórz eksperyment, a następnie uruchomić go na Amazon Mechanical Turk (MTurk), używając dwóch różnych strategii rekrutacyjnych. Spróbuj wybrać eksperymentu i rekrutacji strategie tak, że wyniki będą tak różne, jak to możliwe. Na przykład, swoje strategie rekrutacyjne może być rekrutację uczestników rano i wieczorem lub w celu zrekompensowania uczestnikom wysokiego i niskiego wynagrodzenia. Tego rodzaju różnice w strategii rekrutacji może prowadzić do różnych basenów uczestników i różnych wyników doświadczalnych. Jak inaczej nie wyniki okazują? Co to mówi o prowadzenie eksperymentów na MTurk?
[ , , , ] Wyobraź sobie, że planowaliśmy Emotional Contagion studium (Kramer, Guillory, and Hancock 2014) . Użyj wyników z wcześniejszym badaniu obserwacyjnym przez Kramer (2012) określić liczbę uczestników w każdym stanie. Te dwa badania nie pasują idealnie więc należy wyraźnie wymienić wszystkie założenia, które sprawiają, że:
[ , , , ] Odpowiedź na pytanie powyżej, ale zamiast używać wcześniej badaniu obserwacyjnym przez Kramer (2012) wykorzystać wyniki z wcześniejszego eksperymentu naturalnego poprzez Coviello et al. (2014) .
[ ] Zarówno Rijt et al. (2014) oraz Margetts et al. (2011) zarówno przeprowadzać eksperymenty tego badania procesu osób podpisujących petycję. Porównać i projektowania i wyniki tych badań.
[ ] Dwyer, Maki, and Rothman (2015) przeprowadzili dwa doświadczenia polowe na temat relacji między normami społecznymi i proekologiczne zachowania. Oto streszczenie swojej pracy:
"Jak może być wykorzystany nauki psychologiczne, aby zachęcić proekologiczne zachowanie? W dwóch badaniach, interwencje mające na celu propagowanie zachowań oszczędzania energii w łazienkach publicznych zbadano wpływ norm opisowych i osobistej odpowiedzialności. W badaniu 1, status light (czyli włączone lub wyłączone) był manipulowany zanim ktoś wszedł niezajęte łazienkę publicznego, sygnalizując normę opisową dla tej okolicy. Uczestnicy byli znacznie bardziej prawdopodobne, aby włączyć światła wyłączyć, jeśli były one wyłączone, gdy weszli. W badaniu 2, dodatkowy warunek został zawarty w którym normą wyłączeniu światła została wykazana przez konfederat, ale uczestnicy nie byli sami odpowiedzialni za włączeniem. osobistej odpowiedzialności moderowany wpływu norm społecznych na zachowania; gdy uczestnicy nie były odpowiedzialne za włączanie światła, wpływ normą została zmniejszona. Wyniki te wskazują, w jaki sposób opisowy normy i odpowiedzialność osobista może regulować skuteczność proekologiczne interwencji. "
Przeczytaj swój papier i zaprojektować replikację badaniu 1.
[ , ] Opierając się na poprzednie pytanie, teraz przeprowadzić swój projekt.
[ ] Nastąpił znaczny debata o eksperymentach wykorzystujących uczestników rekrutowanych z Amazon Mechanical Turk. Równolegle nastąpił również znaczny debata o eksperymentach wykorzystujących uczestników rekrutowano licencjackich populacji uczniów. Napisz dwa-stronicową notatkę porównywanie i przeciwstawianie się Turkers i studentom jako badacze uczestników. Twoje porównanie powinno zawierać omówienie obu kwestiach naukowych i logistycznych.
[ Książka] Jim Manzi za Niekontrolowane (2012) Jest to wspaniałe wprowadzenie do potęgi doświadczeń w biznesie. W książce, którą przekazał tę historię:
"Byłem kiedyś na spotkaniu z prawdziwego geniusza biznesu, self-made miliarder, który miał głęboki, intuicyjny zaniżenie o mocy eksperymentów. Jego firma wydała znaczne środki stara się stworzyć wielkie Windows Store wyświetlacze, które przyciągają konsumentów i sprzedaż rośnie, jak konwencjonalnych mądrości powiedział powinny. Eksperci dokładnie przetestowane Design po projekcie, oraz w poszczególnych sesjach przeglądarki testu przez okres lat prowadzonego wykazujące brak znaczącej przyczynowy wpływ każdej nowej konstrukcji wyświetlacza ze sprzedaży. Senior i marketingiem kierownictwo spotkał się z prezesem dokonanie przeglądu tych historycznych wyników badań in toto. Po przedstawieniu wszystkich danych doświadczalnych, doszli do wniosku, że powszechne przekonanie, że niesłusznie, wyświetlone okno nie napędzają sprzedaż. Ich działanie było zalecane w celu zmniejszenia kosztów i wysiłków w tej dziedzinie. To dramatycznie wykazać zdolność eksperymentowania unieważnienia obiegowej. Odpowiedź CEO był prosty: "Mój wniosek jest taki, że projektanci nie są bardzo dobre." Jego rozwiązanie było zwiększenie wysiłków w zakresie projektowania sklepu wyświetlacza i uzyskać nowe osoby, aby to zrobić. " (Manzi 2012, 158–9)
Jaki rodzaj ważności jest troska CEO?
[ ] Opierając się na poprzednie pytanie, wyobraź sobie, że jesteś na spotkaniu, gdzie wyniki eksperymentów były omawiane. Jakie są cztery pytania, które można zadać, po jednym dla każdego rodzaju ważności (statystyczna, budowy, wewnętrznym i zewnętrznym)?
[ ] Bernedo, Ferraro, and Price (2014) bada wpływ siedmioletni interwencji oszczędzania wody opisaną w Ferraro, Miranda, and Price (2011) (patrz rysunek 4.10). W niniejszym dokumencie, Bernedo i współpracownicy starają się również zrozumieć mechanizm za efekt porównując zachowanie gospodarstw domowych, które mają i nie przeniósł się po zabiegu została dostarczona. Oznacza to, że mniej więcej, starają się sprawdzić, czy zabieg wpłynął do domu lub domu do wynajęcia.
[ ] W nawiązaniu do Schultz et al. (2007) , Schultz i jego współpracownicy wykonać serię trzech eksperymentów nad wpływem norm opisowych i wydanie nakazu w innym zachowaniem środowiska (ręcznik ponownego wykorzystania) w dwóch kontekstach (hotel i kondominium timeshare) (Schultz, Khazian, and Zaleski 2008) ,
[ ] W odpowiedzi na Schultz et al. (2007) , Canfield, Bruin, and Wong-Parodi (2016) przeprowadził serię eksperymentów laboratoryjnych, jak studiować projektowanie rachunki elektryczne. Oto jak opisują go w streszczeniu:
"W doświadczeniu ankietowego, każdy uczestnik widział hipotetyczny rachunki za energię elektryczną dla rodziny ze stosunkowo wysokim zużyciem energii elektrycznej, obejmujące informacje o: (a) stosowania historycznego, (b) porównanie do sąsiadów, oraz (c) wykorzystanie historycznych z podziałem urządzenia. Uczestnicy widział wszystkie rodzaje informacji w jednym z trzech formatów, w tym (a) tabele, (b) wykresy słupkowe, oraz (c) wykresy ikona. Zgłaszamy się na trzech głównych ustaleń. Po pierwsze, konsumenci rozumieć każdy rodzaj informacji, wykorzystania energii elektrycznej najbardziej kiedy to został przedstawiony w tabeli, może dlatego, że tabele ułatwiają prosty odczyt. Po drugie, preferencje i zamierzenia, aby oszczędzać energię elektryczną były najsilniejsze w historycznych informacjach użytkowania, niezależnie od formatu. Po trzecie, osoby z niższym umiejętności energii rozumieć wszelkie informacje mniej. "
W przeciwieństwie do innych badań następczych, głównym efektem zainteresowania Canfield, Bruin, and Wong-Parodi (2016) podano zachowanie nie rzeczywiste zachowanie. Jakie są mocne i słabe strony tego typu badania w szerszym programie badawczym promowanie oszczędności energii?
[ , ] Smith and Pell (2003) jest satyryczna Metaanaliza badań wykazujących skuteczność spadochronów. Konkludują:
"Podobnie jak w przypadku wielu interwencji mających na celu zapobieganie chorobom, skuteczność spadochronów nie został poddany rygorystycznej ocenie za pomocą randomizacją. Zwolennicy evidence-based medicine krytykowali przyjęcie interwencji ocenianych za pomocą tylko dane obserwacyjne. Uważamy, że każdy może korzystać, jeśli najbardziej radykalne Bohaterami evidence-based medicine zorganizował i uczestniczył w podwójnie ślepej próby, randomizowane, kontrolowane placebo, zwrotnica próbna spadochronu. "
Napisać felieton korzystne dla ogólnego czytelnictwa gazet, takich jak The New York Times, polemizując fetyszyzacji dowodów eksperymentalnych. Zapewnić konkretne konkretne przykłady. Podpowiedź: Patrz również Bothwell et al. (2016) oraz Deaton (2010)
[ , , ] Różnica-in-różnice estymatory o efekt leczenia może być bardziej precyzyjne niż Różnica-in-średnia estymatorów. Napisz notatkę do inżyniera odpowiedzialnego za testów A / B w firmie medialnej społecznych rozruchu wyjaśniając wartość podejścia Różnica-in-różnice na prowadzenie eksperymentu online. Notatka powinna zawierać oświadczenie problemu, trochę intuicji na temat warunków, w którym estymator Różnica-in-różnicą będzie wyprzedzić prognozy Różnica w swojej średniej i proste badanie symulacyjne.
[ , ] Gary Loveman był profesorem w Harvard Business School, zanim został CEO Harrah, jeden z największych firm w kasynie na świecie. Kiedy przeniósł się do Harrah, Loveman przekształcił firmę z częstego stałych klientów podobnego programu lojalnościowego, który zebrał ogromne ilości danych na temat zachowań klientów. Na górze tej Always-On systemu pomiarowego, firma rozpoczęła prowadzenie eksperymentów. Na przykład, mogą one przeprowadzić eksperyment, aby ocenić wpływ kupon na darmowego doby hotelowej dla klientów z określonym wzorem hazardu. Oto jak Loveman opisane znaczenie doświadczeń codziennych praktyk biznesowych Harrah:
"To tak, jakby nie nękać kobiety, nie kradnij, i masz mieć grupę kontrolną. Jest to jedna z rzeczy, które można stracić pracę przez co Harrah's-nie pracuje w grupie kontrolnej. " (Manzi 2012, 146)
Napisz e-maila do nowego pracownika wyjaśniającą, dlaczego Loveman myśli tak ważne jest, aby mieć grupę kontrolną. Należy starać się zawierać PRZYKŁAD albo prawdziwe lub wykonane do zilustrowania punkt.
[ , ] Ma nowy eksperyment w celu oszacowania wpływu odbierania wiadomości tekstowych przypomnienia na wychwyt szczepień. 150 klinik, każdy z 600 pacjentów kwalifikowanych, są chętni do udziału. Jest stałym kosztem 100 dolarów dla każdej klinice chcesz pracować, a to kosztuje 1 dolara za każdą wiadomość tekstową, którą chcesz wysłać. Ponadto, wszelkie klinik, które pracują z zmierzy wynik (czy ktoś otrzymał szczepienia) za darmo. Załóżmy, że masz budżet 1000 dolarów.
[ , ] Głównym problemem z kursów internetowych jest ścieranie; wielu studentów, które rozpoczynają kursy skończyć spada out. Wyobraź sobie, że pracujesz na platformie kształcenia online, a projektantem na platformie stworzył wizualny pasek postępu, że ona myśli, pomoże zapobiec upadkowi studentów z kursu. Chcesz przetestować działanie paska postępu na studentów w dużej obliczeniowe nauki społeczne kurs. Po rozwiązywaniu wszelkich problemów etycznych, które mogą powstać w eksperymencie, ty i twoi koledzy się martwić, że kurs może nie mieć wystarczająco dużo studentów niezawodnie wykrywać efekty pasku postępu. W obliczeniach poniżej was może założyć, że połowa studentów otrzyma pasek postępu, a połowa nie. Ponadto, można przyjąć, że nie ma zakłóceń. Innymi słowy, można przyjąć, że uczestnicy dotyczy tylko tego, czy otrzymali leczenie lub kontroli; nie są one realizowane według tego, czy inni ludzie otrzymali leczenie lub kontroli (dla bardziej formalnej definicji, patrz Gerber and Green (2012) , rozdz. 8). Proszę śledzić żadnych dodatkowych założeń, które można zrobić.
[ , ] W pięknym papierze, Lewis and Rao (2015) obrazowo ilustrują fundamentalne ograniczenie statystyczną nawet masywnych eksperymentów. Papier, który pierwotnie miał prowokacyjny tytuł "On the Near-niemożliwości pomiarowa powraca do reklamy" -shows jak trudno jest zmierzyć zwrot z inwestycji w reklamy online, nawet z udziałem cyfrowe eksperymenty miliony klientów. Bardziej ogólnie, papier wyraźnie pokazuje, że trudno jest oszacować małą skuteczność leczenia pośród hałaśliwych danych wynikowych. Albo stwierdził diffently, dokument pokazuje, że szacowane efekty leczenia będą miały duże przedziały ufności, gdy wpływ do standardowego odchylenia (\ (\ frac {\ Delta \ bar {r}} {\ sigma} \)) stosunek ten jest niewielki. Ważną ogóle lekcji z tego artykułu jest, że wyniki eksperymentów z małym stosunku do uderzenia standardzie odchylenie (np ROI kampanii reklamowych) będzie niezadowalająca. Twoim wyzwaniem będzie napisać notatkę do kogoś w dziale marketingu firmy evaluting planowany eksperyment mierzyć ROI z kampanii reklamowej. Notatka powinna być wspierana z wykresów z wynikami symulacji komputerowych.
Oto kilka informacji, które mogą tle trzeba. Wszystkie z tych wartości numerycznych jest typowa dla rzeczywistych eksperymentach Lewis and Rao (2015) :
ROI, klucz metryczny dla kampanii reklamowych on-line, jest zdefiniowana jako zysk netto z kampanii (zysk brutto z kosztami kampanii minus kampanii) podzielonej przez koszt kampanii. Na przykład kampania, która nie miała wpływu na sprzedaży miałoby ROI -100% i kampanię, w której zyski generowane były równe kosztom miałoby ROI 0.
średnie obroty na jednego klienta wynosi $ 7 o odchyleniu standardowym 75 $.
Oczekuje się, że kampania w celu zwiększenia sprzedaży o 0,35 $ na jednego klienta, który odpowiada na zwiększenie zysku z 0,175 $ za klienta. Innymi słowy, marża brutto wynosi 50%.
planowana wielkość eksperymentu 200,000 ludzi, z czego połowa w grupie leczonej, a połowa do grupy kontrolnej.
Koszt kampanii wynosi 0,14 $ na jednego uczestnika.
Napisz notatkę evaluting ten eksperyment. Czy poleciłbyś ten eksperyment rozpoczyna się zgodnie z planem? Jeśli tak, to dlaczego? Jeśli nie, jakie zmiany można polecić?
Dobrym notatka będzie dotyczyć tej konkretnej sprawy; lepsza nota będzie uogólnić z tej sprawy w jeden sposób (na przykład pokazują jak zmienia decyzji jako funkcji stosunku do uderzenia-standardowej dewiacji); i wielki notatka zaprezentuje pełni uogólnioną wynik.
[ , ] Czy taka sama jak w poprzednim pytaniu, ale zamiast symulacji należy użyć analitycznych wyników.
[ , , ] Czy taka sama jak w poprzednim pytaniu, ale używać zarówno symulacji i analitycznych wyników.
[ , , ] Wyobraź sobie, że masz napisane notatki opisanej powyżej przy użyciu symulacji, wyniki analityczne, albo obu, a ktoś z działu marketingu zaleca stosowanie estymator Różnica-in-różnice zamiast różnicy w środkach estymatora (patrz punkt 4.6.2) , Napisz nowy krótszy notatkę wyjaśniającą, w jaki sposób 0,4 korelacja między sprzedaży przed eksperymentem i sprzedaży po eksperymencie by zmienić swój wniosek.
[ , ] W celu oceny skuteczności nowego internetowego serwisu kariery, usługi biura karier uniwersytetu przeprowadzili randomizowane badanie kontroli wśród 10.000 uczniów rozpoczynających swój ostatni rok szkoły. Darmowy abonament o unikalnej informacji log-in został wysłany za pośrednictwem wyłącznego zaproszenie email do 5000 z losowo wybranych studentów, a pozostałe 5,000 uczniowie są w grupie kontrolnej i nie ma abonamentu. Dwanaście miesięcy później badanie follow-up (bez braku odpowiedzi) pokazuje, że w obu grupach leczonych i kontrolnych, 70% uczniów zostały zabezpieczone pełnym wymiarze czasu pracy w wybranej dziedzinie (tabela 4.5). Wydaje się więc, że usługa internetowa nie miał wpływu.
Jednak sprytny naukowiec danych na uniwersytecie spojrzał na dane nieco bliżej i okazało się, że tylko 20% studentów w grupie leczonej kiedykolwiek zalogować się na konto po otrzymaniu e-maila. Ponadto, i nieco zaskakująco, wśród tych, którzy zalogowali się na stronie tylko 60% z nich zabezpieczone pełnym wymiarze czasu pracy w wybranej dziedzinie, który był niższy niż w przypadku osób, które nie zalogować i niższe niż w przypadku osób w stan sterowania (tabela 4.6).
Podpowiedź: to pytanie wykracza poza materiałem objętym niniejszym rozdziale, ale rozwiązuje problemy wspólnych eksperymentów. Ten typ konstrukcji doświadczalnej jest czasami nazywany projekt zachęty, ponieważ uczestnicy są zachęcani do angażowania się w leczeniu. Problem ten jest przykładem tego, co nazywa jednostronna niezgodność (patrz Gerber and Green (2012) , rozdz. 5)
[ ] Po dalszej analizie, okazuje się, że eksperyment opisany w poprzednim pytaniu była jeszcze bardziej skomplikowana. Okazuje się, że 10% osób w grupie kontrolnej zapłacił za dostęp do usługi, a skończyło się ze wskaźnika zatrudnienia na poziomie 65% (tabela 4.7).
Podpowiedź: to pytanie wykracza poza materiałem objętym niniejszym rozdziale, ale rozwiązuje problemy wspólnych eksperymentów. Problem ten jest przykładem tego, co nazywa się dwustronne niezgodność (patrz Gerber and Green (2012) , rozdz. 6)
Grupa | Rozmiar | stopa zatrudnienia |
---|---|---|
Zapewniony dostęp do strony internetowej | 5000 | 70% |
Nie przyznano dostęp do strony internetowej | 5000 | 70% |
Grupa | Rozmiar | stopa zatrudnienia |
---|---|---|
Uzyskaniem dostępu do strony internetowej i zalogowany | 1000 | 60% |
Otrzymuje dostęp do strony internetowej i nie zalogowany | 4000 | 85% |
Nie przyznano dostęp do strony internetowej | 5000 | 70% |
Grupa | Rozmiar | stopa zatrudnienia |
---|---|---|
Uzyskaniem dostępu do strony internetowej i zalogowany | 1000 | 60% |
Otrzymuje dostęp do strony internetowej i nie zalogowany | 4000 | 72,5% |
Nie przyznano dostęp do strony internetowej i zapłaciłem za to | 500 | 65% |
Nie przyznano dostęp do strony internetowej i nie płacić za to | 4500 | 70,56% |