Pytania dotyczące związku przyczynowego w badaniach społecznych są często złożone i skomplikowane. Aby uzyskać fundamentalne podejście do związku przyczynowego w oparciu o wykresy przyczynowe, patrz Pearl (2009) i fundamentalne podejście oparte na potencjalnych wynikach, patrz Imbens and Rubin (2015) . Aby porównać te dwa podejścia, zobacz Morgan and Winship (2014) . Aby uzyskać formalne podejście do definiowania czynników zakłócających, zobacz VanderWeele and Shpitser (2013) .
W tym rozdziale stworzyłem coś, co wydawało się jasną linią między naszą zdolnością do dokonywania ocen przyczynowych z danych eksperymentalnych i nie-eksperymentalnych. Uważam jednak, że w rzeczywistości rozróżnienie jest bardziej rozmyte. Na przykład wszyscy akceptują, że palenie powoduje raka, nawet jeśli nie przeprowadzono żadnego randomizowanego kontrolowanego eksperymentu, który zmusza ludzi do palenia. W celu uzyskania doskonałych metod traktowania długości książek na podstawie danych niezwiązanych z eksperymentami patrz Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) oraz Dunning (2012) .
Rozdziały 1 i 2 Freedman, Pisani, and Purves (2007) stanowią wyraźne wprowadzenie do różnic między eksperymentami, kontrolowanymi eksperymentami i randomizowanymi kontrolowanymi eksperymentami.
Manzi (2012) stanowi fascynujący i czytelny wstęp do filozoficznych i statystycznych podstaw losowych kontrolowanych eksperymentów. Dostarcza także interesujących przykładów rzeczywistego potencjału eksperymentowania w biznesie. Issenberg (2012) stanowi fascynujące wprowadzenie do wykorzystania eksperymentów w kampaniach politycznych.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 oraz Athey and Imbens (2016b) zapewniają dobre wprowadzenie do statystycznych aspektów eksperymentalnego projektowania i analizy. Ponadto istnieją doskonałe metody wykorzystania eksperymentów w wielu różnych dziedzinach: ekonomii (Bardsley et al. 2009) , socjologii (Willer and Walker 2007; Jackson and Cox 2013) , psychologii (Aronson et al. 1989) , politologii (Morton and Williams 2010) oraz polityki społecznej (Glennerster and Takavarasha 2013) .
Znaczenie rekrutacji uczestników (np. Pobieranie próbek) jest często niedoceniane w badaniach eksperymentalnych. Jednakże, jeśli efekt leczenia jest heterogeniczny w populacji, to pobieranie próbek jest krytyczne. Longford (1999) wyraźnie to pokazuje, gdy opowiada się za badaczami, którzy myślą o eksperymentach jako badanie populacji z przypadkowym próbkowaniem.
Zasugerowałem, że istnieje ciągłość między eksperymentami laboratoryjnymi i polowymi, a inni badacze zaproponowali bardziej szczegółowe typologie, w szczególności te, które oddzielają różne formy eksperymentów terenowych (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
W wielu artykułach porównano eksperymenty laboratoryjne i terenowe w ujęciu abstrakcyjnym (Falk and Heckman 2009; Cialdini 2009) oraz pod względem wyników konkretnych eksperymentów w naukach politycznych (Coppock and Green 2015) , ekonomii (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) i psychologii (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) oferują przyjemny projekt badawczy do porównywania wyników z eksperymentów laboratoryjnych i terenowych. Parigi, Santana, and Cook (2017) opisują, jak eksperymenty polowe w terenie mogą łączyć pewne cechy eksperymentów laboratoryjnych i terenowych.
Obawy, że uczestnicy zmieniają swoje zachowanie, ponieważ wiedzą, że są uważnie obserwowani, są czasami określane mianem efektów popytowych i są studiowane w psychologii (Orne 1962) i ekonomii (Zizzo 2010) . Chociaż są one związane głównie z eksperymentami laboratoryjnymi, te same problemy mogą powodować problemy również w eksperymentach terenowych. W rzeczywistości efekty popytowe są również czasami nazywane efektami Hawthorne , które wywodzą się ze słynnych eksperymentów oświetleniowych, które rozpoczęły się w 1924 r. W pracach Hawthorne w Western Electric Company (Adair 1984; Levitt and List 2011) . Zarówno efekty zapotrzebowania, jak i efekty Hawthorne są ściśle związane z ideą pomiaru reaktywnego omówioną w rozdziale 2 (patrz także Webb et al. (1966) ).
Eksperymenty w terenie mają długą historię w ekonomii (Levitt and List 2009) , politologii (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychologii (Shadish 2002) i polityki publicznej (Shadish and Cook 2009) . Jednym z obszarów nauk społecznych, w którym szybko zaczęły dominować eksperymenty terenowe, jest rozwój międzynarodowy. Aby uzyskać pozytywny przegląd tej pracy w dziedzinie ekonomii, patrz Banerjee and Duflo (2009) , i dla krytycznej oceny patrz Deaton (2010) . Przegląd tych prac w politologii znajduje Humphreys and Weinstein (2009) . Wreszcie, wyzwania etyczne wynikające z eksperymentów terenowych zostały zbadane w kontekście nauk politycznych (Humphreys 2015; Desposato 2016b) i ekonomii rozwoju (Baele 2013) .
W tej części zasugerowałem, że informacje dotyczące leczenia wstępnego mogą być wykorzystywane do poprawy dokładności oszacowanych efektów leczenia, ale jest pewna debata na temat tego podejścia; patrz Freedman (2008) , W. Lin (2013) , Berk et al. (2013) oraz Bloniarz et al. (2016) aby uzyskać więcej informacji.
Wreszcie, istnieją dwa inne rodzaje eksperymentów przeprowadzanych przez naukowców społecznych, które nie pasują do siebie w wymiarze laboratoryjnym: eksperymenty badawcze i eksperymenty społeczne. Eksperymenty z ankietami są eksperymentami wykorzystującymi infrastrukturę istniejących ankiet i porównują odpowiedzi z alternatywnymi wersjami tych samych pytań (niektóre badania ankietowe przedstawiono w Rozdziale 3); więcej informacji na temat eksperymentów z Mutz (2011) znaleźć w Mutz (2011) . Eksperymenty społeczne to eksperymenty, w których leczenie jest polityką społeczną, którą może wdrożyć tylko rząd. Eksperymenty społeczne są ściśle związane z oceną programu. Więcej informacji na temat eksperymentów dotyczących polityki można znaleźć w: Heckman and Smith (1995) , Orr (1998) i @ glennerster_running_2013.
Postanowiłem skupić się na trzech koncepcjach: ważności, niejednorodności efektów leczenia i mechanizmach. Pojęcia te mają różne nazwy w różnych dziedzinach. Na przykład psychologowie mają tendencję do przekraczania prostych eksperymentów, skupiając się na mediatorach i moderatorach (Baron and Kenny 1986) . Idea mediatorów jest uchwycona przez to, co nazywam mechanizmami, a idea moderatorów jest wychwytywana przez to, co nazywam zewnętrzną trafnością (np. Czy wyniki eksperymentu byłyby inne, gdyby były prowadzone w różnych sytuacjach) i heterogeniczność efektów leczenia ( np. czy efekty są większe dla niektórych osób niż dla innych).
Eksperyment Schultz et al. (2007) pokazuje, w jaki sposób można wykorzystać teorie społeczne do projektowania skutecznych interwencji. Bardziej ogólny argument na temat roli teorii w projektowaniu skutecznych interwencji można znaleźć w Walton (2014) .
Koncepcje wewnętrznej i zewnętrznej trafności zostały po raz pierwszy przedstawione przez Campbell (1957) . Zobacz Shadish, Cook, and Campbell (2001) aby uzyskać bardziej szczegółową historię i starannie opracować trafność wniosków statystycznych, trafność wewnętrzną, trafność konstrukcji i trafność zewnętrzną.
Przegląd zagadnień związanych z trafnością wniosków statystycznych w eksperymentach można znaleźć w Gerber and Green (2012) (z perspektywy nauk społecznych) oraz Imbens and Rubin (2015) (z perspektywy statystycznej). Niektóre kwestie trafności wniosków statystycznych, które pojawiają się w szczególności w eksperymentach terenowych online, obejmują zagadnienia, takie jak wydajne obliczeniowo metody tworzenia przedziałów ufności z danymi zależnymi (Bakshy and Eckles 2013) .
Wewnętrzna trafność może być trudna do zapewnienia w złożonych eksperymentach terenowych. Zobacz na przykład Gerber and Green (2000) , Imai (2005) oraz Gerber and Green (2005) celu debaty na temat realizacji złożonego eksperymentu terenowego dotyczącego głosowania. Kohavi et al. (2012) i Kohavi et al. (2013) przedstawiają wprowadzenie do wyzwań związanych z okresowością w eksperymentach polowych online.
Jednym z głównych zagrożeń dla wewnętrznej ważności jest możliwość nieudanej randomizacji. Jednym z potencjalnych sposobów wykrywania problemów z randomizacją jest porównanie grup leczenia i kontroli pod względem obserwowalnych cech. Tego rodzaju porównanie nazywa się kontrolą równowagi . Zobacz Hansen and Bowers (2008) aby uzyskać statystyczne podejście do bilansowania czeków oraz Mutz and Pemantle (2015) aby uzyskać obawy dotyczące kontroli bilansu. Na przykład, używając testu równowagi, Allcott (2011) znalazł pewne dowody na to, że randomizacja nie została prawidłowo wdrożona w trzech eksperymentach Opower (patrz tabela 2, strony 2, 6 i 8). Inne podejścia można znaleźć w rozdziale 21 publikacji Imbens and Rubin (2015) .
Inne poważne obawy związane z wewnętrzną ważnością to: (1) jednostronna niezgodność, w której nie wszyscy w leczonej grupie faktycznie otrzymali leczenie, (2) dwustronna niezgodność, w której nie wszyscy w leczonej grupie otrzymują leczenie, a niektórzy w grupa kontrolna otrzymuje leczenie, (3) ścieranie, w którym wyniki nie są mierzone dla niektórych uczestników, oraz (4) ingerencja, gdy leczenie przelewa się od ludzi w stanie leczenia do osób w stanie kontrolnym. Zobacz rozdziały 5, 6, 7 i 8 Gerber and Green (2012) aby uzyskać więcej informacji na temat każdego z tych problemów.
Aby dowiedzieć się więcej na temat trafności konstrukcji, zobacz Westen and Rosenthal (2003) , a także więcej na temat zasadności konstruowania dużych źródeł danych, Lazer (2015) i rozdział 2 tej książki.
Jednym z aspektów zewnętrznej trafności jest ustawienie, w którym testowana jest interwencja. Allcott (2015) zapewnia staranne teoretyczne i empiryczne podejście do stron wyboru stron. Kwestia ta jest również omawiana przez Deaton (2010) . Innym aspektem zewnętrznej trafności jest to, czy alternatywne operacjonalizacje tej samej interwencji będą miały podobne skutki. W tym przypadku porównanie między Schultz et al. (2007) i Allcott (2011) pokazują, że eksperymenty Opower miały mniejszy szacowany efekt leczniczy niż oryginalne eksperymenty Schultza i współpracowników (1,7% w porównaniu z 5%). Allcott (2011) spekulował, że eksperymenty kontrolne miały mniejszy wpływ ze względu na różne sposoby leczenia: odręczną emotikonę jako część badania sponsorowanego przez uniwersytet, w porównaniu z drukowaną emotikonią jako częścią masowej produkcji raport od firmy energetycznej.
Aby uzyskać doskonały przegląd niejednorodności efektów leczenia w doświadczeniach polowych, patrz rozdział 12 Gerber and Green (2012) . W celu zapoznania się z niejednorodnością efektów leczenia w badaniach medycznych, patrz Kent and Hayward (2007) , Longford (1999) oraz Kravitz, Duan, and Braslow (2004) . Rozważania o niejednorodności efektów leczenia ogólnie koncentrują się na różnicach w oparciu o charakterystykę przed leczeniem. Jeśli interesuje Cię heterogeniczność w oparciu o wyniki po leczeniu, potrzebne są bardziej złożone podejścia, takie jak główna stratyfikacja (Frangakis and Rubin 2002) ; patrz Page et al. (2015) do przeglądu.
Wielu badaczy szacuje heterogeniczność efektów leczenia za pomocą regresji liniowej, ale nowsze metody opierają się na uczeniu maszynowym; patrz na przykład Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) oraz Athey and Imbens (2016a) .
Istnieje pewien sceptycyzm wobec wyników niejednorodności efektów z powodu problemów z wielokrotnym porównywaniem i "łowienia ryb". Istnieje wiele podejść statystycznych, które mogą pomóc w rozwiązaniu problemów dotyczących wielokrotnego porównywania (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Jednym z podejść do obaw o "łowienie ryb" jest rejestracja wstępna, która staje się coraz powszechniejsza w psychologii (Nosek and Lakens 2014) , politologia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomia (Olken 2015) .
W badaniu przeprowadzonym przez Costa and Kahn (2013) tylko około połowa gospodarstw domowych w eksperymencie mogła być powiązana z danymi demograficznymi. Czytelnicy zainteresowani tymi szczegółami powinni zapoznać się z oryginalnym artykułem.
Mechanizmy są niezwykle ważne, ale okazują się bardzo trudne do studiowania. Badania nad mechanizmami są ściśle związane z badaniem mediatorów w psychologii (ale zobacz także VanderWeele (2009) aby dokładnie porównać te dwie koncepcje). Statystyczne podejścia do mechanizmów wyszukiwania, takie jak podejście opracowane przez Baron and Kenny (1986) , są dość powszechne. Niestety, okazuje się, że procedury te zależą od pewnych silnych założeń (Bullock, Green, and Ha 2010) i cierpią, gdy istnieje wiele mechanizmów, jak można się było spodziewać w wielu sytuacjach (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) oraz Imai and Yamamoto (2013) oferują ulepszone metody statystyczne. Ponadto VanderWeele (2015) oferuje leczenie długości książki z kilkoma ważnymi wynikami, w tym kompleksowe podejście do analizy wrażliwości.
Odrębne podejście koncentruje się na eksperymentach, które próbują bezpośrednio manipulować mechanizmem (np. Dając marynarzom witaminę C). Niestety w wielu naukach społecznych często występuje wiele mechanizmów i ciężko jest zaprojektować leczenie, które zmienia jeden bez zmiany innych. Niektóre podejścia do eksperymentalnie zmieniających się mechanizmów opisali Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) oraz Pirlott and MacKinnon (2016) .
Badacze prowadzący w pełni eksperymenty czynnikowe będą musieli się martwić testowaniem wielu hipotez; zobacz Fink, McConnell, and Vollmer (2014) oraz List, Shaikh, and Xu (2016) aby uzyskać więcej informacji.
Wreszcie, mechanizmy mają długą historię w filozofii nauki opisanej przez Hedström and Ylikoski (2010) .
Więcej informacji na temat wykorzystania badań korespondencji i badań audytowych do pomiaru dyskryminacji znajduje się w Pager (2007) .
Najpopularniejszym sposobem rekrutowania uczestników do eksperymentów, które budujesz, jest Amazon Mechanical Turk (MTurk). Ponieważ MTurk naśladuje aspekty tradycyjnych eksperymentów laboratoryjnych - płacąc ludziom za wykonywanie zadań, których nie wykonaliby za darmo - wielu badaczy już zaczęło używać Turkerów (robotników na MTurku) jako uczestników eksperymentalnych, co skutkuje szybszym i tańszym gromadzeniem danych niż można osiągnąć w tradycyjnych eksperymentach laboratoryjnych na terenie kampusu (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Generalnie największe zalety korzystania z uczestników rekrutowanych z MTurku są logistyczne. Podczas gdy eksperymenty laboratoryjne mogą trwać kilka tygodni, a eksperymenty w terenie mogą trwać miesiące, można przeprowadzić eksperymenty z uczestnikami rekrutowanymi z MTurk w ciągu kilku dni. Na przykład Berinsky, Huber, and Lenz (2012) byli w stanie rekrutować 400 osób w ciągu jednego dnia, aby wziąć udział w 8-minutowym eksperymencie. Ponadto, ci uczestnicy mogą być rekrutowani do praktycznie dowolnego celu (w tym ankiet i masowej współpracy, jak omówiono w rozdziałach 3 i 5). Ta łatwość rekrutacji oznacza, że badacze mogą przeprowadzać sekwencje powiązanych eksperymentów w krótkim odstępie czasu.
Przed rekrutacją uczestników z MTurk do własnych eksperymentów, są cztery ważne rzeczy, które powinieneś wiedzieć. Po pierwsze, wielu badaczy ma niespecyficzny sceptycyzm eksperymentów z udziałem Turków. Ponieważ ten sceptycyzm nie jest specyficzny, trudno jest przeciwstawić się dowodom. Jednak po kilku latach badań nad Turkerem możemy teraz stwierdzić, że ten sceptycyzm nie jest szczególnie uzasadniony. Przeprowadzono wiele badań porównujących demografię Turkerów z danymi innych populacji i wiele badań porównujących wyniki eksperymentów z Turkami z innymi społecznościami. Biorąc pod uwagę wszystkie te prace, myślę, że najlepszym sposobem, aby o tym pomyśleć, jest to, że Turkery są rozsądną próbką wygody, podobnie jak studenci, ale nieco bardziej zróżnicowani (Berinsky, Huber, and Lenz 2012) . Tak więc, podobnie jak studenci są rozsądną populacją dla niektórych, ale nie wszystkich, badań, Turkery są rozsądną populacją dla niektórych, ale nie wszystkich, badań. Jeśli zamierzasz pracować z Turkerem, warto przeczytać wiele z tych badań porównawczych i zrozumieć ich niuanse.
Po drugie, naukowcy opracowali najlepsze praktyki mające na celu zwiększenie wewnętrznej trafności eksperymentów MTurk, a ty powinieneś poznać i przestrzegać tych najlepszych praktyk (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Na przykład, badacze używający Turkera są zachęcani do korzystania z badań przesiewowych w celu usunięcia nieuważnych uczestników (Berinsky, Margolis, and Sances 2014, 2016) (patrz także DJ Hauser and Schwarz (2015b) oraz DJ Hauser and Schwarz (2015a) ). Jeśli nie usuniesz nieuważnych uczestników, wówczas każdy efekt leczenia może zostać wypłukany przez hałas, który wprowadzają, a w praktyce liczba nieuważnych uczestników może być znaczna. W eksperymencie przeprowadzonym przez Huber i współpracowników (2012) Około 30% uczestników nie zdało podstawowych badań przesiewowych. Inne problemy, które często pojawiają się podczas używania Turkerów, to nie naiwni uczestnicy (Chandler et al. 2015) i zmęczenie (Zhou and Fishbach 2016) .
Po trzecie, w stosunku do innych form cyfrowych eksperymentów, eksperymenty MTurków nie mogą być skalowane; Stewart et al. (2015) szacują, że w danym momencie na MTurku jest tylko około 7000 osób.
Na koniec powinieneś wiedzieć, że MTurk to społeczność z własnymi zasadami i normami (Mason and Suri 2012) . W ten sam sposób, w jaki próbujesz dowiedzieć się o kulturze kraju, w którym miałeś przeprowadzić swoje eksperymenty, powinieneś spróbować dowiedzieć się więcej o kulturze i normach Turkerów (Salehi et al. 2015) . Powinieneś wiedzieć, że Turcy będą mówić o twoim eksperymencie, jeśli zrobisz coś niewłaściwego lub nieetycznego (Gray et al. 2016) .
MTurk jest niesamowicie wygodnym sposobem rekrutowania uczestników do twoich eksperymentów, czy to laboratoryjnych, takich jak Huber, Hill, and Lenz (2012) , czy bardziej polowych, takich jak te z Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) oraz Mao et al. (2016) .
Jeśli myślisz o próbie stworzenia własnego produktu, polecam zapoznać się z poradami oferowanymi przez grupę MovieLens w Harper and Konstan (2015) . Kluczowym wnioskiem z ich doświadczenia jest to, że w przypadku każdego udanego projektu występuje wiele, wiele błędów. Na przykład grupa MovieLens uruchomiła inne produkty, takie jak GopherAnswers, które zakończyły się niepowodzeniem (Harper and Konstan 2015) . Innym przykładem niepowodzenia badacza przy próbie zbudowania produktu jest próba stworzenia przez Edward Castronovą gry online o nazwie Arden. Pomimo 250 000 $ finansowania, projekt był flopem (Baker 2008) . Projekty takie jak GopherAnswers i Arden są niestety znacznie powszechniejsze niż projekty takie jak MovieLens.
Słyszałem, że idea kwadrantu Pasteura była często omawiana w firmach technologicznych i pomaga organizować prace badawcze w Google (Spector, Norvig, and Petrov 2012) .
Badanie Bonda i kolegów (2012) również próbuje wykryć wpływ tych terapii na przyjaciół tych, którzy je otrzymali. Ze względu na konstrukcję eksperymentu, te efekty uboczne są trudne do wykrycia w sposób czysty; zainteresowani czytelnicy powinni zobaczyć Bond et al. (2012) w celu dokładniejszej dyskusji. Jones i współpracownicy (2017) przeprowadzili również bardzo podobny eksperyment podczas wyborów w 2012 roku. Eksperymenty te stanowią część długiej tradycji eksperymentów w naukach politycznych dotyczących wysiłków na rzecz zachęcania do głosowania (Green and Gerber 2015) . Te eksperymenty z użyciem get-the-vote są częste, po części dlatego, że znajdują się w kwadrancie Pasteura. Oznacza to, że jest wielu ludzi, którzy są zmotywowani do zwiększenia liczby głosów, a głosowanie może być interesującym zachowaniem, aby przetestować bardziej ogólne teorie dotyczące zmiany zachowań i wpływów społecznych.
Aby uzyskać porady na temat przeprowadzania eksperymentów polowych z organizacjami partnerskimi, takimi jak partie polityczne, organizacje pozarządowe i przedsiębiorstwa, patrz: Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) i Gueron (2002) . Aby dowiedzieć się, jak partnerstwa z organizacjami mogą wpływać na projekty badawcze, zobacz King et al. (2007) i Green, Calfano, and Aronow (2014) . Partnerstwo może również prowadzić do kwestii etycznych, o czym rozmawiali Humphreys (2015) oraz Nickerson and Hyde (2016) .
Jeśli planujesz opracowanie planu analitycznego przed rozpoczęciem eksperymentu, zacznij od przeczytania wskazówek dotyczących raportowania. Wytyczne CONSORT (Consolidated Standard Reporting of Trials) opracowano w medycynie (Schulz et al. 2010) i zmodyfikowano do badań społecznych (Mayo-Wilson et al. 2013) . Powiązany zestaw wytycznych został opracowany przez redaktorów czasopisma Journal of Experimental Political Science (Gerber et al. 2014) (patrz także Mutz and Pemantle (2015) oraz Gerber et al. (2015) ). Wreszcie opracowano wytyczne dotyczące raportowania w psychologii (APA Working Group 2008) , zobacz także Simmons, Nelson, and Simonsohn (2011) .
Jeśli tworzysz plan analizy, powinieneś rozważyć wstępną rejestrację, ponieważ wstępna rejestracja zwiększy zaufanie innych osób do twoich wyników. Ponadto, jeśli pracujesz z partnerem, ograniczy to zdolność twojego partnera do zmiany analizy po zobaczeniu wyników. Rejestracja wstępna staje się coraz powszechniejsza w psychologii (Nosek and Lakens 2014) , politologii (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) i ekonomii (Olken 2015) .
Porady dotyczące projektowania specjalnie dla eksperymentów polowych są również przedstawione w Konstan and Chen (2007) oraz Chen and Konstan (2015) .
To, co nazwałem strategią Armada, jest czasami nazywane programowym badaniem ; patrz Wilson, Aronson, and Carlsmith (2010) .
Aby dowiedzieć się więcej na temat eksperymentów Salganik, Dodds, and Watts (2006) , zobacz Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) oraz Salganik (2007) . Więcej informacji na temat rynków, na których zwycięzca bierze wszystko, znajdziesz w artykule Frank and Cook (1996) . Aby uzyskać więcej informacji na temat rozplątywania szczęścia i umiejętności bardziej ogólnie, zobacz Mauboussin (2012) , Watts (2012) i Frank (2016) .
Istnieje inne podejście do eliminowania płatności uczestników, które naukowcy powinni stosować z rozwagą: pobór. W wielu eksperymentach polowych uczestnicy są w zasadzie wciągnięci w eksperymenty i nigdy ich nie rekompensują. Przykłady tego podejścia obejmują eksperyment Restivo i van de Rijta (2012) na temat nagród w Wikipedii i Bond oraz eksperyment koleżeński (2012) w zakresie zachęcania ludzi do głosowania. Te eksperymenty naprawdę nie mają zerowego kosztu zmiennego, a raczej mają zerowy zmienny koszt dla badaczy . W takich eksperymentach, nawet jeśli koszt dla każdego uczestnika jest bardzo mały, łączny koszt może być dość duży. Badacze przeprowadzający masowe eksperymenty online często uzasadniają znaczenie niewielkich szacowanych efektów leczenia, mówiąc, że te małe efekty mogą stać się ważne, gdy są stosowane u wielu osób. Dokładnie to samo dotyczy kosztów, które badacze nakładają na uczestników. Jeśli Twój eksperyment zmarnuje milion minut, eksperyment nie jest zbyt szkodliwy dla żadnej konkretnej osoby, ale w sumie stracił prawie dwa lata.
Innym podejściem do tworzenia płatności o zerowej zmiennej kwocie dla uczestników jest wykorzystanie loterii, podejścia, które również zastosowano w badaniach ankietowych (Halpern et al. 2011) . Aby uzyskać więcej informacji na temat projektowania przyjemnych doświadczeń użytkownika, zobacz Toomim et al. (2011) . Aby uzyskać więcej informacji o używaniu botów do tworzenia eksperymentów o zerowym koszcie zmiennym, patrz ( ??? ) .
Trzy R, jak pierwotnie zaproponowali Russell and Burch (1959) są następujące:
"Wymiana oznacza podstawienie dla świadomych żywych zwierząt wyższych materiału insentient. Zmniejszenie oznacza zmniejszenie liczby zwierząt wykorzystanych w celu uzyskania informacji o określonej wysokości i precyzji. Udoskonalenie oznacza każde zmniejszenie częstości występowania lub nasilenia nieludzkich procedur stosowanych do tych zwierząt, które wciąż muszą być wykorzystywane. "
Trzy proponowane przeze mnie R nie są nadrzędne względem zasad etycznych opisanych w rozdziale 6. Są raczej bardziej rozbudowaną wersją jednej z tych zasad - dobroczynności - konkretnie w kontekście ludzkich eksperymentów.
Jeśli chodzi o pierwsze R ("zastąpienie"), porównanie eksperymentu przenikania emocjonalnego (Kramer, Guillory, and Hancock 2014) oraz eksperymentu naturalnego z emocjonalną przenikliwością (Lorenzo Coviello et al. 2014) oferuje ogólne lekcje na temat kompromisów przejście od eksperymentów do naturalnych eksperymentów (i innych metod, takich jak dopasowanie, które próbują zbliżyć eksperymenty do danych niezwiązanych z eksperymentami, patrz rozdział 2). Oprócz korzyści etycznych przejście z badań eksperymentalnych na nieeksperymentalne umożliwia także naukowcom zbadanie metod leczenia, których nie można wdrożyć logistycznie. Te etyczne i logistyczne korzyści wiążą się jednak z kosztami. Dzięki naturalnym eksperymentom badacze mają mniejszą kontrolę nad takimi rzeczami jak rekrutacja uczestników, randomizacja i charakter leczenia. Na przykład, jednym ograniczeniem opadów w leczeniu jest to, że zarówno zwiększa pozytywność, jak i zmniejsza negatywność. W badaniu eksperymentalnym Kramer i współpracownicy byli jednak w stanie samodzielnie dostosować pozytywność i negatywność. Szczególne podejście zastosowane przez Lorenzo Coviello et al. (2014) został następnie opracowany przez L. Coviello, Fowler, and Franceschetti (2014) . Wprowadzenie do zmiennych instrumentalnych, które jest podejściem stosowanym przez Lorenzo Coviello et al. (2014) , patrz Angrist and Pischke (2009) (mniej formalny) lub Angrist, Imbens, and Rubin (1996) (bardziej formalny). Dla sceptycznej oceny zmiennych instrumentalnych, patrz Deaton (2010) , oraz wprowadzenie do zmiennych instrumentalnych przy słabych instrumentach (deszcz jest słabym instrumentem), patrz Murray (2006) . Mówiąc bardziej ogólnie, dobre wprowadzenie do naturalnych eksperymentów podaje Dunning (2012) , natomiast Rosenbaum (2002) , ( ??? ) oraz Shadish, Cook, and Campbell (2001) oferują dobre pomysły dotyczące szacowania przyczynowych efektów bez eksperymentów.
Jeśli chodzi o drugi R ("udoskonalenie"), istnieją naukowe i logistyczne kompromisy, gdy rozważa się zmianę projektu emocjonalnej kontagii z blokowania stanowisk na zwiększenie stanowisk. Na przykład może się zdarzyć, że techniczna implementacja kanału wiadomości sprawi, że znacznie łatwiej będzie zrobić eksperyment, w którym posty są blokowane, a nie takie, w których są one wspomagane (należy pamiętać, że eksperyment może obejmować blokowanie postów; jako warstwa na systemie News Feed bez potrzeby wprowadzania zmian w systemie bazowym). Z naukowego punktu widzenia teoria, której dotyczy eksperyment, nie sugerowała jednoznacznie jednego projektu nad drugim. Niestety, nie jestem świadomy znaczących wcześniejszych badań dotyczących względnych zalet blokowania i zwiększania zawartości w kanale informacyjnym. Ponadto, nie widziałem zbyt wielu badań nad oczyszczaniem zabiegów, aby uczynić je mniej szkodliwymi; jednym wyjątkiem jest B. Jones and Feamster (2015) , który rozważa przypadek pomiaru cenzury internetowej (temat, który B. Jones and Feamster (2015) w rozdziale 6 w związku z badaniem Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Pod względem trzeciego R ("redukcji"), dobre wprowadzenie do tradycyjnej analizy mocy są przedstawione przez Cohen (1988) (książka) i Cohen (1992) (artykuł), podczas gdy Gelman and Carlin (2014) oferują nieco inną perspektywę. Współczynniki towarzyszące wstępnej obróbce można uwzględnić na etapie projektowania i analizy eksperymentów; rozdział 4 Gerber and Green (2012) stanowi dobre wprowadzenie do obu podejść, a Casella (2008) zapewnia bardziej dogłębne traktowanie. Techniki, które wykorzystują tę informację przed rozpoczęciem leczenia w randomizacji, nazywane są zazwyczaj blokowanymi eksperymentalnymi projektami lub warstwowymi eksperymentalnymi projektami (terminologia nie jest konsekwentnie stosowana w społecznościach); techniki te są ściśle związane z technikami warstwowego próbkowania omówionymi w rozdziale 3. Zobacz Higgins, Sävje, and Sekhon (2016) aby dowiedzieć się więcej na temat wykorzystania tych projektów w masowych eksperymentach. Współczynniki obróbki wstępnej można również uwzględnić na etapie analizy. McKenzie (2012) bada bardziej szczegółowo różnice w analizie eksperymentów terenowych. Zobacz Carneiro, Lee, and Wilhelm (2016) aby uzyskać więcej informacji na temat kompromisów między różnymi podejściami, aby zwiększyć dokładność oszacowań efektów leczenia. Wreszcie, podejmując decyzję, czy spróbować uwzględnić współzmienne przed rozpoczęciem leczenia na etapie projektowania lub analizy (lub obu), należy wziąć pod uwagę kilka czynników. W warunkach, w których naukowcy chcą pokazać, że nie są "rybakami" (Humphreys, Sierra, and Windt 2013) , pomocne mogą być współzmienne przed leczeniem na etapie projektowania (Higgins, Sävje, and Sekhon 2016) . W sytuacjach, w których uczestnicy pojawiają się sekwencyjnie, w szczególności w trybie online, wykorzystanie informacji przed podaniem na etapie projektowania może być trudne z logistycznego punktu widzenia; patrz na przykład Xie and Aurisset (2016) .
Warto dodać trochę intuicji, dlaczego podejście różnicowe w różnicach może być o wiele bardziej skuteczne niż podejście różnicowe w jednym. Wiele wyników online ma bardzo wysoką wariancję (patrz np. RA Lewis and Rao (2015) oraz Lamb et al. (2015) ) i są stosunkowo stabilne w czasie. W takim przypadku wynik zmiany będzie miał znacznie mniejszą wariancję, co zwiększy siłę testu statystycznego. Jednym z powodów, dla którego podejście to nie jest stosowane częściej, jest fakt, że przed osiągnięciem wieku cyfrowego nie było powszechne uzyskiwanie wyników leczenia wstępnego. Bardziej konkretnym sposobem na przemyślenie tego jest wyobrażenie sobie eksperymentu, który pozwoli zmierzyć, czy określony program ćwiczeń powoduje utratę wagi. Jeśli przyjmiesz podejście oparte na różnicach w stanie, twoje oszacowanie będzie miało zmienność wynikającą ze zmienności wag w populacji. Jeśli jednak zastosujesz podejście różnicujące różnice, to naturalnie występująca zmiana wag zostanie usunięta i łatwiej będzie wykryć różnicę spowodowaną leczeniem.
W końcu rozważałem dodanie czwartego R: "repurpose". Oznacza to, że jeśli badacze znajdą więcej danych eksperymentalnych, niż potrzebują do rozwiązania pierwotnego pytania badawczego, powinni ponownie wykorzystać dane, aby zadać nowe pytania. Na przykład wyobraźmy sobie, że Kramer i współpracownicy wykorzystali estymator różnicy w różnicach i znaleźli więcej danych, niż potrzebowali, aby rozwiązać swoje pytanie badawcze. Zamiast nie wykorzystywać danych w najpełniejszym zakresie, mogli oni zbadać rozmiar tego efektu jako funkcję ekspresji emocjonalnej przed leczeniem. Podobnie jak Schultz et al. (2007) stwierdzili, że efekt leczenia był inny dla słabych i ciężkich użytkowników, być może efekty News Feed były inne dla osób, które już publikują szczęśliwe (lub smutne) wiadomości. Przeorganizowanie może prowadzić do "łowienia ryb" (Humphreys, Sierra, and Windt 2013) i "p-hackowania" (Simmons, Nelson, and Simonsohn 2011) , ale są one w dużej mierze adresowalne dzięki połączeniu uczciwej sprawozdawczości (Simmons, Nelson, and Simonsohn 2011) , rejestracja wstępna (Humphreys, Sierra, and Windt 2013) oraz metody uczenia maszynowego, które próbują uniknąć przepełnienia.