A társadalmi kutatásban az oksági kérdések gyakran összetettek és bonyolultak. Az ok-okozati grafikonokon alapuló okság Imbens and Rubin (2015) alapjait lásd Pearl (2009) , valamint a potenciális kimenetelre alapuló Imbens and Rubin (2015) lásd: Imbens and Rubin (2015) . E két megközelítés összehasonlítására lásd: Morgan and Winship (2014) . Az összetévesztés meghatározására szolgáló hivatalos megközelítéssel kapcsolatban lásd VanderWeele and Shpitser (2013) .
Ebben a fejezetben létrehoztam egy olyan világos vonalat, amely a kísérleti és a nem kísérleti adatokból származó oksági becslések készítéséhez vezetett. Úgy gondolom azonban, hogy valójában a különbség homályosabb. Például mindenki elfogadja, hogy a dohányzás rákot okoz, még akkor sem, ha véletlenszerűen kontrollált kísérletet nem hajtottak végre, amely az embereket füstölte. A kiváló könyvhosszúságú kezelések, hogy ok-okozati becslések nem kísérleti adatokat lásd Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , és Dunning (2012) .
Freedman, Pisani, and Purves (2007) 1. és 2. fejezete egyértelműen bemutatja a kísérletek, az ellenőrzött kísérletek és a randomizált ellenőrzött kísérletek közötti különbségeket.
Manzi (2012) lenyűgöző és olvasható bevezetést nyújt a véletlenszerűen kontrollált kísérletek filozófiai és statisztikai alapjaiból. Emellett érdekes, valódi példákat mutat be az üzleti kísérletezés erejére. Issenberg (2012) lenyűgöző Issenberg (2012) nyújt a kísérletezéshez politikai kampányokban.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, valamint Athey and Imbens (2016b) jó bemutatkozást nyújtanak a kísérleti tervezés és elemzés statisztikai vonatkozásaihoz. Továbbá, vannak kiváló kezelések alkalmazása kísérletekben számos különböző területen: a gazdaság (Bardsley et al. 2009) , a szociológia (Willer and Walker 2007; Jackson and Cox 2013) , pszichológia (Aronson et al. 1989) , politológia (Morton and Williams 2010) és a szociálpolitika (Glennerster and Takavarasha 2013) .
A résztvevők toborzásának (pl. Mintavétel) fontosságát gyakran alábecsülik a kísérleti kutatások. Ha azonban a kezelés hatása a népességben heterogén, akkor a mintavétel kritikus. Longford (1999) világosan megfogalmazza ezt a pontot, amikor a kísérleteket kutató kutatókat mint véletlenszerű mintavételű lakossági felmérést támogatja.
Azt javasoltam, hogy folytatódjon a laboratóriumi és a helyszíni kísérletek között, és más kutatók részletesebb tipológiákat javasoltak, különösen azokat, amelyek különválasztják a különböző kísérleteket (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Számos tanulmány hasonlította össze a laboratóriumi és a helyszíni kísérleteket absztrakt módon (Falk and Heckman 2009; Cialdini 2009) valamint a politikai tudomány konkrét kísérleteinek eredményei (Coppock and Green 2015) , a közgazdaságtan (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , valamint a pszichológia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) egy szép kutatási tervet kínálnak a laboratóriumi és kísérleti eredmények összehasonlítására. Parigi, Santana, and Cook (2017) leírja, hogyan lehet az on-line kísérletek kombinálni a laboratóriumi és a helyszíni kísérletek néhány jellemzőjét.
A viselkedésüket megváltoztató résztvevők aggodalmát néha keresési hatásnak nevezik, pszichológiában (Orne 1962) és közgazdaságtanban (Zizzo 2010) . Bár leginkább laboratóriumi kísérletekhez társulnak, ugyanezek a problémák problémákat okozhatnak a helyszíni kísérletekben is. Valójában a keresleti hatásokat néha Hawthorne effektusnak is nevezik, amely a 1924-ben kezdődött híres megvilágítási kísérleteket a Western Electric Company Hawthorne Works-ban (Adair 1984; Levitt and List 2011) kezdte. Mind a keresleti hatások, mind a Hawthorne-hatás szorosan összefügg a 2. fejezetben tárgyalt reaktív mérés elképzelésével (lásd még Webb et al. (1966) ).
A terepi kísérleteknek hosszú története van a közgazdaságtanban (Levitt and List 2009) , a politológia (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , a pszichológia (Shadish 2002) és a közpolitika (Shadish and Cook 2009) . A társadalomtudomány egy olyan területe, ahol a helyszíni kísérletek gyorsan megjelentek, a nemzetközi fejlődés. A közgazdaságtanban végzett munka pozitív áttekintése érdekében lásd Banerjee and Duflo (2009) , és kritikai értékelést lásd Deaton (2010) . Ennek a munkának a felülvizsgálata a politizálásban lásd Humphreys and Weinstein (2009) . Végül a helyszíni kísérletekből eredő etikai kihívások a politikai tudomány (Humphreys 2015; Desposato 2016b) és a fejlesztésgazdaságtan (Baele 2013) összefüggésében merültek fel.
Ebben a részben javasoltam, hogy a kezelés előtti információ felhasználható a becsült hatások pontosságának javítására, de ennek a megközelítésnek van némi vitája; lásd Freedman (2008) , W. Lin (2013) , Berk et al. (2013) és Bloniarz et al. (2016) további információért.
Végül két másik típusú kísérletet végeznek a társadalomtudósok, akik nem illenek megfelelően a laboratóriumi dimenzió mentén: felmérési kísérletek és társadalmi kísérletek. A felmérési kísérletek olyan kísérletek, amelyek a meglévő felmérések infrastruktúráját használják, és összehasonlítják az ugyanazon kérdések alternatív változataira adott válaszokat (egyes felmérési kísérleteket a 3. fejezet ismerteti); A felmérési kísérletekről bővebben lásd Mutz (2011) . A társadalmi kísérletek olyan kísérletek, ahol a kezelés olyan szociálpolitika, amelyet csak egy kormány hajthat végre. A társadalmi kísérletek szorosan kapcsolódnak a programértékeléshez. További információ a szakpolitikai kísérletekben lásd Heckman and Smith (1995) , Orr (1998) és @ glennerster_running_2013.
Úgy döntöttem, hogy három fogalomra összpontosítok: az érvényesség, a kezelés hatásainak heterogenitása és a mechanizmusok. Ezek a fogalmak eltérő neveket tartalmaznak különböző területeken. Például a pszichológusok általában a mediátorokra és a moderátorokra koncentrálnak (Baron and Kenny 1986) . A mediátorok elképzelését az általam hívott mechanizmusok fogják fel, és a moderátorok elképzelését az általam külső érvényességnek nevezik (pl. A különböző kísérletek eredményei eltérőek lennének, ha különböző helyzetekben működnek) és a kezelési hatások heterogenitása ( pl. az embereknél nagyobb hatások, mint mások számára).
A kísérlet Schultz et al. (2007) bemutatja, hogy a társadalmi elméletek hogyan használhatók a hatékony beavatkozások megtervezésére. Az elméletnek a hatékony beavatkozások megtervezésében betöltött általánosabb érvével kapcsolatban lásd: Walton (2014) .
A belső és külső érvényesség fogalmát először Campbell (1957) mutatta be. Lásd: Shadish, Cook, and Campbell (2001) a statisztikai következtetés érvényességének, belső érvényességének, érvényességi konstrukciójának és külső érvényességének részletes Shadish, Cook, and Campbell (2001) .
A statisztikai következtetés érvényességével kapcsolatos kérdések áttekintése a Gerber and Green (2012) (a társadalomtudományi perspektívából), valamint az Imbens and Rubin (2015) statisztikai szempontból. A statisztikai következtetés érvényességének néhány olyan kérdése, amelyek kifejezetten az online helyszíni kísérletekben merülnek fel, olyan kérdéseket foglalnak magukban, mint például a számítási szempontból hatékony módszerek konfidenciaintervallumok létrehozására a függő adatokkal (Bakshy and Eckles 2013) .
Bonyolult helyszíni kísérletekben nehéz lehet a belső érvényességet biztosítani. Lásd például Gerber and Green (2000) , Imai (2005) és Gerber and Green (2005) vitát egy összetett kísérletezésről a szavazásról. Kohavi et al. (2012) és Kohavi et al. (2013) bemutatja az intervallum érvényességének kihívásait az online mező-kísérletekben.
A belső érvényesség egyik legfőbb veszélye a sikertelen véletlenszerűség lehetősége. A randomizációval kapcsolatos problémák felderítésének egyik lehetséges módja a kezelési és kontrollcsoportok megfigyelhető tulajdonságainak összehasonlítása. Ezt az összehasonlítást egyensúly-ellenőrzésnek nevezik. Lásd Hansen and Bowers (2008) statisztikai megközelítést a mérlegek ellenőrzésére Mutz and Pemantle (2015) az egyensúlyi ellenőrzésekkel kapcsolatos aggályokra vonatkozóan. Például egy mérlegellenőrzés segítségével Allcott (2011) bizonyítékot talált arra vonatkozóan, hogy a véletlenszerű kezelést nem hajtották végre helyesen három Opower kísérletben (lásd 2. táblázat, 2., 6. és 8. oldal). Más megközelítésekhez lásd az Imbens and Rubin (2015) 21. fejezetét.
A belső érvényességgel kapcsolatos egyéb fontos aggodalmak a következők: (1) egyoldalú nem teljesítés, ahol a kezelési csoportban nem mindenki ténylegesen megkapta a kezelést, (2) kétoldalú nem teljesítés, ahol a kezelési csoportban nem minden személy kapja meg a kezelést és néhány ember a kontrollcsoport megkapja a kezelést, (3) a lemorzsolódást, ahol bizonyos résztvevőknél nem mérik az eredményeket, és (4) interferenciát, ahol a kezelés a kezelési állapotban lévő emberektől az ellenőrzési állapotban lévő emberektől áthalad. Lásd Gerber and Green (2012) 5., 6., 7. és 8. fejezeteit.
A konstrukciós érvényességről bővebben lásd Westen and Rosenthal (2003) , valamint a nagy adatforrások konstrukciós érvényességéről Lazer (2015) és a könyv 2. fejezete.
A külső érvényesség egyik aspektusa az a beavatkozás, amelyben egy beavatkozást tesztelnek. Allcott (2015) gondos elméleti és empirikus kezelést nyújt a helyszíni szelekciós torzításról. Ezt a kérdést Deaton (2010) is tárgyalja. A külső érvényesség másik aspektusa az, hogy az azonos beavatkozás alternatív működése hasonló hatással jár-e. Ebben az esetben a Schultz et al. (2007) és Allcott (2011) azt mutatja, hogy a Opower kísérletek kisebb becsült hatással rendelkeztek, mint a Schultz és a kollégák eredeti kísérletei (1,7% vs. 5%). Allcott (2011) úgy vélte, hogy a nyomon követési kísérletek kisebb hatást fejtettek ki a kezelés eltérő módjai miatt: egy kézzel írt emoticon egy egyetem által támogatott tanulmány részeként, összehasonlítva egy nyomtatott emoticondal a tömeggyártás részeként jelentést készít egy villamosenergia-társaságról.
A terápiás kísérletek heterogenitásának kiváló áttekintése érdekében lásd a Gerber and Green (2012) 12. fejezetét. Az orvosi vizsgálatokban alkalmazott kezelési hatások heterogenitásának bemutatására lásd Kent and Hayward (2007) , Longford (1999) és Kravitz, Duan, and Braslow (2004) . A terápiás hatások heterogenitásának szempontjai általában az előkezelés jellemzőin alapuló különbségekre koncentrálnak. Ha a kezelés utáni eredményeken alapuló heterogenitás iránt érdeklődik, akkor bonyolultabb megközelítésekre van szükség, mint például a fő rétegződés (Frangakis and Rubin 2002) ; lásd: Page et al. (2015) felülvizsgálatra.
Számos kutató a lineáris regresszióval becsüli a kezelési hatások heterogenitását, de az újabb módszerek a gépi tanulásra támaszkodnak; lásd például: Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) és Athey and Imbens (2016a) .
Van némi szkepticizmus a hatások heterogenitásának megállapításairól a többszörös összehasonlítási problémák és a "halászat" miatt. Számos statisztikai megközelítés létezik, amely segíthet a többszörös összehasonlítással kapcsolatos aggodalmak kezelésére (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . A "halászat" egyik aggodalma a pszichológia (Nosek and Lakens 2014) , a politológia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , és a közgazdaságtan (Olken 2015) .
Costa and Kahn (2013) tanulmányában a kísérletben csak a háztartások fele kapcsolódhatna a demográfiai adatokhoz. Az ilyen részleteket érdeklő olvasóknak az eredeti dokumentumra kell vonatkozniuk.
A mechanizmusok hihetetlenül fontosak, de nagyon nehéz tanulmányozni. A mechanizmusokkal kapcsolatos kutatások szorosan kapcsolódnak a pszichológus mediátorok vizsgálatához (lásd még VanderWeele (2009) a két ötlet pontos összehasonlítására). A mechanizmusok megtalálására szolgáló statisztikai megközelítések, mint például a Baron and Kenny (1986) kidolgozott megközelítés, meglehetősen gyakoriak. Sajnálatos módon kiderül, hogy ezek az eljárások bizonyos erőteljes feltételezéseken (Bullock, Green, and Ha 2010) függenek (Bullock, Green, and Ha 2010) sok mechanizmus esetén szenvednek, ahogy sok helyzetben számíthat (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) és Imai and Yamamoto (2013) néhány javított statisztikai módszert kínálnak. Továbbá, a VanderWeele (2015) számos VanderWeele (2015) kezelést kínál számos fontos eredmény mellett, beleértve az érzékenység-elemzés átfogó megközelítését.
Egy külön megközelítés olyan kísérletekre összpontosít, amelyek közvetlenül próbálják manipulálni a mechanizmust (pl. A C-vitamin tengerészeknek). Sajnos számos társadalomtudományi környezetben gyakran több mechanizmus létezik, és nehéz olyan kezeléseket tervezni, amelyek megváltoztatják a változásokat anélkül, hogy megváltoztatnák a többieket. A kísérleti változtatások néhány megközelítését Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) és Pirlott and MacKinnon (2016) Ludwig, Kling, and Mullainathan (2011) Pirlott and MacKinnon (2016) , valamint Pirlott and MacKinnon (2016) .
A teljesen faktori kísérleteket végző kutatóknak többszörös hipotézisvizsgálattal kell foglalkozniuk; Lásd Fink, McConnell, and Vollmer (2014) és List, Shaikh, and Xu (2016) további információért.
Végül a mechanizmusok hosszú története van a tudományfilozófiában is, amint Hedström and Ylikoski (2010) leírja.
További tudnivalók a diszkrimináció mérésére vonatkozó levelező tanulmányok és ellenőrzési tanulmányok használatáról, lásd Pager (2007) .
A legegyszerûbb módja a résztvevõknek az építõ kísérletekhez való felvételéhez az Amazon Mechanical Turk (MTurk). Mivel a MTurk utánozza a hagyományos laboratóriumi kísérletek szempontjait - az emberek fizetése olyan feladatok elvégzésére, amelyeket nem szabad szabadon végezni - sok kutató kísérleti résztvevőként már kezdte használni a Türkest (a MTurk munkásokat), ami gyorsabb és olcsóbb adatgyűjtést eredményez, mint amit el lehet érni (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Általában a MTurk által felvett résztvevők használatának legnagyobb előnye logisztikus. Míg a laboratóriumi kísérletek hetekig tarthatnak, és a helyszíni kísérletek hónapokig is eltarthatnak a felállításhoz, a MTurk-ban felvett résztvevők kísérletei napokban futhatnak. Például Berinsky, Huber, and Lenz (2012) egy nap alatt képes 400 Berinsky, Huber, and Lenz (2012) felvenni, hogy részt vegyenek egy 8 perces kísérletben. Továbbá ezek a résztvevők szinte bármilyen célra (beleértve a felméréseket és a tömeges együttműködést is) lehet felvételre jutni, amint azt a 3. és 5. fejezetben tárgyaljuk. Ez a könnyű munkaerő-felvétel azt jelenti, hogy a kutatók gyors egymásutánban képesek egymással kapcsolatban álló kísérleteket végrehajtani.
Mielőtt felveszed a résztvevőket a MTurk-ról saját kísérleteidre, négy fontos dolog van, amit tudnod kell. Először is, sok kutatónak van egy nemspecifikus szkepticizmusa a Turkers-szel kapcsolatos kísérletekre. Mivel ez a szkepticizmus nem specifikus, nehéz ellenállni a bizonyítékokkal. Azonban több éves tanulmányok után Turkers segítségével most arra a következtetésre juthatunk, hogy ez a szkepticizmus nem különösebben indokolt. Számos tanulmányt végeztek a Turkers demográfiai és más populációk demográfiai összehasonlításával, és számos tanulmányt hasonlítottak össze a Turkers-szel és más populációkból származó kísérletek eredményével. Tekintettel az összes munkára, úgy gondolom, hogy a legjobb módja annak, hogy gondolkodj, az, hogy a Turkers egy ésszerű kényelmi minta, olyan, mint a diákok, de kicsit változatosabb (Berinsky, Huber, and Lenz 2012) . Így, ugyanúgy, ahogy a diákok ésszerű népesség néhány, de nem minden, kutatásra, a Turkers egy ésszerű népesség néhány, de nem minden kutatás számára. Ha Turkers-szel dolgozik, akkor érdemes több ilyen összehasonlító tanulmányt olvasni és megérteni az árnyalatokat.
Másodszor, a kutatók kidolgozták a legjobb gyakorlatokat a MTurk-kísérletek belső érvényességének növelésére, és meg kell tanulnunk ezekről a legjobb gyakorlatokról (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Például a Turkers-t használó kutatókat arra használják, hogy használják a szűrőket a figyelmetlen résztvevők eltávolítására (Berinsky, Margolis, and Sances 2014, 2016) (de lásd még DJ Hauser and Schwarz (2015b) , DJ Hauser and Schwarz (2015a) ). Ha nem veszi figyelembe a figyelmetlen résztvevőket, akkor a kezelés bármely hatása kimosható az általuk bevezetett zaj miatt, és a gyakorlatban a figyelmetlen résztvevők száma jelentős lehet. Huber és munkatársai (2012) kísérletében a résztvevők mintegy 30% -a nem sikerült az alapvető figyelmeztető szűrők körében. A Turkers-eknél gyakran felmerülő egyéb problémák nem naiv résztvevők (Chandler et al. 2015) és a lemorzsolódás (Zhou and Fishbach 2016) .
Harmadszor, a digitális kísérletek más formáihoz viszonyítva, a MTurk kísérletek nem skálázhatók; Stewart et al. (2015) becslése szerint a MTurk-ban adott időben csak mintegy 7000 ember van.
Végül tudnod kell, hogy a MTurk olyan közösség, amelynek saját szabályai és normái (Mason and Suri 2012) . Ugyanúgy, ahogy megpróbálnád megismerni egy olyan ország kultúráját, ahol kísérletedet folytatnod kellene, próbáld meg többet megtudni a Turkers kultúrájáról és normáiról (Salehi et al. 2015) . És tudnod kell, hogy a Turkers beszélni fog a kísérletről, ha valami nem megfelelő vagy etikát csinál (Gray et al. 2016) .
A MTurk hihetetlenül kényelmes módja annak, hogy résztvevőket vegyenek fel a kísérletekhez, függetlenül attól, hogy vannak-e laboratóriumi jellegűek, például a Huber, Hill, and Lenz (2012) , vagyis a Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , valamint Mao et al. (2016) .
Ha arra gondol, hogy megpróbálja létrehozni saját termékeit, azt javaslom, hogy olvassa el a MovieLens csoport által ajánlott tanácsokat Harperben Harper and Konstan (2015) . A tapasztalatok egyik legfontosabb betekintése, hogy minden sikeres projekthez sok, sok hiba van. A MovieLens csoport például olyan termékeket indított el, mint például a GopherAnswers, amelyek teljes hibák voltak (Harper and Konstan 2015) . Egy másik példa arra, hogy egy kutató egy termék előállítása során nem sikerült, Edward Castronova azon törekvése, hogy létrehozzon egy online játékot Arden-nek. A 250 000 dolláros finanszírozás ellenére a projekt flop volt (Baker 2008) . A GopherAnswers és az Arden projektek sajnos sokkal gyakoribbak, mint a MovieLens projektek.
Hallottam, hogy a Pasteur's Quadrant gyakran foglalkozik technikai cégekkel, és segít a kutatási erőfeszítésekben a Google-ban (Spector, Norvig, and Petrov 2012) .
A Bond és a kollégák tanulmánya (2012) szintén megpróbálja felismerni ezeknek a kezeléseknek a hatását a befogadók barátaira. A kísérlet kialakításának köszönhetően ezek a varratok nehezen tisztán detektálhatók; érdeklődő olvasóknak Bond et al. (2012) egy alaposabb megbeszélésre. Jones és munkatársai (2017) szintén nagyon hasonló kísérletet folytattak a 2012-es választások során. Ezek a kísérletek a politikatudományi kísérletek hosszú hagyományának részét képezik a szavazás ösztönzésére irányuló erőfeszítéseknek (Green and Gerber 2015) . Ezek a "get-out-the-vote" kísérletek gyakoriak, részben azért, mert a Pasteur kvadránsban vannak. Vagyis sok ember motiválta a szavazást, és a szavazás érdekes viselkedés lehet ahhoz, hogy általánosabb elméleteket vizsgáljon a viselkedésváltozásról és a társadalmi befolyásról.
A partnerekkel, például politikai pártokkal, nem kormányzati szervezetekkel és vállalkozásokkal folytatott helyszíni kísérletekről a Loewen, Rubenson, and Wantchekon (2010) , a JA List (2011) és a Gueron (2002) Loewen, Rubenson, and Wantchekon (2010) . Gondolatok arról, hogy a szervezetekkel való partnerségek hatással lehetnek a kutatási tervekre, lásd King et al. (2007) és Green, Calfano, and Aronow (2014) . A partnerség etikai kérdésekhez is vezethet, amint azt Humphreys (2015) és Nickerson and Hyde (2016) tárgyalja.
Ha meg akarsz csinálni egy elemzési tervet a kísérlet futtatása előtt, javasoljuk, hogy elolvassa a jelentési irányelvek olvasását. A CONSORT (Consolidated Standard Trials Reporting) iránymutatásokat az orvostudományban fejlesztették ki (Schulz et al. 2010) és a társadalomkutatásra módosították (Mayo-Wilson et al. 2013) . Az ehhez kapcsolódó iránymutatásokat a Journal of Experimental Political Science szerkesztői (Gerber et al. 2014) Mutz and Pemantle (2015) lásd még Mutz and Pemantle (2015) és Gerber et al. (2015) ). Végül a pszichológiában (APA Working Group 2008) kidolgozták a jelentéstételi iránymutatásokat, és lásd még Simmons, Nelson, and Simonsohn (2011) .
Ha létrehoz egy elemzési tervet, vegye fontolóra az előzetes regisztrációt, mert az előzetes regisztrálás növeli a többiek bizalmát az eredményeknél. Továbbá ha partnerrel dolgozik, akkor korlátozza partnere azon képességét, hogy megváltoztassa az elemzést az eredmények megtekintését követően. Az előregisztráció egyre gyakoribb a pszichológiában (Nosek and Lakens 2014) , a politológia (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) és a közgazdaságtan (Olken 2015) .
A Konstan and Chen (2007) valamint Chen and Konstan (2015) kifejezetten az on-line kísérletekhez nyújtott tanácsadást is bemutatják.
Amit az armada-stratégiának nevezek, néha programos kutatásnak nevezik; lásd Wilson, Aronson, and Carlsmith (2010) .
A MusicLab-kísérletekről további információkat a Salganik Salganik, Dodds, and Watts (2006) , a Salganik and Watts (2008) , a Salganik and Watts (2009b) , a Salganik and Watts (2009a) és a Salganik (2007) . További információk a győztes felvásárlási piacokról: Frank and Cook (1996) . Ha többet szeretne a szerencse és a képességek Mauboussin (2012) , lásd Mauboussin (2012) , Watts (2012) és Frank (2016) .
Van egy másik megközelítés a résztvevők kifizetéseinek kiküszöbölésére, amelyeket a kutatók óvatosan használhatnak: a kényeztetés. Számos online kísérletben a résztvevők alapvetően kísérletekre készülnek és soha nem kompenzáltak. Ennek a megközelítésnek a példái közé tartozik a Restivo és a van de Rijt (2012) kísérlete a Wikipédia és a Bond és a kolléga (2012) kísérletében a szavazatok ösztönzésére. Ezek a kísérletek valójában nem rendelkeznek nulla változó költséggel, inkább változó költséggel rendelkeznek a kutatók számára . Ilyen kísérletekben, még ha az egyes résztvevők költsége rendkívül kicsi, az összköltség igen nagy lehet. A masszív online kísérleteket folytató kutatók gyakran igazolják a kismértékű becsült hatások fontosságát, amikor azt mondják, hogy ezek a kis hatások sok ember számára fontosak lehetnek. Ugyanez a gondolkodás vonatkozik a kutatók által a résztvevőkre háruló költségekre. Ha a kísérlete egymillió embert okoz egy percig, akkor a kísérlet nem káros egy adott személyre, de összességében csaknem két évet veszített el.
A résztvevők számára egy nulla változó költségtérítés megteremtésének másik módja a lottó használata, amely a felmérési kutatásokban is felhasznált (Halpern et al. 2011) . Az élvezetes felhasználói élmények megtervezéséről bővebben lásd Toomim et al. (2011) . További információ a botok használatáról nullás változó költségű kísérletek létrehozásáról lásd: ( ??? ) .
A Russell and Burch (1959) által eredetileg javasolt három R a következő:
"Csere: a helyettesítő tudatos élő nagyobb állatok érzéketlen anyag. Csökkentését jelenti csökkentését felhasznált állatok számát, hogy információkat szerezzen az adott összeg és a pontosságot. Finomítás: bármely csökkenést a gyakorisága vagy súlyossága embertelen alkalmazott eljárások azok az állatok, amelyek még mindig kell használni. "
Az általam javasolt három R nem felülírja a 6. fejezetben leírt etikai alapelveket. Inkább ezek az alapelvek egyikeként kidolgozott verziója - a jótékonyság - kifejezetten az emberi kísérletek meghatározásakor.
Az érzelmi fertőzés kísérlet (Kramer, Guillory, and Hancock 2014) és az érzelmi fertőzés természetes kísérlet (Lorenzo Coviello et al. 2014) összehasonlításával az első R ("csere") összehasonlító (Lorenzo Coviello et al. 2014) néhány általános tanulságot tartalmaz az érintett kompromisszumokról a kísérletekről a természetes kísérletekre (és más megközelítésekre, például a nem kísérleti adatok kísérletezésének kísérletezésére irányuló kísérlethez) (lásd 2. fejezet). Az etikai előnyök mellett a kísérleti és a nem kísérleti vizsgálatokból történő áttérés lehetővé teszi a kutatók számára olyan kezelések tanulmányozását is, amelyek logisztikai szempontból nem képesek telepíteni. Mindazonáltal ezek az etikai és logisztikai előnyök költségesek. A természetes kísérletekben a kutatók kevésbé irányítják a dolgokat, mint a résztvevők toborzása, a randomizáció és a kezelés jellege. Például az esőzés egyik korlátozása kezelésként az, hogy mindkettő növeli a pozitivitást és csökkenti a negativitást. A kísérleti tanulmányban azonban Kramer és munkatársai képesek voltak egymástól függetlenül beállítani a pozitivitást és a negativitást. A Lorenzo Coviello et al. (2014) továbbfejlesztette L. Coviello, Fowler, and Franceschetti (2014) . Az instrumentális változók bemutatására, amely a Lorenzo Coviello et al. (2014) , lásd Angrist and Pischke (2009) (kevésbé formális) vagy Angrist, Imbens, and Rubin (1996) (formálisabb). Az instrumentális változók szkeptikus értékelését lásd Deaton (2010) , valamint a gyenge eszközökkel rendelkező instrumentális változók bemutatására (az eső gyenge eszköz), lásd Murray (2006) . Általánosságban elmondható, hogy a természetes kísérletek jó bevezetését a Dunning (2012) adta meg, míg Rosenbaum (2002) , ( ??? ) és Shadish, Cook, and Campbell (2001) jó ötleteket kínálnak a kísérletek nélküli oksági hatások becsléséhez.
A második R ("kifinomultság") tekintetében tudományos és logisztikai kompromisszumokról van szó, amikor fontolóra veszi, hogy az Emotional Contagion kialakítása megakadályozza a hozzászólások blokkolását a hozzászólások növelése érdekében. Például előfordulhat, hogy a hírforrás technikai megvalósítása lényegesen megkönnyíti azt a kísérletet, amelyben a bejegyzést blokkolja, nem pedig az, amelyikben fellendülnek (megjegyezzük, hogy a bejegyzések blokkolásával kapcsolatos kísérletet lehet végrehajtani rétegként a News Feed rendszer tetején, anélkül, hogy szükség lenne az alapul szolgáló rendszer megváltoztatására). Tudományosan azonban a kísérlet által tárgyalt elmélet nem mutatott egyértelműen egy tervet a másik felett. Sajnos nem tudok jelentős előzetes kutatásról a hírforrás tartalmának blokkolásának és növelésének viszonylagos érdemeiről. Továbbá nem láttam sok kutatást a finomító kezelésekről, hogy azok kevésbé károsak legyenek; Az egyik kivétel B. Jones and Feamster (2015) , amely az internetes cenzúra mérésének (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) vizsgálja (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) a 6. fejezetben az Encore-tanulmányban (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) kapcsolatban tárgyalt témát).
A harmadik R ("redukció") szempontjából a tradicionális teljesítményelemzés jó Cohen (1988) (könyv) és Cohen (1992) (cikk) adja, míg Gelman and Carlin (2014) kissé eltérő perspektívát kínálnak. Az előkezelési kovariátumok bekerülhetnek a kísérletek tervezési és elemzési szakaszába; A Gerber and Green (2012) 4. fejezete jó áttekintést ad mindkét megközelítésről, és Casella (2008) részletesebb kezelést nyújt. Az ilyen előkezelési információkat a véletlenszerű kezelésben használatos technikákat általában blokkolt kísérleti terveknek vagy rétegzett kísérleti terveknek nevezik (a terminológiát nem használják következetesen a közösségek egészében); Ezek a technikák szorosan kapcsolódnak a 3. fejezetben tárgyalt rétegzett mintavételi technikákhoz. Lásd Higgins, Sävje, and Sekhon (2016) . A kezelés előtti kovariánsok szintén szerepelhetnek az elemzési szakaszban. McKenzie (2012) vizsgálja a térbeli kísérletek elemzésének különbségét a különbségeket illetően. Lásd Carneiro, Lee, and Wilhelm (2016) további részleteket a különböző megközelítések közötti kompromisszumokról a kezelési hatások becsléseinek pontosságának növelése érdekében. Végül, amikor eldöntjük, hogy megpróbáljuk-e bevonni a kezelés előtti kovariánsokat a tervezés vagy elemzés szakaszában (vagy mindkettőben), van néhány tényező, amelyet fontolóra kell venni. Olyan környezetben, ahol a kutatók azt szeretnék bizonyítani, hogy nem "halászati" (Humphreys, Sierra, and Windt 2013) , hasznos lehet a pre-treatment covariates alkalmazása a tervezési szakaszban (Higgins, Sävje, and Sekhon 2016) . Azokban a helyzetekben, amikor a résztvevők egymás után érkeznek, különösen az on-line kísérletek során, a tervezési szakaszban előkezelési információk felhasználása logisztikailag nehéz lehet; lásd például Xie and Aurisset (2016) .
Érdemes megemlíteni egy kis intuíciót arról, hogy a differenciál-különbségek megközelítése miért lehet sokkal hatékonyabb, mint egy különbség az eszközben. Számos online kimenetel nagyon nagy eltérést mutat (lásd például RA Lewis and Rao (2015) és Lamb et al. (2015) ), és viszonylag stabilak az idő múlásával. Ebben az esetben a változás pontszámának lényegesen kisebb a varianciája, növelve a statisztikai teszt erejét. Ennek a megközelítésnek az egyik oka nem gyakoribb, hogy a digitális kor előtt nem volt gyakori a kezelés előtti eredmény. Egy konkrétabb módszer erre gondolni, hogy elképzel egy kísérletet annak mérésére, hogy egy adott testmozgás okoz-e testsúlycsökkenést. Ha differenciálódás-megközelítést alkalmazunk, akkor a becslés változékonysága a lakosság tömegének változékonyságából ered. Ha azonban különbséget különböztet meg, akkor a természetesen előforduló súlyváltozásokat eltávolítja, és könnyebben észlelheti a kezelés által okozott különbséget.
Végül pedig egy negyedik R: "repurpose" hozzáadását vettem figyelembe. Vagyis, ha a kutatók több kísérleti adatokkal találják magukat, mint amennyire szükségük van az eredeti kutatási kérdés megválaszolásához, akkor az adatokat új kérdéseket kell feltenniük. Képzeld el például, hogy Kramer és munkatársai különbség-különbség becslést alkalmaztak, és több adattal rendelkeztek, mint amire szükségük volt a kutatási kérdésük megválaszolásához. Ahelyett, hogy nem használnák az adatokat a lehető legteljesebb mértékben, megvizsgálták volna a hatás méretét az előkezelés érzelmi kifejezésének függvényében. Mint Schultz et al. (2007) találta, hogy a kezelés hatása különbözött a könnyű és nehéz felhasználók számára, talán a hírforrás hatásai különbözőek voltak azok számára, akik már inkább (vagy szomorú) üzeneteket küldtek. A repurposing halálhoz vezethet (Humphreys, Sierra, and Windt 2013) és "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , de ezek nagyrészt a becsületes beszámolók (Simmons, Nelson, and Simonsohn 2011) , az előzetes regisztrálás (Humphreys, Sierra, and Windt 2013) , valamint gépi tanulási módszerek, amelyek megkísérlik elkerülni a túlzott illeszkedést.