Spurningar um orsakasamband í félagslegum rannsóknum eru oft flóknar og flóknar. Fyrir grunnatriði nálgun á orsakasamhengi byggð á orsakatöflum, sjá Pearl (2009) og fyrir grunnatriði sem byggjast á hugsanlegum niðurstöðum, sjá Imbens and Rubin (2015) . Til samanburðar á þessum tveimur aðferðum, sjá Morgan and Winship (2014) . Fyrir formlega nálgun við að skilgreina confounder, sjá VanderWeele and Shpitser (2013) .
Í þessum kafla hefur ég búið til það sem virtist vera bjartur á milli getu okkar til að gera orsakatölur úr tilraunum og tilraunum sem ekki eru tilraunir. Hins vegar held ég að í raun er greinarmunurinn óskýrari. Til dæmis viðurkennir allir að reykingar valda krabbameini, jafnvel þótt engin slembiraðað samanburðarrannsókn sem veldur því að fólk reyki hafi einhvern tíma verið gert. Fyrir framúrskarandi Shadish, Cook, and Campbell (2001) meðferðir við að gera Shadish, Cook, and Campbell (2001) sjá Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) og Dunning (2012) .
Kafli 1 og 2 í Freedman, Pisani, and Purves (2007) bjóða upp á skýran kynningu á muninn á tilraunum, stýrðum tilraunum og slembiraðaðri tilraunum.
Manzi (2012) veitir heillandi og læsilegan kynningu á heimspekilegum og tölfræðilegum grundvelli slembiraðaðra stjórnunarrauna. Það veitir einnig áhugaverð dæmi um raunveruleikann í heiminum. Issenberg (2012) veitir heillandi kynningu á notkun tilraunar í pólitískum herferðum.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, og Athey and Imbens (2016b) veita góðar kynningar á tölfræðilegum þáttum tilraunahönnun og greiningu. Ennfremur eru framúrskarandi meðferðir á notkun tilrauna í mörgum mismunandi sviðum: Hagfræði (Bardsley et al. 2009) , félagsfræði (Willer and Walker 2007; Jackson and Cox 2013) , sálfræði (Aronson et al. 1989) , Stjórnmálafræði (Morton and Williams 2010) og félagsmálastefna (Glennerster and Takavarasha 2013) .
Mikilvægi þátttökuþátttakenda (td sýnatöku) er oft vanmetið í tilraunaverkefni. Hins vegar, ef áhrif meðferðarinnar eru ólík í hópnum, þá er sýnatöku mikilvægt. Longford (1999) gerir þetta atriði greinilega þegar hann talsmaður vísindamanna hugsar um tilraunir sem íbúakönnun með hóflegu sýnatöku.
Ég hef lagt til að samfelld sé milli rannsókna á rannsóknarstofu og á sviði, og aðrir vísindamenn hafa lagt til ítarlegri túlkana, einkum þær sem aðgreina mismunandi gerðir tilraunaverkefna (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Nokkrar blaðsíður hafa samanburði á rannsóknum á rannsóknum á lab og sviði í abstraktum (Falk and Heckman 2009; Cialdini 2009) og hvað varðar niðurstöður tiltekinna tilrauna í stjórnmálafræði (Coppock and Green 2015) , hagfræði (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) og sálfræði (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) bjóða upp á góða rannsóknarhönnun til að bera saman niðurstöður úr rannsóknum á rannsóknum og rannsóknum. Parigi, Santana, and Cook (2017) lýsa því hvernig áreynslan á netinu getur sameinað sum einkenni rannsókna á rannsóknarstofu og sviðum.
Áhyggjur af þátttakendum sem breyta hegðun sinni vegna þess að þeir vita að þeir eru í nánu eftirliti eru stundum kallaðar eftirspurnaráhrif og þeir hafa verið rannsakaðir í sálfræði (Orne 1962) og hagfræði (Zizzo 2010) . Þrátt fyrir að mestu leyti tengd við tilraunir í Lab, geta þessi sömu vandamál valdið vandræðum fyrir tilraunir á sviði. Í raun eru eftirspurnaráhrif einnig kallaðir Hawthorne áhrif , hugtak sem byggir á fræga lýsingu tilraunir sem hófust árið 1924 í Hawthorne Works í Western Electric Company (Adair 1984; Levitt and List 2011) . Bæði eftirspurnaráhrif og Hawthorne áhrif eru nátengd hugmyndinni um hvarfmælingu sem fjallað er um í kafla 2 (sjá einnig Webb et al. (1966) ).
Field experiments hafa langa sögu í hagfræði (Levitt and List 2009) , stjórnmálafræði (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , sálfræði (Shadish 2002) og almenningsstefnu (Shadish and Cook 2009) . Eitt svæði félagsvísinda þar sem tilraunir á sviði fljótt varð áberandi er alþjóðleg þróun. Til að jákvæð endurskoðun á þessu starfi innan efnahagsmála sé að finna í Banerjee and Duflo (2009) og fyrir gagnrýni er að finna Deaton (2010) . Til að endurskoða þessa vinnu í stjórnmálafræði, sjá Humphreys and Weinstein (2009) . Að lokum hefur verið leitað að siðferðilegum áskorunum í tengslum við (Humphreys 2015; Desposato 2016b) í tengslum við stjórnmálafræði (Humphreys 2015; Desposato 2016b) og þróunarhagfræði (Baele 2013) .
Í þessum kafla lagði ég til að hægt sé að nota formeðferð upplýsingar til að bæta nákvæmni áætlaðrar meðferðaráhrifa en það er einhver umræða um þessa nálgun; sjá Freedman (2008) , W. Lin (2013) , Berk et al. (2013) og Bloniarz et al. (2016) fyrir frekari upplýsingar.
Að lokum eru tveir aðrar gerðir tilrauna sem gerðar eru af félagsvísindamönnum sem ekki passa vel með lab-field víddinni: könnunartilraunum og félagslegum tilraunum. Könnunarspurningar eru tilraunir með því að nota innviði núverandi kannana og bera saman viðbrögð við öðrum útgáfum af sömu spurningum (sum könnunartilraun eru sett fram í kafla 3); til að fá frekari upplýsingar um rannsóknir, sjá Mutz (2011) . Félagslegar tilraunir eru tilraunir þar sem meðferðin er einhver félagsleg stefna sem aðeins er hægt að innleiða af stjórnvöldum. Félagsleg tilraun eru nátengd áætlunarmati. Fyrir frekari upplýsingar um stefnumótun, sjá Heckman and Smith (1995) , Orr (1998) og @ glennerster_running_2013.
Ég hef kosið að einbeita mér að þremur hugtökum: gildi, ólíkleiki meðferðaráhrifa og aðferða. Þessar hugmyndir hafa mismunandi nöfn á mismunandi sviðum. Til dæmis, sálfræðingar hafa tilhneigingu til að fara út fyrir einfaldar tilraunir með því að einbeita sér að sáttamönnum og stjórnendum (Baron and Kenny 1986) . Hugmyndin um sáttasemjari er tekin af því sem ég kalla á aðferðir og hugmyndin um stjórnendur er tekin af því sem ég kalla ytri gildi (td væri niðurstaðan tilrauninnar öðruvísi ef hún hlaupast í mismunandi aðstæðum) og ólíkleika meðferðaráhrifa ( td eru áhrifin stærri fyrir sumt fólk en fyrir aðra).
Tilraunin af Schultz et al. (2007) sýnir hvernig félagslegar kenningar geta verið notaðir til að hanna árangursríkar inngrip. Fyrir almennari rök um hlutverk kenningar við hönnun á árangursríkum inngripum, sjá Walton (2014) .
Hugmyndir innri og ytri gildis voru fyrst kynntar af Campbell (1957) . Sjá Shadish, Cook, and Campbell (2001) fyrir nánari sögu og vandlega útfærslu á tölfræðilegum niðurstöðum gildi, innri gildistíma, reisa gildi og ytri gildi.
Til að fá yfirlit yfir málefni sem tengjast gildi tölfræðilegrar niðurstöðu í tilraunum, sjá Gerber and Green (2012) (frá félagsvísindasýn) og Imbens and Rubin (2015) (úr tölfræðilegu sjónarmiði). Sum málefni tölfræðilegrar niðurstöðugildis sem koma sérstaklega fram við tilraunir á (Bakshy and Eckles 2013) fela í sér málefni eins og computationally duglegur aðferðir til að búa til sjálfstraust með (Bakshy and Eckles 2013) gögnum (Bakshy and Eckles 2013) .
Innri gildi getur verið erfitt að tryggja í flóknum reitarsýnum. Sjá til dæmis Gerber and Green (2000) , Imai (2005) og Gerber and Green (2005) til umræðu um framkvæmd flókinnar reitarkennslu um atkvæðagreiðslu. Kohavi et al. (2012) og Kohavi et al. (2013) veita kynningu á viðfangsefnum tímabilsins í rannsóknum á netinu.
Einn stór ógn við innri gildi er möguleiki á að mistókst slembival. Ein hugsanleg leið til að greina vandamál með slembiröðun er að bera saman meðferðar- og stjórnhópana á áberandi eiginleika. Þessi tegund af samanburði er kölluð jafnvægisskoðun . Sjá Hansen and Bowers (2008) um tölfræðilega nálgun um jafnvægisprófanir og Mutz and Pemantle (2015) um áhyggjur af jafnvægisskyni. Til dæmis, með því að nota jafnvægisskoðun, Allcott (2011) vísbendingar um að slembiröðun hafi ekki verið framkvæmd rétt í þremur Opower tilraunum (sjá töflu 2, staður 2, 6 og 8). Fyrir aðrar aðferðir, sjá kafla 21 í Imbens and Rubin (2015) .
Aðrir helstu áhyggjur sem tengjast innri gildi eru: (1) einhliða bilun, þar sem ekki allir í meðferðarlöndunum fengu meðferðina, (2) tvíhliða bilun, þar sem ekki eru allir í meðferðarhópnum meðhöndlaðir og sumir í eftirlitshópurinn fær meðferðina, 3) afnám, þar sem niðurstöður eru ekki mældar fyrir suma þátttakendur og (4) truflanir þar sem meðferðin gleypir frá fólki í meðferðarlíkaninu við fólk í stjórn ástandi. Sjá kafla 5, 6, 7 og 8 í Gerber and Green (2012) til að fá frekari upplýsingar um hvert af þessum málum.
Fyrir frekari upplýsingar um byggingargildi, sjá Westen and Rosenthal (2003) , og til að fá meiri upplýsingar um byggingu í stórum gögnum, Lazer (2015) og kafla 2 í þessari bók.
Einn þáttur utanaðkomandi gildis er stillingin þar sem íhlutun er prófuð. Allcott (2015) veitir nákvæma fræðilega og empirical meðferð á hlutdeildarsjónarmiðum. Þetta mál er einnig fjallað af Deaton (2010) . Annar þáttur utanaðkomandi gildis er hvort aðrar aðgerðir í sömu íhlutun hafi svipuð áhrif. Í þessu tilfelli er samanburður á Schultz et al. (2007) og Allcott (2011) sýna að Opower-tilraunirnar höfðu minni áætluð meðhöndluð áhrif en upphaflegar tilraunir Schultz og samstarfsmanna (1,7% á móti 5%). Allcott (2011) spáði því fyrir sér að eftirfylgni tilraunanna hafi minni áhrif vegna þess hvernig meðferðin var mismunandi: handskrifuð broskarljós sem hluti af rannsókn sem styrkt var af háskóla, samanborið við prentuð broskalla sem hluta af fjölbreyttu Skýrsla frá raforkufyrirtæki.
Til að fá framúrskarandi yfirsýn yfir ólíkleika meðferðaráhrifa í sviðsforsendum, sjá kafla 12 í Gerber and Green (2012) . Til að kynna ósamræmi meðferðaráhrifa í læknisfræðilegum rannsóknum, sjá Kent and Hayward (2007) , Longford (1999) og Kravitz, Duan, and Braslow (2004) . Íhugun á ólíkum meðferðaráhrifum byggir almennt á mismun á grundvelli formeðferðar einkenna. Ef þú hefur áhuga á fjölbreytileika byggð á niðurstöðum eftir meðferð, þá er þörf á flóknari aðferðum, svo sem aðalskipulagningu (Frangakis and Rubin 2002) ; sjá Page et al. (2015) fyrir endurskoðun.
Margir vísindamenn meta ólíkleika meðferðaráhrifa með línulegri afturhvarf, en nýrri aðferðir treysta á nám í vélinni; sjá, til dæmis, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) og Athey and Imbens (2016a) .
Það er einhver tortryggni um niðurstöður ólíkra áhrifa vegna margra samanburðarvandamála og "veiða". Það eru margvíslegar tölfræðilegar aðferðir sem geta hjálpað til við að takast á við áhyggjur af mörgum samanburðum (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ein nálgun við áhyggjur af "veiði" er fyrirframskráning, sem er að verða sífellt algengari í sálfræði (Nosek and Lakens 2014) , stjórnmálafræði (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , og hagfræði (Olken 2015) .
Í rannsókninni frá Costa and Kahn (2013) gætu aðeins um það bil helmingur heimilanna í tilrauninni verið tengd lýðfræðilegum upplýsingum. Lesendur sem hafa áhuga á þessum upplýsingum ættu að vísa til upprunalegu pappírsins.
Kerfi eru ótrúlega mikilvæg, en þau reynast mjög erfitt að læra. Rannsóknir á aðferðum eru nátengd rannsókn VanderWeele (2009) í sálfræði (en sjá einnig VanderWeele (2009) fyrir nákvæma samanburð á tveimur hugmyndum). Tölfræðilegar aðferðir við að finna leiðir, eins og aðferðin sem þróuð var í Baron and Kenny (1986) , eru nokkuð algengar. Því miður kemur í ljós að þessi verklagsreglur eru háð ákveðnum forsendum (Bullock, Green, and Ha 2010) og þjást þegar það eru margar leiðir, eins og maður gæti búist við í mörgum tilfellum (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) og Imai and Yamamoto (2013) bjóða upp á nokkrar betri tölfræðilegar aðferðir. Ennfremur býður VanderWeele (2015) upp á VanderWeele (2015) með fjölda mikilvægra niðurstaðna, þar á meðal alhliða nálgun á næmni greiningu.
Sérstök nálgun er lögð áhersla á tilraunir sem reyna að stjórna kerfinu beint (td að gefa sjómenn C-vítamín). Því miður eru margar leiðir í mörgum félagsvísindastöðum og erfitt er að hanna meðferðir sem breyta öðru án þess að breyta öðrum. Sumar aðferðir til að breyta tilraunum með tilraunum eru lýst af Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) og Pirlott and MacKinnon (2016) .
Vísindamenn sem hlaupa að fullu þátttakendur þurfa að hafa áhyggjur af mörgum tilgátum prófum; sjá Fink, McConnell, and Vollmer (2014) og List, Shaikh, and Xu (2016) til að fá frekari upplýsingar.
Að lokum hafa kerfi einnig langa sögu í heimspeki vísindanna eins og lýst er af Hedström and Ylikoski (2010) .
Nánari upplýsingar um notkun bréfaskipta og endurskoðunarrannsókna til að mæla mismunun sjá Pager (2007) .
Algengasta leiðin til að ráða þátttakendur í tilraunir sem þú byggir er Amazon Mechanical Turk (MTurk). Vegna þess að MTurk líkar eftir þætti hefðbundinna rannsókna á rannsóknarstofum - að borga fólki til að ljúka verkefnum sem þau myndu ekki gera fyrir frjáls, hafa margir vísindamenn þegar byrjað að nota túrkmenna (starfsmenn á MTurk) sem tilraunaþátttakendur, sem leiðir til hraðari og ódýrari gagnasöfnun en hægt er að ná í hefðbundnum rannsóknum á rannsóknarstofu á rannsóknarstofu (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Almennt eru stærstu kostir þess að nota þátttakendur sem eru ráðnir frá MTurk skipulögð. Þar sem rannsóknir á rannsóknum geta tekið nokkrar vikur til að hlaupa og áreynslusvæði geta tekið nokkra mánuði til að setja upp, er hægt að keyra tilraunir með þátttakendum sem eru ráðnir frá MTurk á dögum. Til dæmis, Berinsky, Huber, and Lenz (2012) voru fær um að ráða 400 einstaklinga á einum degi til að taka þátt í 8 mínútna tilraun. Ennfremur geta þessir þátttakendur verið ráðnir í nánast hvaða tilgangi sem er (þ.mt könnanir og fjöldamiðlun, eins og fjallað er um í kafla 3 og 5). Þessi vellíðan af nýliðun þýðir að vísindamenn geta keyrt röð tengdra tilrauna í hraðri röð.
Áður en þú nýtur þátttakenda frá MTurk fyrir eigin tilraunir, þá eru fjögur mikilvæg atriði sem þú þarft að vita. Í fyrsta lagi hafa margir vísindamenn ósýnilega tortryggni í tilraunum sem taka þátt í Túrkumönnum. Vegna þess að þessi tortryggni er ekki sérstök, er erfitt að vinna gegn sönnunargögnum. Hins vegar, eftir nokkurra ára rannsóknir með túrkumönnum, getum við nú ályktað að þessi tortryggni sé ekki sérstaklega réttlætanleg. Það hafa verið margar rannsóknir sem bera saman lýðfræði túrkmenna við aðra íbúa og margar rannsóknir sem bera saman niðurstöður tilrauna við túrkmenna vitsmuni frá öðrum hópum. Í ljósi þessa vinnu, held ég að besta leiðin fyrir þig til að hugsa um það er að túrkmenar eru sanngjarnt dæmi um þægindi, eins og nemendur en aðeins fjölbreyttari (Berinsky, Huber, and Lenz 2012) . Þannig, eins og nemendur eru hæfilegir íbúar fyrir suma, en ekki allir, rannsóknir, eru túrkirar hæfilegir íbúar fyrir suma, en ekki allir, rannsóknir. Ef þú ert að fara að vinna með Tyrklandi, þá er það skynsamlegt að lesa margar þessara samanburðarrannsókna og skilja blæbrigði þeirra.
Í öðru lagi hafa vísindamenn þróað bestu starfsvenjur til að auka innri gildi MTurk-tilrauna og þú ættir að læra um og fylgja þessum bestu starfsvenjum (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Til dæmis eru vísindamenn sem nota Túrkmenja hvattir til að nota skjávarpa til að fjarlægja (Berinsky, Margolis, and Sances 2014, 2016) þátttakendur (Berinsky, Margolis, and Sances 2014, 2016) (en sjá einnig DJ Hauser and Schwarz (2015b) og DJ Hauser and Schwarz (2015a) ). Ef þú fjarlægir ekki óþolinmóð þátttakendur, þá er hægt að þola hvaða áhrif meðhöndlunin er af því hávaða sem þau kynna og í reynd getur fjöldi óánægja þátttakenda verið veruleg. Í tilrauninni af Huber og samstarfsmönnum (2012) misstu um 30% þátttakenda undirstöðuatriðin. Önnur vandamál sem almennt koma upp þegar túrkmenar eru notaðir eru þátttakendur sem ekki eru barnlausir (Chandler et al. 2015) og afnám (Zhou and Fishbach 2016) .
Í þriðja lagi, miðað við nokkrar aðrar stafrænar tilraunir, geta MTurk tilraunir ekki náð Stewart et al. (2015) áætla að á hverjum tíma séu aðeins um 7.000 manns á MTurk.
Að lokum ættir þú að vita að MTurk er samfélag með eigin reglum og reglum (Mason and Suri 2012) . Á sama hátt og þú vilt reyna að finna út um menningu lands þar sem þú ætlar að keyra tilraunir þínar ættir þú að reyna að finna út meira um menningu og reglur Túrkmenna (Salehi et al. 2015) . Og þú ættir að vita að Túrkamenn vilja tala um tilraunina þína ef þú gerir eitthvað sem er óviðeigandi eða siðlaus (Gray et al. 2016) .
MTurk er ótrúlega þægileg leið til að ráða þátttakendum í tilraunir þínar, hvort sem þær eru líknarlífsþættir, eins og Huber, Hill, and Lenz (2012) , eða meira á sviði eins og Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) og Mao et al. (2016) .
Ef þú ert að hugsa um að reyna að búa til þína eigin vöru mælum við með að þú lesir ráðin sem MovieLens hópurinn býður í Harper and Konstan (2015) . Lykill innsýn frá reynslu þeirra er að fyrir hvert velgengt verkefni eru margar, margar mistök. Til dæmis hleypti MovieLens hópnum af stað aðrar vörur, svo sem GopherAnswers, sem voru fullkomnar bilanir (Harper and Konstan 2015) . Annað dæmi um að rannsóknir mistekist meðan reynt var að byggja vöru er að reyna Edward Castronova að byggja upp online leikur sem heitir Arden. Þrátt fyrir $ 250.000 í fjármögnun var verkefnið flop (Baker 2008) . Verkefni eins og GopherAnswers og Arden eru því miður mun algengari en verkefni eins og MovieLens.
Ég hef heyrt hugmyndina um Quadrant Pasteur rætt oft við tæknifyrirtæki og það hjálpar til við að skipuleggja rannsóknarverkefni hjá Google (Spector, Norvig, and Petrov 2012) .
Rannsókn bandalagsins og samstarfsmanna (2012) reynir einnig að greina áhrif þessara meðferða á vini þeirra sem fengu þau. Vegna hönnunar tilraunarinnar eru þessar spillingar erfitt að uppgötva hreint; áhuga lesendur ættu að sjá Bond et al. (2012) fyrir nánari umfjöllun. Jones og samstarfsmenn (2017) gerðu einnig mjög svipaðar tilraunir í 2012 kosningunum. Þessar tilraunir eru hluti af langa hefð tilrauna í stjórnmálafræði um aðgerðir til að hvetja til atkvæðagreiðslu (Green and Gerber 2015) . Þessar tilraunir til að koma í veg fyrir að kjósa er algeng, að hluta til vegna þess að þeir eru í Quadrant Pasteur. Það er, það eru margir sem eru hvattir til að auka atkvæðagreiðslu og atkvæðagreiðslu geta verið áhugaverðar hegðun til að prófa almennar kenningar um breytingu á hegðun og félagslegum áhrifum.
Til að fá ráðleggingar um Loewen, Rubenson, and Wantchekon (2010) með samstarfsaðilum, svo sem stjórnmálaflokkum, frjálsum félagasamtökum og fyrirtækjum, sjá Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) og Gueron (2002) . Fyrir hugsanir um hvernig samstarf við samtök geta haft áhrif á rannsóknir, sjá King et al. (2007) og Green, Calfano, and Aronow (2014) . Samstarf getur einnig leitt til siðferðilegra spurninga, eins og fjallað var um af Humphreys (2015) og Nickerson and Hyde (2016) .
Ef þú ert að fara að búa til greiningu áætlun áður en þú ert að keyra tilraun þína, mæli ég með að þú byrjar að lesa skýrslugjafarviðmiðanir. Viðmiðunarreglur CONSOR (Samstæðuprófanir á rannsóknum) voru þróaðar í læknisfræði (Schulz et al. 2010) og breytt í félagslegum rannsóknum (Mayo-Wilson et al. 2013) . Mutz and Pemantle (2015) hafa verið gerðar af ritstjórum Journal of Experimental Political Science (Gerber et al. 2014) (sjá einnig Mutz and Pemantle (2015) og Gerber et al. (2015) ). Að lokum hafa skýrslugjafarviðmiðanir verið þróaðar í sálfræði (APA Working Group 2008) og sjá einnig Simmons, Nelson, and Simonsohn (2011) .
Ef þú býrð til greiningaráætlun ættir þú að íhuga að skrá það áður vegna þess að fyrirframskráning mun auka það traust sem aðrir hafa í niðurstöðum þínum. Enn fremur, ef þú ert að vinna með maka, mun það takmarka getu samstarfsaðila til að breyta greiningunni eftir að niðurstöðurnar hafa verið skoðaðar. (Nosek and Lakens 2014) verða sífellt algengari í sálfræði (Nosek and Lakens 2014) , stjórnmálafræði (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) og hagfræði (Olken 2015) .
Hönnunarráðgjöf sérstaklega fyrir Konstan and Chen (2007) er einnig kynnt í Konstan and Chen (2007) og Chen and Konstan (2015) .
Það sem ég hef kallað Armada stefnu er stundum kallað forrita rannsóknir ; sjá Wilson, Aronson, and Carlsmith (2010) .
Fyrir meira á MusicLab tilraunum, sjá Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) og Salganik (2007) . Fyrir meira um sigurvegara-taka-alla mörkuðum, sjá Frank and Cook (1996) . Fyrir meira um untangling heppni og færni almennt, sjá Mauboussin (2012) , Watts (2012) og Frank (2016) .
Það er önnur aðferð við að útiloka þátttakendur greiðslur sem vísindamenn ættu að nota með varúð: umboð. Í mörgum rannsóknum á netinu á sviði eru þátttakendur grundvallaratriði í tilraunir og aldrei bættir. Dæmi um þessa nálgun eru Restivo og Van de Rijt (2012) tilraunin á verðlaun í Wikipedia og tilraun og samvinnuhóp (2012) til að hvetja fólk til að kjósa. Þessar tilraunir hafa í raun ekki núllbreytilegan kostnað, heldur hafa þeir núllbreytilegan kostnað fyrir vísindamenn . Í slíkum tilraunum, jafnvel þótt kostnaður fyrir hvern þátttakanda sé mjög lítill, getur heildarkostnaðurinn verið nokkuð stór. Vísindamenn sem keyra gríðarlega á netinu tilraunir réttlæta oft mikilvægi lítilla áætlaðrar meðferðaráhrifa með því að segja að þessi litla áhrif geta orðið mikilvæg þegar þau eru notuð hjá mörgum. Nákvæm sömu hugsun á við um kostnað sem vísindamenn leggja á þátttakendur. Ef tilraunin veldur því að ein milljón manns eyðileggja eina mínútu, er tilraunin ekki mjög skaðleg fyrir tiltekna manneskju, en í samanburði hefur það sóað næstum tveimur árum.
Önnur nálgun við að búa til núllbreytilegan kostnað við þátttakendur er að nota happdrætti, nálgun sem einnig hefur verið notuð í könnunarrannsóknum (Halpern et al. 2011) . Nánari upplýsingar um hönnun skemmtilega notenda reynsla er að sjá Toomim et al. (2011) . Fyrir frekari upplýsingar um notkun bots til að búa til núll breytilegan kostnaðarsýning sjá ( ??? ) .
Þrír R'ar sem upphaflega voru lagðar fram af Russell and Burch (1959) eru sem hér segir:
"Skipti merkir staðinn fyrir meðvitund lifandi æðri dýrum af virkuðuvlíflausar efni. Reduction þýðir lækkun á fjölda dýra sem notuð eru til að fá upplýsingar um tiltekið magn og nákvæmni. Fágun merkir lækkun á tíðni eða alvarleika ómannúðlega aðferðum beitt þeim dýrum sem enn á eftir að nota. "
Þrír R, sem ég legg til, hunsa ekki siðferðisreglurnar sem lýst er í kafla 6. Frekar eru þær útfærðar útgáfu eitt af þessum meginreglum-góðsemi - sérstaklega við að setja mannlegar tilraunir.
Að því er varðar fyrsta R ("skipti"), samanburði á tilfinningalegum smitunarreynslu (Kramer, Guillory, and Hancock 2014) og tilfinningalegum smitandi náttúrulegri tilraun (Lorenzo Coviello et al. 2014) að flytja frá tilraunum til náttúrulegra tilrauna (og aðrar aðferðir eins og að passa við þessa tilraun til að samræma tilraunir í gögnum sem ekki eru tilraunir, sjá kafla 2). Auk þess að siðferðilegum ávinningi er einnig hægt að skipta úr tilraunum til rannsókna sem ekki eru tilraunir til rannsókna til að kanna meðferðir sem þeir eru ekki færir um að flytja. Þessar siðferðilegar og skipulagslegar ávinningar koma hins vegar á kostnað. Með náttúrulegum tilraunum hafa vísindamenn minni stjórn á hlutum eins og nýliðun þátttakenda, slembiröðun og eðli meðferðarinnar. Til dæmis er ein takmörkun á úrkomu sem meðferð að það bætir bæði jákvæðni og lækkar neikvæðni. Í tilraunaverkefninu voru Kramer og samstarfsmenn hins vegar fær um að breyta jákvæðni og neikvæðni sjálfstætt. Sú aðferð sem notuð er af Lorenzo Coviello et al. (2014) var lengra útfærð af L. Coviello, Fowler, and Franceschetti (2014) . Fyrir kynningu á hljóðfæraleikum, sem er nálgunin sem notuð er af Lorenzo Coviello et al. (2014) , sjá Angrist and Pischke (2009) (minna formleg) eða Angrist, Imbens, and Rubin (1996) (formlegri). Til að fá efins mat á hljóðfæraleikum, sjá Deaton (2010) og til kynningar á hljóðfæraleikum með veikburða hljóðfæri (rigning er veikt hljóðfæri), sjá Murray (2006) . Almennt er góð kynning á náttúrulegum tilraunum gefnar af Dunning (2012) , en Rosenbaum (2002) , ( ??? ) og Shadish, Cook, and Campbell (2001) bjóða upp á góðar hugmyndir um að meta orsakatengd áhrif án tilrauna.
Hvað varðar seinni R ("hreinsun") eru vísindaleg og skipulagsleg afgreiðsla þegar um er að ræða breytingar á hönnun huglægrar smitunar frá því að stöðva innlegg til að auka færslur. Til dæmis getur verið að tæknileg framkvæmda á fréttavefnum sé að það sé verulega auðveldara að gera tilraun þar sem færslur eru læst frekar en einn þar sem þau eru aukin (athugaðu að tilraun sem felur í sér sljór staða gæti verið hrint í framkvæmd sem lag ofan á News Feed kerfið án þess að þörf sé á breytingum á undirliggjandi kerfi). Vísindalegt benti hins vegar ekki á kenningin sem tilraunin fjallaði um í greininni. Því miður er ég ekki meðvituð um verulegar fyrri rannsóknir um hlutfallslegar forsendur sljórar og eflingu efni í fréttastofunni. Einnig hef ég ekki séð mikið af rannsóknum á því að hreinsa meðferðir til að gera þau minna skaðleg. Ein undantekning er B. Jones and Feamster (2015) , sem telur málið að mæla netskoðunina (efni sem ég fjalla um í kafla 6 í tengslum við Encore rannsóknina (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Hvað varðar þriðja R ("lækkun") eru góðar kynningar á hefðbundnum orkugreiningum gefin af Cohen (1988) (bók) og Cohen (1992) (grein), en Gelman and Carlin (2014) bjóða upp á aðeins annað sjónarmið. Forsóknarrannsóknir geta komið fram í hönnunar- og greiningarstigi tilrauna; kafla 4 í Gerber and Green (2012) gefur góða kynningu á báðum aðferðum og Casella (2008) veitir dýpri meðferð. Tækni sem nota þessar upplýsingar um formeðferð í slembiröðun eru yfirleitt kallaðir annaðhvort lokað tilraunaverkefni eða stratified tilraunaverkefni (hugtökin eru ekki notuð samhliða samfélögum); Þessar aðferðir eru nátengdum stratified sýnatökuaðferðum sem fjallað er um í kafla 3. Sjá Higgins, Sävje, and Sekhon (2016) til að fá meiri upplýsingar um notkun þessarar hönnun í miklu tilraunum. Einnig má taka tillit til fyrirhugaðra rannsókna á greiningarstiginu. McKenzie (2012) skoðar mismun á milli mismunandi aðferða við greiningu á sviði tilrauna ítarlegri. Sjá Carneiro, Lee, and Wilhelm (2016) fyrir meira um afgreiðslu milli mismunandi aðferða til að auka nákvæmni í mati á meðferðaráhrifum. Að lokum, þegar ákveðið er hvort reyna skuli að taka tillit til fyrirhugaðra breytinga á hönnunar- eða greiningarstiginu (eða báðum), þá eru nokkur atriði sem þarf að íhuga. Í aðstöðu þar sem vísindamenn vilja sýna að þeir séu ekki "veiðar" (Humphreys, Sierra, and Windt 2013) , getur verið gagnlegt að nota fyrirfram meðferð í hönnunarstiginu (Higgins, Sävje, and Sekhon 2016) . Í aðstæðum þar sem þátttakendur koma í röð, sérstaklega á netinu tilraunir á netinu, getur verið að erfitt sé að skipta um notkun upplýsinga fyrir meðferð á hönnunarstiginu; sjá, til dæmis, Xie and Aurisset (2016) .
Það er þess virði að bæta smá innsæi við af hverju ágreiningur milli mismunar og mismunar getur verið svo miklu meira árangursríkur en mismunur-í-þýðir einn. Margar niðurstöður á netinu hafa mjög mikla afbrigði (sjá td RA Lewis and Rao (2015) og Lamb et al. (2015) ) og eru tiltölulega stöðugar með tímanum. Í þessu tilfelli mun breytingaskorinn hafa verulega minni afbrigði og auka kraft tölfræðilegrar prófunar. Ein ástæða þess að þessi nálgun er ekki notuð oftar er að það var fyrir stafræna aldurinn, það var ekki algengt að fá fyrirfram meðferð. Betri leið til að hugsa um þetta er að ímynda sér tilraun til að mæla hvort tiltekin æfingaferli veldur þyngdartapi. Ef þú samþykkir mismunaraðferð, mun áætlun þín hafa breytileika sem stafar af breytileika í þyngd íbúa. Ef þú gerir greinarmun á aðferðum, þá er náttúrulega breytingin í þyngd fjarlægð og þú getur auðveldlega greint mismun sem stafar af meðferðinni.
Að lokum hugsaði ég að bæta við fjórða R: "repurpose". Það er ef vísindamenn finna sig með fleiri tilraunargögn en þeir þurfa að takast á við upprunalegu rannsóknarspurninguna, þá ættu þeir að endurskapa gögnin til að spyrja nýjar spurningar. Til dæmis, ímyndaðu þér að Kramer og samstarfsmenn hefðu notað mismunarmikilsmat og fundið sig með fleiri gögnum en þeir þurftu að takast á við rannsóknarspurninguna. Í stað þess að nota ekki gögnin að fullu, gætu þeir hafa rannsakað stærð áhrifa sem fall af tilfinningalegri tjáningu fyrir meðferð. Rétt eins og Schultz et al. (2007) ljós að áhrif meðferðarinnar voru ólíkar fyrir léttar og þungar notendur, ef til vill voru áhrif fréttastofnunarinnar ólíkar fyrir fólk sem þegar hafði tilhneigingu til að senda glaðan skilaboð. Repurposing gæti leitt til "veiða" (Humphreys, Sierra, and Windt 2013) og "p-hacking" (Simmons, Nelson, and Simonsohn 2011) en þetta er að mestu aðgengileg með samsetningu heiðarlegrar skýrslugerðar (Simmons, Nelson, and Simonsohn 2011) , fyrirfram skráning (Humphreys, Sierra, and Windt 2013) sem reyna að koma í veg fyrir ofmeti.