frekari athugasemd

Þessi hluti er hannað til að nota sem viðmiðun, frekar en að vera að lesa sem frásögn.

  • Inngangur (Kafli 4.1)

Spurningar um orsakasamhengi í félagslegri rannsóknir eru oft flóknar og flókinn. Fyrir foundational nálgun til orsakasamhengis byggir á orsakatengsl gröf, sjá Pearl (2009) , og að foundational nálgun byggir á hugsanlegum niðurstöðum, sjá Imbens and Rubin (2015) (og tæknilega viðbætinum í þessum kafla). Samanburð milli þessara tveggja aðferða, sjá Morgan and Winship (2014) . Fyrir formlega nálgun við að skilgreina aukaþáttur, sjá VanderWeele and Shpitser (2013) .

Í kaflanum, sem ég búin hvað virtist eins björt línu á milli getu okkar til að gera orsakatengsl mat frá tilraunum og ekki tilrauninni gögnum. Í raun og veru, ég held að greinarmunur er blurrier. Til dæmis, allir viðurkennir að reykingar valdi krabbameini, jafnvel þó að við höfum aldrei gert slembaðri tilraun sem þvingar fólk til að reykja. Fyrir framúrskarandi meðferðir bók lengd um gerð orsakatengsl mat frá non-tilrauna gögn sjá Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , og Dunning (2012) .

2 af köflum 1 og Freedman, Pisani, and Purves (2007) bjóða upp á skýra aðflutning muninn tilraunum, stjórnað tilraunum, og slembiröðuðum tilraunir.

Manzi (2012) gefur heillandi og læsileg aðflutning heimspekileg og tölfræðilegar undirstöður slembuðum rannsóknum. Það veitir einnig áhugavert raunverulegur-veröld dæmi um kraft tilraunir í viðskiptum.

  • Hvað eru tilraunir? (Kafli 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) að veita góða kynningar á tölfræðilegum þáttum tilrauna hönnun og greiningu. Ennfremur eru framúrskarandi meðferðir á notkun tilrauna í mörgum mismunandi sviðum: hagfræði (Bardsley et al. 2009) , félagsfræði (Willer and Walker 2007; Jackson and Cox 2013) , sálfræði (Aronson et al. 1989) , Stjórnmálafræði (Morton and Williams 2010) , og félagsmálastefnu (Glennerster and Takavarasha 2013) .

The Mikilvægi þátttakanda nýliðun (td sýnatöku) er oft undir-þegið í tilrauna rannsóknum. Hins vegar, ef áhrif meðferðar er ólíkum meðal þjóðarinnar, þá er sýnatöku mikilvægt. Longford (1999) gerir þetta lið greinilega þegar hann mælir fyrir vísindamenn að hugsa um tilraunir sem könnun íbúa með haphazard sýnatöku.

  • Tvær víddir tilraunir: Lab-reit og analog-stafrænn (Kafli 4.3)

The tvískipting sem ég kynnti milli Lab og sviði tilrauna er dálítið einfölduð. Í raun hafa aðrir vísindamenn lagt nánari typologies, einkum þær sem aðskilja ýmsa tilraunir sviði (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Ennfremur, það eru tvær aðrar gerðir af tilraunum gerðar af félagslegum vísindamenn sem passa ekki nákvæmlega inn í Lab og sviði togstreita:. Könnun tilraunum og félagslega tilraunir Könnun tilraunir eru tilraunir með innviði núverandi kannanir og bera saman svör við val útgáfur af sömu spurningar (sumir könnun tilraunir eru kynntar í kafla 3); meira á tilraunum könnun sjá Mutz (2011) . Félagsleg tilraunir eru tilraunir þar sem meðferðin er einhver félagsleg stefna sem er aðeins hægt að innleiða með ríkisstjórn. Félagsleg tilraunir eru nátengd forrita mat. Frekari upplýsingar um stefnu tilraunum, sjá Orr (1998) , Glennerster and Takavarasha (2013) , og Heckman and Smith (1995) .

Ýmis blöð hafa borið saman Lab og sviði tilraunir í ágripi (Falk and Heckman 2009; Cialdini 2009) og hvað varðar útkomu einstakra tilrauna í stjórnmálafræði (Coppock and Green 2015) , hagfræði (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) og sálfræði (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) býður upp á gott rannsóknir hönnun fyrir því að bera saman niðurstöður úr Lab og sviði tilrauna.

Áhyggjur þátttakenda breyta hegðun sinni vegna þess að þeir vita að þeir eru að fylgjast vel með eru stundum kölluð eftirspurn áhrif, og þeir hafa verið rannsökuð í sálfræði (Orne 1962) og hagfræði (Zizzo 2009) . Þó aðallega í tengslum við Lab tilraunir, þessir sömu atriði geta valdið vandamálum fyrir tilraunum sviði eins og heilbrigður. Í raun, eftirspurn áhrifin eru einnig stundum kölluð Hawthorne áhrif, hugtak sem er dregið af vettvangsferð tilraun, sérstaklega fræga tilraunir lýsingu sem hófst árið 1924 á Hawthorne Works af Vestur Electric Company (Adair 1984; Levitt and List 2011) . Bæði eftirspurn áhrif og Hawthorn áhrif eru nátengd hugmyndinni um launafl mælingu rædd í kafla 2 (sjá einnig Webb et al. (1966) ).

Saga tilraunum sviði hefur verið lýst í hagfræði (Levitt and List 2009) , stjórnmálafræði (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , sálfræði (Shadish 2002) , og allsherjarreglu (Shadish and Cook 2009) . Eitt svæði félagsvísinda þar field tilraunir varð fljótt áberandi er alþjóðleg þróun. Fyrir jákvæða umfjöllun um þá vinnu innan hagfræðinnar sjá Banerjee and Duflo (2009) , og fyrir gagnrýnu mati skoða Deaton (2010) . Fyrir endurskoðun þessarar vinnu í stjórnmálafræði sjá Humphreys and Weinstein (2009) . Loks hafa siðferðileg viðfangsefni sem taka þátt með tilraunum sviði verið könnuð í stjórnmálafræði (Humphreys 2015; Desposato 2016b) og þróun hagfræði (Baele 2013) .

Í kaflanum, sem ég lagði til að upplýsingar formeðferð er hægt að nota til að bæta nákvæmni áætluðum meðferð áhrif, en það er einhver umræða um þessa nálgun: Freedman (2008) , Lin (2013) , og Berk et al. (2013) ; sjá Bloniarz et al. (2016) til að fá frekari upplýsingar.

  • Flytja út einföldum tilraunum (kafla 4.4)

Ég hef kosið að leggja áherslu á þrjú hugtök: Gildistími, misleitni áhrif meðferð og aðferðir. Þessi hugtök hafa mismunandi nöfn í mismunandi sviðum. Til dæmis, sálfræðingar hafa tilhneigingu til að fara út einfaldar tilraunir með áherslu á mediators og stjórnendur (Baron and Kenny 1986) . Hugmyndin mediators er tekin af því sem ég kalla kerfi, og hugmyndin um stjórnendur er tekin við það sem ég kalla ytri gildi (td myndi niðurstöður tilraunarinnar vera öðruvísi ef það var keyrt í mismunandi aðstæður) og misleitni áhrifum meðferðar ( td eru áhrifin stærri fyrir sumir fólk en annað fólk).

Tilrauna Schultz et al. (2007) sýnir hvernig félagsleg kenningar hægt er að nota til að hanna árangursríkar inngrip. Fyrir almennari rök um hlutverk kenningu í tilætlaðan árangur inngrip, sjá Walton (2014) .

  • Gildi (kafli 4.4.1)

Hugtökin innra og ytra réttmæti voru fyrst kynnt í Campbell (1957) . Sjá Shadish, Cook, and Campbell (2001) um nánari sögu og nákvæmu útfærslu tölfræðilegra niðurstöðu gildistíma, innra réttmæti, smíða gildi og ytri gildi.

Til að fá yfirlit yfir málefni sem tengjast tölfræðilegra niðurstöðu gildi í tilraunum sjá Gerber and Green (2012) (fyrir félagslega vísindi sjónarhorni) og Imbens and Rubin (2015) (til tölfræðilegrar sjónarhorni). Sum atriði tölfræðilegra niðurstöðu réttmæti sem verða sérstaklega í online tilraunum sviði eru málefni eins og computationally duglegur aðferðir til að búa til öryggisbil með ófjárráða gögn (Bakshy and Eckles 2013) .

Innri Gildistími getur verið erfitt að tryggja í flóknum tilraunum sviði. Sjá, til dæmis, Gerber and Green (2000) , Imai (2005) , og Gerber and Green (2005) fyrir umræðu um framkvæmd flókinna sviði tilraun um atkvæðagreiðslu. Kohavi et al. (2012) og Kohavi et al. (2013) veita aðflutning áskorunum bili gildistíma í online tilraunum sviði.

Eitt helsta áhyggjuefni með innri gildi er vandamál með slembiröðun. Ein leið til að hugsanlega greina vandamál með slembivali er að bera saman meðferð og samanburðarhópa á greinanlegum einkennum. Þessi konar samanburður er kallað jafnvægi athuga. Sjá Hansen and Bowers (2008) fyrir tölfræðilegum aðferðum til að koma jafnvægi eftirlit, og sjá Mutz and Pemantle (2015) fyrir áhyggjum jafnvægi athugunum. Til dæmis, með því að nota jafnvægi og athugaðu Allcott (2011) fann að það er einhver sönnun þess að slembival var ekki rétt útfærð í þremur tilraunum í sumum OPower tilrauna (sjá töflu 2, staður 2, 6, og 8). Fyrir aðrar aðferðir, sjá Imbens and Rubin (2015) , 21. kafli.

Aðrar helstu áhyggjur sem tengjast innri gildi eru: 1) einhliða ósamræmið, þar sem ekki allir í meðferðarhópnum fékk í raun meðferð, 2) tveggja hliða ósamræmið, þar sem ekki allir í meðferðarhópnum fær meðferð og sumir fólk í samanburðarhópnum fá meðferð, 3) attrition, þar niðurstöður eru ekki mæld í sumum þátttakendum, og 4) truflun, þar sem meðferðin hella yfir frá fólki í meðferð ástandi fólki í stjórn ástandi. Sjá Gerber and Green (2012) 8 meira um hvert af þessum málum köflum 5, 6, 7, og.

Frekari upplýsingar um reisa gildi, sjá Westen and Rosenthal (2003) , og meira um reisa gildi í stórum aðilum gögn, Lazer (2015) og 2. kafla þessarar bókar.

Einn þáttur í ytra réttmæti er stilling þar sem afskipta er prófaður. Allcott (2015) gefur nákvæmt fræðilegt og empirical meðferð síða val hlutdrægni. Þetta mál er einnig fjallað í Deaton (2010) . Auk þess að vera endurtaka í mörgum stöðum, Home Energy Report afskipta hefur einnig verið sjálfstætt rannsökuð af mörgum hópum rannsókna (td Ayres, Raseman, and Shih (2013) ).

  • Misleitni áhrif meðferðar (kafli 4.4.2)

Fyrir framúrskarandi yfirlit yfir fjölbreytileika meðferð áhrifum í tilraunum sviði, sjá kafla 12 um Gerber and Green (2012) . Fyrir inngangi að misleitni meðferð áhrifum í læknisfræðilegum rannsóknum, sjá Kent and Hayward (2007) , Longford (1999) , og Kravitz, Duan, and Braslow (2004) . Misleitni áhrif meðferðar yfirleitt áherslu á muninn á grundvelli eiginleika fyrir meðferð. Ef þú hefur áhuga á fjölbreytileika byggt á niðurstöðum eftir meðferð, þá flóknari approachs þarf svo sem skólastjóri lagskiptingu (Frangakis and Rubin 2002) ; sjá Page et al. (2015) um endurskoðun.

Margir vísindamenn áætla misleitni meðferð áhrifum með línulegri aðhvarfsgreiningu, en nýrri aðferðir treysta á vél nám, td Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , og Athey and Imbens (2016a) .

Það er einhver tortryggni um niðurstöður misleitni áhrifum vegna margra vandamála samanburður og "veiðar." Það eru ýmsar tölfræðilegar aðferðir sem geta hjálpað að takast á áhyggjum margra samanburðar (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ein aðferð til að áhyggjur um "veiði" er pre-skráning, sem er að verða æ algengari í sálfræði (Nosek and Lakens 2014) , stjórnmálafræði (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) og hagfræði (Olken 2015) .

Í rannsókn á Costa and Kahn (2013) aðeins um helmingur heimila í tilrauninni voru fær um að vera tengd við lýðfræðilegar upplýsingar. Lesendum sem hafa áhuga á smáatriði og hugsanleg vandamál með þessa greiningu ætti að vísa til upprunalegu pappír.

  • Aðferðir (kafli 4.4.3)

Aðferðir eru ótrúlega mikilvægt, en þeir snúa út að vera mjög erfitt að rannsaka. Rannsóknir um leiðir nátengd rannsókn á mediators í sálfræði (en sjá einnig VanderWeele (2009) fyrir nákvæmar samanburð milli tveggja hugmynda). Tölfræðilegar aðferðir til að finna kerfi, svo sem nálgun þróað í Baron and Kenny (1986) , eru alveg algengar. Því miður, snýr það út að slík málsmeðferð veltur á nokkrum sterkum forsendum (Bullock, Green, and Ha 2010) og þjást þegar það eru margar leiðir, eins og einn gæti búist við í mörgum tilfellum (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) og Imai and Yamamoto (2013) boðið upp á betri tölfræðilegum aðferðum. Ennfremur VanderWeele (2015) býður upp á bók lengd meðferðar með fjölda mikilvægra niðurstaðna, þ.mt alhliða nálgun til næmnigreiningu.

Sérstakur nálgun er lögð áhersla á tilraunum sem tilraun til að hagræða kerfi beint (td gefa sjómenn vítamín C). Því miður, í mörgum stillingum félagsvísinda eru oft margar leiðir og það er erfitt að hanna meðferðir sem breyta einu án þess að breyta öðrum. Sumir aðferðir til að reyna að breyta kerfi er lýst í Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , og Pirlott and MacKinnon (2016) .

Loks aðferðir hafa einnig langa sögu í vísindaheimspeki eins og lýst er af Hedström and Ylikoski (2010) .

  • Notuð eru umhverfi (kafli 4.5.1.1)

Fyrir meira um notkun rannsókna bréfaskipti og rannsóknir endurskoðunar til að mæla mismunun sjá Pager (2007) .

  • Byggja eigin tilraun þína (kafli 4.5.1.2)

Algengasta leiðin til að ráða þátttakendum að tilraunum sem þú byggja er Amazon Mechanical Turk (MTurk). Vegna MTurk líkir þættir hefðbundinna tilraunir-borga fólki Lab til að ljúka verkefni sem þeir myndu ekki gera fyrir frjáls-Margir vísindamenn hafa nú þegar farnir að nota Turkers (verkamenn á MTurk) sem þátttakendur í mönnum tilraunir leiða í safni en hefðbundin hraðari og ódýrari gögn á háskólasvæðinu rannsóknarstofu tilraunir (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Stærsta Styrkur tilraunum með þátttakendur fengnir frá MTurk eru skipulagningar, þeir leyfa vísindamenn að ráða þátttakendur fljótt og eins og þörf. En tilraunir á rannsóknastofum getur tekið vikur að keyra og sviði tilraunir getur tekið mánuði að setja upp, tilraunir með þátttakendur fengnir frá MTurk geta vera hlaupa á dögum. Til dæmis, Berinsky, Huber, and Lenz (2012) gátu að ráða 400 einstaklingum á einum degi til að taka þátt í 8 mínútna tilraun. Ennfremur, þessir þátttakendur geta verið ráðinn fyrir nánast hvaða tilgangi (þ.mt kannanir og massa samvinnu, eins og fjallað er um í 3. kafla og 5). Þessi vellíðan ráðningar þýðir að vísindamenn geta keyrt raðir tengdra tilraunir í hraðri röð.

Áður ráðningu þátttakendur frá MTurk fyrir eigin tilraunir þínar eru fjögur mikilvæg atriði sem þarf að vita. Í fyrsta lagi hafa margir fræðimenn a non-sérstakur tortryggni tilraunum sem felur í sér Turkers. Vegna þess að þetta tortryggni er ekki sérstakur, það er erfitt að vinna gegn með sönnunargögn. Hins vegar, eftir margra ára nám með Turkers, getum við nú álykta að þetta tortryggni er ekki sérstaklega nauðsynlegt. Það hafa verið margar rannsóknir bera saman Lýðfræði Turkers til annarra hópa og mörgum rannsóknum sem báru saman niðurstöður tilrauna með Turkers við niðurstöður úr öðrum hópum. Í ljósi alls þessa vinnu, ég held að besta leiðin fyrir þig til að hugsa um það er að Turkers eru eðlilegar þægindi sýni, líkt nemenda en örlítið fjölbreyttari (Berinsky, Huber, and Lenz 2012) . Svona, eins og nemendur eru eðlilegar íbúa fyrir suma en ekki alla á rannsóknum, Turkers eru eðlilegar íbúa fyrir suma en ekki alla rannsóknir. Ef þú ert að fara að vinna með Turkers, þá gerir það vit í að lesa að margir af þessum samanburðarrannsóknum og skilja blæbrigði þeirra.

Í öðru lagi, hafa vísindamenn þróað best leiðirnar til að auka innri gildi Turk tilraunum, og þú ættir að læra um og fylgja þessum best starfshætti (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Til dæmis, eru vísindamenn nota Turkers hvattir til að nota Uppáhald að fjarlægja inattentive þátttakendur (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (en sjá einnig DJ Hauser and Schwarz (2015b) og DJ Hauser and Schwarz (2015a) ). Ef þú fjarlægir ekki inattentive þátttakendur, þá hvaða áhrif meðferðar er hægt að þvo út af hávaða kynnt frá inattentive þátttakendum, og í reynd fjöldi inattentive þátttakenda getur verið umtalsverður. Í tilraun Huber og samstarfsmenn (2012) um 30% þátttakenda mistókst Basic Attention Uppáhald. Annað vandamál sameiginlegt með Turkers er ekki barnaleg þátttakendur (Chandler et al. 2015) .

Í þriðja lagi, miðað við sum önnur form stafræna tilraunir, MTurk tilraunir geta ekki mælikvarði; Stewart et al. (2015) áætlar að á hverjum tíma eru aðeins um 7.000 manns á MTurk.

Að lokum, þá ættir þú að vita að MTurk er samfélag með eigin reglum og venjum (Mason and Suri 2012) . Á sama hátt og þú myndi reyna að finna út um menningu landi þar sem þú varst að fara að keyra tilraunir þínar, ættir þú að reyna að finna út meira um menningu og venjum Turkers (Salehi et al. 2015) . Og, þú ættir að vita að Turkers verður að tala um tilraunina ef þú gerir eitthvað óviðeigandi eða siðlaus (Gray et al. 2016) .

MTurk er ótrúlega þægileg leið til að ráða þátttakendum að tilraunum þínum, hvort sem þeir eru Lab-eins, ss Huber, Hill, and Lenz (2012) , eða meiri sviði-eins, svo sem Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , og Mao et al. (2016) .

  • Byggja eigin vöru þinni (kafli 4.5.1.3)

Ef þú ert að hugsa um að reyna að búa til þína eigin vöru, mæli ég með að þú lesir ráðgjöf í boði hjá MovieLens hópnum í Harper and Konstan (2015) . A lykill innsýn af reynslu þeirra er að fyrir hverja vel verkefni það eru margir, margir mistök. Til dæmis, MovieLens hópurinn hóf aðrar vörur, svo sem GopherAnswers sem voru að ljúka bilanir (Harper and Konstan 2015) . Annað dæmi um rannsóknir galli þegar reynt var að byggja upp vara er tilraun Edward Castronova er að byggja upp online leikur sem heitir Arden. Þrátt fyrir $ 250.000 í fjármögnun, verkefnið var flop (Baker 2008) . Verkefni eins GopherAnswers og Arden eru því miður miklu algengari en verkefni eins MovieLens. Að lokum, þegar ég sagði að ég vissi ekki af öðrum rannsakendum sem höfðu tekist byggð vörur fyrir endurtekna tilraunir hér eru viðmið mín: 1) þátttakendur nota vöruna vegna þess hvað það veitir þeim (td, þeir eru ekki greidd og þeir eru ekki sjálfboðaliðar aðstoða vísindi) og 2) framleiðsluvaran hefur verið notað í meira en einn greinilegur tilraun (þ.e. ekki sömu tilraun mörgum sinnum með mismunandi laugar þátttakanda). Ef þú veist um aðrar dæmi, vinsamlegast láttu mig vita.

  • Partner með öflugri (kafli 4.5.2)

Ég hef heyrt þá hugmynd að fjórðungi kviðar Pasteur rætt á tækni fyrirtæki, og það hjálpar að skipuleggja rannsóknir viðleitni á Google (Spector, Norvig, and Petrov 2012) .

Bond og rannsókn samstarfsmanna (2012) er einnig reynt að greina áhrif þessara meðferða á vini þeirra sem fengu þær. Vegna þess að hönnun tilraunarinnar, þessi spillovers erfitt að greina eðlilega; áhuga lesendur ættu að sjá Bond et al. (2012) fyrir fleiri ítarlega umfjöllun. Þessi tilraun er hluti af löngu hefð tilraunir í stjórnmálafræði á viðleitni til að stuðla að kjósa (Green and Gerber 2015) . Þessar fá-út-the-atkvæði tilraunir eru algengar ma vegna þess að þeir eru í Pasteur fjórðungi kviðar. Það er, það eru margir sem eru áhugasamir um að auka atkvæðagreiðslu og atkvæðagreiðslu getur verið áhugavert hegðun til að prófa fleiri almennar kenningar um hegðun breytast og félagsleg áhrif.

Aðrir vísindamenn hafa veitt ráðgjöf um að keyra sviði tilraunir með samstarfsaðilum ss stjórnmálaflokkana, félagasamtök og fyrirtæki (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Aðrir hafa boðið ráðgjöf um hvernig samstarf við stofnanir geta haft áhrif rannsókna hönnun (Green, Calfano, and Aronow 2014; King et al. 2007) . Samstarf getur einnig leitt til siðfræðilegum spurningum (Humphreys 2015; Nickerson and Hyde 2016) .

  • Hönnun ráðgjöf (kafli 4.6)

Ef þú ert að fara að búa til greiningar áætlun áður en að keyra tilraun þinni, mæli ég með að þú byrjar með því að lesa leiðbeiningar um skýrslugjöf. The Consort (Consolidated Standard Tilkynning rannsóknum) viðmiðunarreglur voru þróaðar í læknisfræði (Schulz et al. 2010) og breytt for Social Research (Mayo-Wilson et al. 2013) . A skyld sett viðmiðunarreglur hefur verið þróuð af ritstjóra Journal of Experimental stjórnmálafræði (Gerber et al. 2014) (sjá einnig Mutz and Pemantle (2015) og Gerber et al. (2015) ). Loks hafa skýrslugerð viðmiðunarreglur verið þróuð í sálfræði (Group 2008) , og sjá einnig Simmons, Nelson, and Simonsohn (2011) .

Ef þú býrð til greiningar áætlun sem þú ættir að íhuga fyrirfram skrá það vegna fyrirfram skráning mun auka traust sem aðrir hafa í niðurstöðunum. Ennfremur, ef þú ert að vinna með maka, það mun takmarka möguleika maka þíns til að breyta greiningu eftir að hafa séð niðurstöður. Pre-skráning er að verða æ algengari í sálfræði (Nosek and Lakens 2014) , stjórnmálafræði (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , og hagfræði (Olken 2015) .

Þó að skapa pre-greiningu áætlun sem þú ættir að vera meðvitaður um að sumir vísindamenn nota líka afturför og tengdum aðferðir til að bæta nákvæmni áætlað meðferðarinnar, og það er einhver umræða um þessa nálgun: Freedman (2008) , Lin (2013) , og Berk et al. (2013) ; sjá Bloniarz et al. (2016) til að fá frekari upplýsingar.

Hönnun ráð sérstaklega fyrir online tilraunir sviði er einnig kynnt í Konstan and Chen (2007) og Chen and Konstan (2015) .

  • Búa núll breytilega gögn kostnaður (kafli 4.6.1)

For meira á MusicLab tilraunum, sjá Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , og Salganik (2007) . Frekari upplýsingar um sigurvegari-taka-öllum mörkuðum, sjá Frank and Cook (1996) . Frekari upplýsingar um untangling heppni og kunnátta almennt, sjá Mauboussin (2012) , Watts (2012) , og Frank (2016) .

Það er annar aðferð til að koma í veg þátttakanda greiðslur sem rannsakendur ættu að nota með varúð: conscription. Í mörgum online tilraunum sviði þátttakendur eru í grundvallaratriðum saminn í tilraunum og aldrei bætt. Dæmi um þessa nálgun eru Restivo og Van de Rijt er (2012) tilraun á umbun í Wikipediu og Bond og samstarfsmaður (2012) tilraun á að hvetja fólk til að kjósa. Þessar tilraunir í raun ekki hafa núll breytilegan kostnað, þeir hafa núll breytilegan kostnað við vísindamenn. Jafnvel þótt kostnaður af mörgum af þessum tilraunum er ákaflega lítill til hvers þátttakanda, lítil kostnaður leggja gífurleg fjöldi þátttakenda getur bætt upp fljótlega. Vísindamenn gangi miklu tilraunir netinu réttlæta oft á mikilvægi lítilla áætluðum áhrifum meðferð með því að segja að þessi litlu áhrif geta orðið mikilvæg þegar beitt til margir fólk. Nákvæmlega sama hugsun á við um kostnað sem vísindamenn leggja á þátttakendur. Ef tilraunir þínar veldur ein milljón manns til að sóa eina mínútu, að tilraunin er ekki mjög skaðlegt einhverju tilteknu manneskju, en í samanlagt hefur sóað næstum tvö ár af tímanum.

Önnur aðferð til að búa til núll breytilegum kostnaði greiðslu til þátttakenda er að nota happdrætti, nálgun sem hefur einnig verið notað í könnuninni rannsóknum (Halpern et al. 2011) . Að lokum, til að fá meiri um að hanna skemmtilegar notandi-reynsla skoða Toomim et al. (2011) .

  • Skipta, betrumbæta, og draga úr (kafli 4.6.2)

Hér eru upprunalegu skilgreiningar á þremur R, frá Russell and Burch (1959) :

"Skipti merkir staðinn fyrir meðvitund lifandi æðri dýrum af virkuðuvlíflausar efni. Reduction þýðir lækkun á fjölda dýra sem notuð eru til að fá upplýsingar um tiltekið magn og nákvæmni. Fágun merkir lækkun á tíðni eða alvarleika ómannúðlega aðferðum beitt þeim dýrum sem enn á eftir að nota. "

Þrír R er að ég leggja ekki forgang ekki grundvallaratriða sem lýst er í 6. kafla heldur eru þau fleiri útfærð útgáfa einn af þeim meginreglum-beneficence-sérstaklega fyrir að setja mönnum tilraunir.

Þegar miðað Emotional smiti, það eru þrír ekki siðferðileg málefni sem þarf að hafa í huga við túlkun þessa tilraun. Í fyrsta lagi er það ekki ljóst hvernig raunverulegir upplýsingar um tilraun að tengjast bóklegu kröfum; í öðrum orðum, það eru spurningar um reisa gildi. Það er ekki ljóst að jákvæð og neikvæð orð telja eru í raun góð vísbending um tilfinningalegt ástand þátttakenda vegna þess að 1) það er ekki ljóst að þau orð sem fólk færslu eru góð vísbending um tilfinningar sínar og 2) það er ekki ljóst að einkum viðhorf greiningu tækni sem vísindamenn notað er fær um að áreiðanlegum álykta tilfinningar (Beasley and Mason 2015; Panger 2016) . Með öðrum orðum, það gæti verið slæmt mælikvarði hlutdræg merki. Í öðru lagi, hönnun og greiningu á tilrauninni segir okkur ekkert um hver var mest áhrif (þ.e., það er engin greining á fjölbreytileika áhrifa meðferð) og hvaða fyrirkomulag gæti verið. Í þessu tilviki, að vísindamenn höfðu fullt af upplýsingum um þátttakendur, en þeir voru í raun meðhöndluð sem tækjum í greiningu. Í þriðja lagi eru áhrif stærð í þessari tilraun var mjög lítill; munurinn á meðferð og eftirlit skilyrðum er um 1 af hverjum 1.000 orðum. Í grein sinni, Kramer og samstarfsmenn gera málið að áhrif af þessari stærð er mikilvægt vegna þess hundruð milljóna manna aðgang Fréttir þeirra Feed hverjum degi. Með öðrum orðum, þeir halda því fram að jafnvel áhrif sem eru lítið fyrir hvern einstakling sem þeir eru stór í heild. Jafnvel ef þú varst að taka þetta rifrildi, það er enn ekki ljóst hvort áhrif af þessari stærð er mikilvægt varðandi almennari vísinda spurning um tilfinningalega smiti. Fyrir meira um aðstæður þar sem lítil áhrif eru mikilvæg sjá Prentice and Miller (1992) .

Hvað varðar fyrsta R (skipti), að bera saman Emotional smiti tilraun (Kramer, Guillory, and Hancock 2014) og tilfinningalega smiti náttúrulega tilraun (Coviello et al. 2014) býður upp á nokkrar almennar lexíur Um málamiðlanir í tengslum við að flytja frá tilraunir til náttúrulegra tilraunir (og öðrum aðferðum eins og passa að reyna að samræma tilraunir í non-tilrauna gögn, sjá kafla 2). Í viðbót við siðferðilegum bætur, skipta úr tilraunastigi til non-tilrauna rannsóknum einnig gerir vísindamönnum kleift að rannsaka meðferðir sem þeir eru skipulagslega ekki til að dreifa. Þessar siðferðileg og skipulagningar bætur koma á kostnaði hins vegar. Með náttúrulegum tilraunum vísindamenn hafa minni stjórn á hlutum eins og ráðningu þátttakenda, slembival og eðli meðferðar. Til dæmis, einn takmörkun á úrkomu til meðferðar við er að það bæði eykur jákvæðni og minnkar neikvæðni. Í tilrauna rannsókn, þó Kramer og samstarfsmenn voru fær um að stilla jákvæðni og neikvæðni sjálfstætt.

The einkum aðferð notuð af Coviello et al. (2014) var frekar útfærð í Coviello, Fowler, and Franceschetti (2014) . Fyrir kynningu á instrumental breytum sjá Angrist and Pischke (2009) (minna formlegt) eða Angrist, Imbens, and Rubin (1996) (meira formlegt). Fyrir efahyggju mati hljóðfæraleikurum breytur sjá Deaton (2010) , og fyrir kynningu á instrumental breytur með veikum hljóðfæri (rigning er veikur hljóðfæri), sjá Murray (2006) .

Almennt, góð kynning á náttúrulegum tilraunum er Dunning (2012) , og Rosenbaum (2002) , Rosenbaum (2009) , og Shadish, Cook, and Campbell (2001) eru góðar hugmyndir um að meta orsakatengsl áhrif án tilraunum.

Hvað varðar seinni R (fágun), það eru vísindaleg og skipulagningar trade-offs þegar íhuga að breyta hönnun á Emotional smitaðist frá sljór innlegg til auka innlegg. Til dæmis, getur það verið raunin að tæknilega framkvæmd fréttastraumi gerir það er verulega auðveldara að gera tilraun með að blokka innlegg frekar en tilraun með að auka innlegg (athugið að tilraun með því að hindra innlegg gæti verið hrint í framkvæmd sem lag á efst á fréttastraumi kerfinu án þess að þörf fyrir breytingar á undirliggjandi kerfi). Vísindalega, hins vegar, kenningin tekið er á af tilraun skildi ekki greinilega benda einnar hönnunar yfir aðra.

Því miður, ég er ekki kunnugt um verulega fyrri rannsóknum um hlutfallslegt kostum sljór og auka efni í News Feed. Einnig hef ég ekki séð mikið rannsóknir um að betrumbæta meðferðir til að gera þá skaðlegt minna; Eina undantekningin er Jones and Feamster (2015) , sem telur um er að ræða mælingu á Internet ritskoðun (efni sem ég fjalla í 6. kafla í sambandi við Encore rannsókninni (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Hvað varðar þriðja R (Reduction), góð kynning á hefðbundnum máttur greiningu er Cohen (1988) . Pre-meðferð breyturnar geta verið með í hönnun stigi og greiningu stigi tilraunir; 4. Kafli Gerber and Green (2012) gefur góða kynningu á báðum aðferðum, og Casella (2008) gefur fleiri í-dýpt meðferð. Aðferðir sem nota þessa pre-meðferð upplýsinga í slembiröðun eru oftast kallaður annaðhvort læst tilrauna hönnun eða lagskipt tilrauna hönnun (sem hugtakanotkun er ekki notað stöðugt yfir samfélög); þessar aðferðir eru djúpt tengist lagskipt tækni sýnatöku fjallað er um í kafla 3. Sjá Higgins, Sävje, and Sekhon (2016) til fleiri á að nota þessi hönnun í stórfellda tilraunum. Pre-meðferð breyturnar geta einnig vera innifalinn í greiningu. McKenzie (2012) kannar munur-á-munur nálgun til að greina sviði tilraunir í meiri smáatriðum. Sjá Carneiro, Lee, and Wilhelm (2016) meira á málamiðlanir milli mismunandi aðferða til að auka nákvæmni í mati áhrifum meðferðar. Að lokum, þegar ákveðið er hvort að reyna að fela pre-meðferð breyturnar á hönnun eða greiningu áfanga (eða bæði), það eru nokkur atriði sem þarf að íhuga. Í umhverfi þar sem vísindamenn vilja til að sýna að þeir séu ekki "veiði" (Humphreys, Sierra, and Windt 2013) , með því að nota pre-meðferð breyturnar í hönnun stigi getur verið gagnlegt (Higgins, Sävje, and Sekhon 2016) . Í aðstæðum þar sem þátttakendur við komu í röð, sérstaklega á netinu sviði tilrauna, með pre-meðferð upplýsinga í hönnun stigi getur verið erfitt skipulagslega, sjá til dæmis Xie and Aurisset (2016) .

Það er þess virði að bæta smá innsæi um hvers vegna munur-í-munur getur verið svo miklu meiri árangri en munur-á-leið. Margir online niðurstöður hafa mjög hátt dreifni (sjá td Lewis and Rao (2015) og Lamb et al. (2015) ) og eru tiltölulega stöðug yfir tíma. Í þessu tilviki, að breyting skora mun hafa verulega minni dreifni, auka kraft tölfræðilegum próf. Ein ástæða þessa nálgaðist er ekki notað oftar er að áður en stafrænni öld var það ekki algengt að hafa fyrirfram meðferð niðurstöður. A steypu leið til að hugsa um það er að ímynda tilraun til að mæla hvort tiltekin æfa venja veldur þyngdartapi. Ef þú gera a mismunur-í-hætti nálgun, áætla mun hafa breytileika sem kemur frá breytileika í þyngd á íbúa. Ef þú gera a mismunur-í-mismun nálgun, þó að náttúrulega breytileika í þyngd fær fjarlægt og þú geta fleiri auðveldlega uppgötva muninn völdum meðferðar.

Ein mikilvæg leið til að draga úr fjölda þátttakenda í tilrauninni er að stunda máttur greiningu, sem Kramer og samstarfsmenn gæti hafa gert á grundvelli stærðum áhrif sáust úr náttúrulegum tilraun með Coviello et al. (2014) eða fyrr ekki tilrauna rannsóknir Kramer (2012) (í raun eru þetta starfsemi í lok þessa kafla). Takið eftir að þessi notkun greiningar máttur er svolítið öðruvísi en dæmigerður. Í flaumi aldur, vísindamenn gerðu almennt máttur greiningu til að ganga úr skugga um að rannsókn þeirra var ekki of lítill (þ.e. undir-máttur). Nú, hins vegar, vísindamenn ættu að gera máttur greiningu til að ganga úr skugga um að rannsókn þeirra er ekki of stór (þ.e. yfir-máttur).

Að lokum, ég talið að bæta fjórða R: repurpose. Það er, ef vísindamenn fundið sig með fleiri tilrauna gögn en þeir þurfa að takast á frumrannsóknir sínar spurningu ættu þeir repurpose gögn til að spyrja nýrra spurninga. Til dæmis ímynda sér að Kramer og samstarfsmenn höfðu notað munur-á-munur reiknar og fann sig með fleiri gögnum en þarf til að takast á rannsóknarspurningu sinni. Frekar en að nota gögnin til fulls, að þeir gætu hafa rannsakað stærð áhrif sem fall að formeðferð tilfinningalega tjáningu. Rétt eins og Schultz et al. (2007) fann að áhrif meðferðar var öðruvísi fyrir ljós og þungur notandi, kannski áhrif fréttastraumi voru öðruvísi fyrir fólk sem þegar gjarnan að birta hamingjusöm (eða sorglegt) skilaboð. Repurposing gæti leitt til "veiða" (Humphreys, Sierra, and Windt 2013) og "p reiðhestur" (Simmons, Nelson, and Simonsohn 2011) , en þetta eru mestu addressable með blöndu af heiðarlegum skýrslugerð (Simmons, Nelson, and Simonsohn 2011) , pre-skráning (Humphreys, Sierra, and Windt 2013) , og vél námsaðferðir sem tilraun til að koma í veg fyrir yfir-mátun.