Питања о узрочности у друштвеном истраживању су често сложена и сложена. За темељни приступ каузалности заснованој на узрочним графиконима, погледајте Pearl (2009) , и за темељни приступ заснован на потенцијалним исходима, погледајте Imbens and Rubin (2015) . За поређење између ова два приступа, погледајте Morgan and Winship (2014) . За формални приступ дефинисању конфигуратора, погледајте VanderWeele and Shpitser (2013) .
У овом поглављу створио сам оно што је изгледало као јасна линија између наше способности да направимо узрочне процјене из експерименталних података и података које нису експериментисане. Међутим, мислим да је у стварности разлика дифузнија. На примјер, свако прихвата да пушење узрокује рак, иако није случајно контролисано експериментисање којим се присиљавају људи да пуше. За одличне третмане дужине у књизи за израду узрочних процјена из неексперименталних података види Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) и Dunning (2012) .
Главе 1 и 2 Freedman, Pisani, and Purves (2007) нуде јасан увод у разлике између експеримената, контролисаних експеримената и рандомизованих контролисаних експеримената.
Manzi (2012) пружа фасцинантан и читљив увод у филозофске и статистичке подлоге рандомизованих контролисаних експеримената. Такође пружа занимљиве примере из праксе у експериментисању у пословању. Issenberg (2012) даје фасцинантан увод у употребу експеримената у политичким кампањама.
Box, Hunter, and Hunter (2005) , @ цаселла_статистицал_2008, и Athey and Imbens (2016b) пружају добар увод у статистичке аспекте експерименталног дизајна и анализе. Даље, постоје одлични третмани употребе експеримената у многим различитим областима: економија (Bardsley et al. 2009) , Социологија (Willer and Walker 2007; Jackson and Cox 2013) , психологија (Aronson et al. 1989) , Политичке науке (Morton and Williams 2010) и социјална политика (Glennerster and Takavarasha 2013) .
Важност ангажовања учесника (нпр. Узимање узорака) често је недовољно цењена у експерименталним истраживањима. Међутим, ако је ефекат третмана хетероген у популацији, онда је узорковање критично. Longford (1999) јасно указује на то када се залагао за истраживаче који размишљају о експериментима као истраживање популације са случајним узорковањем.
Предложио сам да постоји континуитет између лабораторијских и теренских експеримената, а други истраживачи су предложили детаљније типологије, посебно оне које раздвајају различите облике теренских експеримената (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Бројни (Falk and Heckman 2009; Cialdini 2009) су упоређивали лабораторијске и теренске експерименте у абстракту (Falk and Heckman 2009; Cialdini 2009) и у смислу исхода специфичних експеримената у политичким наукама (Coppock and Green 2015) , економије (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) и психологију (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) нуде леп дизајн истраживања за упоређивање резултата лабораторијских и теренских експеримената. Parigi, Santana, and Cook (2017) описују како онлине експерименти на терену могу да комбинују неке од карактеристика лабораторијских и теренских експеримената.
Забринутост о учесницима који мењају своје понашање јер знају да их пажљиво посматрају понекад се зову ефекти потражње , а студирали су их у психологији (Orne 1962) и економији (Zizzo 2010) . Иако су углавном повезани са лабораторијским експериментима, ова иста питања могу изазвати проблеме и за теренске експерименте. У ствари, ефекти потражње се понекад називају и ефекти Хавтхорне , израз који произлази из познатих експеримената осветљења који су започети 1924. године у Хавтхорне Воркс оф Вестерн Елецтриц Цомпани (Adair 1984; Levitt and List 2011) . И ефекти потражње и ефекти Хавтхорне су блиско повезани са идејом реактивног мерења описаног у поглављу 2 (видети такође Webb et al. (1966) ).
Теренски експерименти имају дугу историју у економији (Levitt and List 2009) , политичке науке (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , психологија (Shadish 2002) и јавна политика (Shadish and Cook 2009) . Једна област друштвених наука у којој су експерименти на терену брзо постали истакнути је међународни развој. За позитиван преглед тог рада у економији погледајте Banerjee and Duflo (2009) , а за критичну процену погледајте Deaton (2010) . За преглед овог рада у политичким наукама погледајте Humphreys and Weinstein (2009) . Коначно, етички изазови који произилазе из теренских експеримената истражени су у контексту политичких наука (Humphreys 2015; Desposato 2016b) и развојне економије (Baele 2013) .
У овом одељку предложио сам да се информације о претрпљивању могу користити за побољшање прецизности процијењених ефеката третмана, али постоји одређена дебата о овом приступу; види Freedman (2008) , W. Lin (2013) , Berk et al. (2013) и Bloniarz et al. (2016) за више информација.
Коначно, постоје још две врсте експеримената које су изводили социологи који се не уклапају добро у лабораторијској димензији: експерименти истраживања и социјални експерименти. Експерименти истраживања су експерименти користећи инфраструктуру постојећих истраживања и упоређивање одговора на алтернативне верзије истих питања (неки експерименти истраживања су приказани у поглављу 3); за више о експериментима истраживања погледајте Mutz (2011) . Социјални експерименти су експерименти у којима третман представља неку социјалну политику коју влада може имплементирати само. Друштвени експерименти су блиско повезани са евалуацијом програма. Више о политичким експериментима види Heckman and Smith (1995) , Orr (1998) и @ гленнерстер_руннинг_2013.
Одлучио сам да се фокусирам на три концепта: валидност, хетерогеност ефеката третмана и механизми. Ови концепти имају различита имена у различитим областима. На пример, психолози теже да пређу једноставне експерименте фокусирајући се на медијаторе и модераторе (Baron and Kenny 1986) . Идеју медијатора заузима оно што називам механизмима, а идеја модератора је заузета оним што ја називам вањском валидношћу (нпр. Да ли би резултати експеримента били различити ако би се одвијали у различитим ситуацијама) и хетерогеност ефеката третмана ( нпр. ефекти већи за неке људе него за друге).
Експеримент Schultz et al. (2007) показује како се социјалне теорије могу користити за дизајнирање ефикасних интервенција. За општије аргументе о улози теорије у дизајнирању ефикасних интервенција, погледајте Walton (2014) .
Концепте унутрашње и вањске важности су први пут представили Campbell (1957) . Погледајте Shadish, Cook, and Campbell (2001) за детаљнију историју и пажљиву разраду статистичке валидности закључивања, интерне валидности, конструктивне ваљаности и вањске важности.
За преглед питања везаних за статистичку валидност у експериментима погледајте Gerber and Green (2012) (из перспективе друштвених наука) и Imbens and Rubin (2015) (из статистичке перспективе). Неке од питања статистичке валидности закључака које се појављују специфично у онлине експериментима на терену укључују питања као што су рачунарски ефикасне методе за стварање интервала повјерења са зависним подацима (Bakshy and Eckles 2013) .
Интерна валидност може бити тешко осигурати у комплексним експериментима на терену. Видети, на пример, Gerber and Green (2000) , Imai (2005) , и Gerber and Green (2005) за расправу о имплементацији сложеног теренског експеримента о гласању. Kohavi et al. (2012) и Kohavi et al. (2013) пружају увод у изазове интервалне валидности у онлајн експериментима на терену.
Једна од главних претњи интерној валидности је могућност неуспешне рандомизације. Један од потенцијалних начина откривања проблема са рандомизацијом је упоређивање група третмана и контролних група на видљиве особине. Ова врста поређења назива се провера равнотеже . Погледајте Hansen and Bowers (2008) за статистички приступ балансним проверама и Mutz and Pemantle (2015) због бриге о проверама равнотеже. На пример, користећи проверу балансирања, Allcott (2011) нашао неке доказе да се рандомизација није правилно применила у три експеримента Опере (види табелу 2, странице 2, 6 и 8). За друге приступе, погледајте поглавље 21 Imbens and Rubin (2015) .
Друге главне забринутости везане за унутрашњу валидност су: (1) једнострано непоштовање, где нису сви у терапијској групи заправо примили лечење, (2) двострану неусклађеност, где не сви у групи за лечење примају лечење, а неки људи у контролна група прими лечење, (3) исцрпљивање, при чему се резултати не мере за неке учеснике, и (4) сметње, када се третман прелази са људима у условима лијечења на људе у контролном стању. Погледајте поглавља 5, 6, 7 и 8 из Gerber and Green (2012) за више о сваком од ових проблема.
За више о конструисању ваљаности погледајте Westen and Rosenthal (2003) , а за више о изградњи важности у великим изворима података, Lazer (2015) и поглавље 2 ове књиге.
Један аспект спољне валидности је поставка у којој се тестира интервенција. Allcott (2015) пружа пажљив теоријски и емпиријски третман пристраности избора локације. Ово питање такође разматра Deaton (2010) . Други аспект спољне валидности јесте да ли ће алтернативне операционализације исте интервенције имати сличне ефекте. У овом случају, поређење између Schultz et al. (2007) и Allcott (2011) показују да експерименти Оповер имају мањи процењени третирани ефекат од првих експеримената Сцхултза и колега (1,7% у односу на 5%). Allcott (2011) претпостављао да су експерименти који су уследили након тога имали мањи ефекат због начина на који се третман разликује: рукописни емотикон као део студије спонзорираног од стране универзитета, у поређењу са штампаним емотиконом као део масовне производње извештај од енергетске компаније.
За одличан преглед хетерогености ефеката третмана у теренским експериментима, погледајте поглавље 12 Gerber and Green (2012) . За упознавање са хетерогеном ефеката третмана у медицинским испитивањима погледајте Kent and Hayward (2007) , Longford (1999) , и Kravitz, Duan, and Braslow (2004) . Разматрања хетерогености ефеката третмана углавном се фокусирају на разлике засноване на карактеристикама пред третманом. Ако сте заинтересовани за хетерогеност заснован на исходима након третмана, онда су потребни сложенији приступи, као што су главна стратификација (Frangakis and Rubin 2002) ; види Page et al. (2015) за преглед.
Многи истраживачи процењују хетерогеност ефеката третмана користећи линеарну регресију, али нове методе се ослањају на машинско учење; видети, на примјер, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) Athey and Imbens (2016a) .
Постоји одређени скептицизам о налазима хетерогености ефеката због вишеструких проблема поређења и "риболова". Постоје различити статистички приступи који могу помоћи у рјешавању забринутости о вишеструком поређењу (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Један приступ забринутости о "риболову" је пре-регистрација, која постаје све чешћа у психологији (Nosek and Lakens 2014) , политичке науке (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , и економије (Olken 2015) .
У студији Costa and Kahn (2013) само око половина домаћинстава у експерименту могла се повезати са демографским информацијама. Читачи заинтересовани за ове детаље треба да се односе на оригинални чланак.
Механизми су невероватно важни, али се испоставило да је веома тешко проучавати. Истраживање механизама је уско повезано са проучавањем медијатора у психологији (али види и VanderWeele (2009) за прецизно поређење ове двије идеје). Статистички приступи проналажењу механизама, као што је приступ развијен у Baron and Kenny (1986) , су прилично чести. Нажалост, испада да те процедуре зависе од неких јаких претпоставки (Bullock, Green, and Ha 2010) и патити када постоји више механизама, како се може очекивати у многим ситуацијама (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) и Imai and Yamamoto (2013) нуде неке побољшане статистичке методе. Надаље, VanderWeele (2015) нуди третман дужине књиге са низом важних резултата, укључујући свеобухватни приступ анализи осјетљивости.
Посебан приступ фокусира се на експерименте који покушавају директно манипулирати механизмом (нпр. Давање морнара витамину Ц). Нажалост, у многим поставкама друштвене науке, често постоје вишеструки механизми и тешко је направити третмане који мењају једну без промјене других. Неке приступе експерименталној измени механизама описују Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , и Pirlott and MacKinnon (2016) .
Истраживачи који раде у потпуности са фактооријалним експериментима морат ће бити забринути због вишеструких тестова хипотеза; погледајте Fink, McConnell, and Vollmer (2014) и List, Shaikh, and Xu (2016) за више информација.
Коначно, механизми такође имају дугу историју у филозофији науке коју описују Hedström and Ylikoski (2010) .
За више информација о употреби студија дописивања и студија ревизије за мерење дискриминације погледајте Pager (2007) .
Најчешћи начин да се регрутују учесници на експерименте које израдите је Амазон Мецханицал Турк (МТурк). Зато што МТурк асимилује аспекте традиционалних лабораторијских експеримената - плаћајући људе да заврше задатке које не би могли учинити бесплатно - многи истраживачи већ су почели да користе Туркерс (раднике на МТурк) као експерименталне учеснике, што резултира бржим и јефтинијим прикупљањем података него што се може постићи у традиционалним лабораторијским лабораторијским експериментима (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Генерално, највеће предности кориштења учесника регрутованих од МТурк-а су логистичке. Док лабораторијске експерименте могу трајати неколико недеља и експерименти на терену могу трајати месеци за постављање, експерименти са учесницима регрутованим од МТурк-а могу се радити у данима. На пример, Berinsky, Huber, and Lenz (2012) су могли да ангажују 400 субјеката у једном дану да учествују у 8-минутном експерименту. Осим тога, ови учесници могу бити регрутовани за готово сваку сврху (укључујући анкете и масовну сарадњу, како је наведено у поглављима 3 и 5). Ова лакоћа запошљавања значи да истраживачи могу започети секвенце сродних експеримената у брзом сукцесији.
Пре регрутовања учесника из МТурк-а за сопствене експерименте, постоје четири важне ствари које требате знати. Прво, многи истраживачи имају неспецифичан скептицизам експеримената који укључују Туркерса. Будући да тај скептицизам није специфичан, тешко се супротставити доказима. Међутим, после неколико година студија које користе Туркерс, сада можемо закључити да тај скептицизам није посебно оправдан. Било је много студија које су упоређивале демографију Туркера са онима других популација и многе студије упоређују резултате експеримената са Туркерсима са онима из других популација. С обзиром на све ово дело, мислим да је најбољи начин за размишљање о томе да су Туркери разумни узорак узорка, слично студентима, али нешто разноврснији (Berinsky, Huber, and Lenz 2012) . Стога, баш као што су студенти разумна популација за неке, али не и све, истраживања, Туркери су разумна популација за неке, али не и све, истраживања. Ако радите са Туркерсом, онда је логично читати многе од ових компаративних студија и разумјети њихове нијансе.
Друго, истраживачи су развили најбоље праксе за повећање интерне валидности МТурк експеримената и требали бисте научити и пратити ове најбоље праксе (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . На пример, истраживачи који користе Туркерс су охрабрени да користе сита за уклањање (Berinsky, Margolis, and Sances 2014, 2016) учесника (Berinsky, Margolis, and Sances 2014, 2016) (али видјети и DJ Hauser and Schwarz (2015b) и DJ Hauser and Schwarz (2015a) ). Ако не уклањате нечувене учеснике, онда сваки ефекат лечења може бити опијен од буке коју уведе, ау пракси број незаинтересованих учесника може бити значајан. У експерименту Хубер-а и његових колега (2012) око 30% учесника није успјело основну пажњу. Други проблеми који се обично јављају када се користе Туркери су не-наивни учесници (Chandler et al. 2015) и искушења (Zhou and Fishbach 2016) .
Треће, у односу на неке друге облике дигиталних експеримената, експерименти МТурк не могу да скали; Stewart et al. (2015) процењују да у било ком тренутку постоји само око 7.000 људи на МТурк-у.
Коначно, требали бисте знати да је МТурк заједница с властитим правилима и нормама (Mason and Suri 2012) . На исти начин на који бисте покушали да сазнате културу земље у којој бисте водили своје експерименте, покушајте да сазнате више о култури и нормама Туркера (Salehi et al. 2015) . И требали бисте знати да ће Туркери говорити о вашем експерименту ако учините нешто непримјерено или неетично (Gray et al. 2016) .
МТурк је невероватно згодан начин да регрутујете учеснике у своје експерименте, без обзира да ли су лабараторне, попут оних из Huber, Hill, and Lenz (2012) или више поља, као што су Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) и Mao et al. (2016) .
Ако размишљате о покушају да направите свој производ, препоручујем да прочитате савет који нуди група МовиеЛенс у Harper and Konstan (2015) . Кључни увид из њиховог искуства је да за сваки успешан пројекат има много, много неуспјеха. На пример, група МовиеЛенс је покренула друге производе, као што су ГопхерАнсверс, који су били потпуни неуспеси (Harper and Konstan 2015) . Још један пример неуспешног истраживача током покушаја изградње производа је покушај Едварда Цастронове да направи онлине игру под називом Арден. Упркос 250.000 долара у финансирању, пројекат је био флоп (Baker 2008) . Пројекти као што су ГопхерАнсверс и Арден су нажалост много чешћи од пројеката као што је МовиеЛенс.
Чуо сам да је Пастеуров квадрант често разговарао о технолошким компанијама и помаже у организовању истраживачких (Spector, Norvig, and Petrov 2012) на Гоогле-у (Spector, Norvig, and Petrov 2012) .
Студија Бонда и колега (2012) такође покушава да открије ефекат ових третмана на пријатеље оних који су их примили. Због дизајна експеримента, ови преливачи су тешко детектовати; заинтересовани читачи би требали видети Bond et al. (2012) за детаљнију дискусију. Џонс и колеге (2017) такође су спровели врло сличан експеримент током избора 2012. године. Ови експерименти су део дугогодишње традиције експеримената у политичким наукама о напорима за подстицање гласања (Green and Gerber 2015) . Ови експерименти за излазак из главе су чести, делом зато што су у Пастеуровом квадранту. То јест, постоји много људи који су мотивисани да повећају гласање и гласање може бити занимљиво понашање за тестирање опћих теорија о променама понашања и друштвеном утицају.
За савете о експериментима на терену са партнерским организацијама, као што су политичке партије, невладине организације и предузећа, погледајте Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) и Gueron (2002) . За размишљања о томе како партнерства са организацијама могу утицати на дизајн истраживања, погледајте King et al. (2007) и Green, Calfano, and Aronow (2014) . Партнерство такође може довести до етичких питања, о којима су говорили Humphreys (2015) и Nickerson and Hyde (2016) .
Ако креирате план анализе пре покретања експеримента, предлажем да почнете тако што читате смернице за извештавање. Смјернице ЦОНСОРТ (Цонсолидатед Стандард Репортинг Триалс) су развијене у медицини (Schulz et al. 2010) и модифициране за друштвена истраживања (Mayo-Wilson et al. 2013) . Сродни сет смерница развили су уредници часописа експерименталних политичких наука (Gerber et al. 2014) (видети такође Mutz and Pemantle (2015) и Gerber et al. (2015) ). На крају, смернице за извештавање су развијене у психологији (APA Working Group 2008) , а такође су Simmons, Nelson, and Simonsohn (2011) .
Ако креирате план анализе, требали би размислити о претходном регистрацији, јер ће прије регистрација повећати повјерење које други имају у својим резултатима. Даље, ако радите са партнером, ограничићете способност вашег партнера да промени анализу након што види резултате. Пре-регистрација постаје све чешћа у психологији (Nosek and Lakens 2014) , политичке науке (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) и економија (Olken 2015) .
Савети за дизајн посебно за онлине теренске експерименте су такође представљени у Konstan and Chen (2007) и Chen and Konstan (2015) .
Оно што сам назвао армада стратегијом се понекад назива програмско истраживање ; види Wilson, Aronson, and Carlsmith (2010) .
Више о екпериментима МусицЛаб-а види Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) и Salganik (2007) . За више на тржишту победника, погледајте Frank and Cook (1996) . За више информација о опћенитој срећи и вештини, погледајте Mauboussin (2012) , Watts (2012) и Frank (2016) .
Постоји још један приступ елиминисању уплата учесника који истраживачи треба користити опрезно: регрутовање. У многим онлине експериментима на терену учесници су у основи направљени у експерименте и никада нису компензовани. Примери оваквог приступа укључују експерименте Рестиво и ван де Ријт (2012) о наградама на Википедији и Бонду и колегиној (2012) експерименту на подстицању људи да гласају. Ови експерименти заиста немају нулту цену варијабли - умјесто тога, они имају нулту варијабилну цену за истраживаче . У таквим експериментима, иако је трошак за сваког учесника изузетно мали, укупни трошак може бити прилично велики. Истраживачи који покрећу велике онлине експерименте често оправдавају важност малих процењених ефеката третмана рекавши да ови мали ефекти могу постати важни када се примењују на многе људе. Тачно исто размишљање односи се на трошкове које истраживачи намећу учесницима. Ако ваш експеримент узрокује милион људи да изгубе један минут, експеримент није веома штетан за било коју особу, али у збиру је потрошио скоро две године.
Други приступ креирању нулте варијабилне трошкова за учеснике је коришћење лутрије, приступ који се такође користи у истраживању (Halpern et al. 2011) . За више информација о дизајнирању пријатних корисничких искустава погледајте Toomim et al. (2011) . За више информација о коришћењу бота за креирање експеримената нуклеарних варијабли погледајте ( ??? ) .
Три Р-а као што су првобитно предложили Russell and Burch (1959) су следећи:
"Замена значи замену за свесних живе виших животиња неосетљиви материјала. Смањење значи смањење броја животиња које се користе за добијање информације о датом количином и прецизношћу. Префињеност значи било смањење учесталости или тежине нехуманих поступака који се примењују на оне животиње које тек треба да се користи. "
Три Р-ова која ја предлажем не надмашују етичке принципе описане у поглављу 6. Они су више разрађена верзија један од оних принципа - корисност - посебно у постављању људских експеримената.
У погледу прве Р ("замене"), упоређивање експеримента емоционалне заразе (Kramer, Guillory, and Hancock 2014) и природни експеримент емоционалне заразе (Lorenzo Coviello et al. 2014) нуди неколико општих лекција о укљученим (Lorenzo Coviello et al. 2014) при преласку са експеримената на природне експерименте (и друге приступе као што су усклађивање које покушавају да приближе експерименте у неексперименталним подацима, види поглавље 2). Поред етичких користи, прелазак са експерименталних на неексперименталне студије такође омогућава истраживачима да проучавају третмане које они логистички не могу распоредити. Ове етичке и логистичке предности долазе по трошку. Са природним експериментима истраживачи имају мање контроле над стварима као што су ангажовање учесника, рандомизација и природа лечења. На примјер, једно ограничење кишнице као третман је у томе што оба повећавају позитивност и смањују негативност. Међутим, у експерименталној студији, Крамер и колеге су могли самостално прилагодити позитивност и негативност. Посебан приступ који је користио Lorenzo Coviello et al. (2014) даље су елаборирали L. Coviello, Fowler, and Franceschetti (2014) . За увод у инструменталне варијабле, што је приступ који користи Lorenzo Coviello et al. (2014) , види Angrist and Pischke (2009) (мање формалан) или Angrist, Imbens, and Rubin (1996) (формалније). За скептичку процену инструменталних варијабли, погледајте Deaton (2010) , а за увод у инструменталне варијабле са слабим инструментима (киша је слаб инструмент), види Murray (2006) . Опћенито, добар увод у природне експерименте даје Dunning (2012) , док Rosenbaum (2002) , ( ??? ) и Shadish, Cook, and Campbell (2001) нуде добре идеје о процени узрочних ефеката без експеримената.
Што се тиче другог Р ("побољшања"), постоје научни и логистички компромиси када се размишља о промени дизајна Емотионал Цонтагион-а са блокирајућих позиција на повећање позиција. На примјер, можда је случај да техничка имплементација Невс Феед-а чини знатно лакшим експериментом у којем се поруке блокирају, а не оне у које су подигнуте (обратите пажњу на то да се експеримент који укључује блокирање постова може бити имплементиран као слој који се налази изнад система Феед феед без икаквих потреба за изменама основног система). Научно, међутим, теорија коју је експеримент обрађивао није јасно указивала на један дизајн над другом. Нажалост, нисам упознат са значајним претходним истраживањем о релативним мерама блокирања и повећању садржаја у Невс Феед-у. Такође, нисам видео много истраживања о пречишћавању третмана како би их учинили мање штетним; Један изузетак је B. Jones and Feamster (2015) , који разматра случај мјерења цензуре интернета (тема о којој сам разговарао у поглављу 6 у вези са студијом Енцоре (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
У смислу треће Р ("редукција"), добар увод у традиционалну анализу моћи даје Cohen (1988) (књига) и Cohen (1992) (чланак), док Gelman and Carlin (2014) нуде нешто другачију перспективу. Коваријатне предтретмане могу се укључити у фазу пројектовања и анализе експеримената; поглавље 4 Gerber and Green (2012) даје добар увод у оба приступа, а Casella (2008) пружа детаљнији третман. Технике које користе ове информације о претходном третирању у рандомизацији обично се називају блокирани експериментални дизајни или стратификовани експериментални дизајни (терминологија се не користи конзистентно у заједницама); ове технике су блиско повезане са техникама стратификованог узорковања о којима се говори у поглављу 3. Погледајте Higgins, Sävje, and Sekhon (2016) за више о коришћењу ових дизајна у масивним експериментима. Коваријат за предтретман се такође може укључити у фазу анализе. McKenzie (2012) истражује приступ различитих разлика у анализи експеримената на терену. Погледајте Carneiro, Lee, and Wilhelm (2016) ради више о компромисима између различитих приступа у циљу повећања прецизности у процени ефеката лијечења. Коначно, када се одлучује да ли покушати укључити предтретман коваријате у фази пројектовања или анализе (или оба), постоји неколико фактора који треба размотрити. У окружењу где истраживачи желе да покажу да нису "пецање" (Humphreys, Sierra, and Windt 2013) , помоћу предтретманних коваријата у фази пројектовања може бити од помоћи (Higgins, Sävje, and Sekhon 2016) . У ситуацијама када учесници стижу секвенцијално, посебно на терену експериментима на терену, кориштење информација о претходном третирању у фази пројектовања може бити тешко логистички; види, на примјер, Xie and Aurisset (2016) .
Вредно је додати мало интуиције о томе зашто приступ различитости у разликама може бити толико ефикаснији од разлике у средствима. Многи онлајн исходи имају веома велику варијансу (види нпр. RA Lewis and Rao (2015) и Lamb et al. (2015) ) и релативно су стабилни током времена. У овом случају, промена ће имати знатно мању варијансу, повећавајући моћ статистичког теста. Један разлог због којег се овај приступ не користи чешће је то да пре дигиталног доба није било уобичајено имати резултате пред третманом. Конкретнији начин размишљања о томе је замислити експеримент да би се утврдило да ли одређена рутинска вежба узрокује губитак тежине. Ако усвојите приступ различитим средствима, ваша процена ће имати варијабилност која произилази из варијабилности тежине у популацији. Међутим, ако направите приступ различитим разликама, уклањају се природне варијације у тежинама и лакше можете открити разлику узроковану третманом.
На крају, размишљам о додавању четвртог Р: "поправити". То јест, ако се истраживачи нађу са више експерименталних података него што им треба да се баве својим првобитним истраживачким питањем, они би требало да поново упумпавају податке да постављају нова питања. На пример, замислите да су Крамер и његове колеге користили процену разлика у разликама и нашли се више података него што су им биле потребне за рјешавање њиховог истраживачког питања. Уместо да не користе податке у највећој мјери, могли су проучити величину ефекта као функцију емоционалног израза прије лечења. Као што је Schultz et al. (2007) утврдио да је ефекат лечења био другачији за лакше и тешке кориснике, можда су ефекти Невс Феед-а различити за људе који су већ постигли објављивање сретних (или тужних) порука. Репурпосинг може довести до "риболова" (Humphreys, Sierra, and Windt 2013) и "п-хацкинг" (Simmons, Nelson, and Simonsohn 2011) , али се то углавном може адресирати комбинацијом поштеног извјештавања (Simmons, Nelson, and Simonsohn 2011) , пре-регистрацију (Humphreys, Sierra, and Windt 2013) и методе машинског учења које покушавају да избегну прекомерно прилагођавање.