Pyetjet në lidhje me kauzalitetin në hulumtimet shoqërore shpesh janë komplekse dhe të ndërlikuara. Për një qasje bazike ndaj kauzalitetit bazuar në grafikët shkakësor, shih Pearl (2009) , dhe për një përqasje Imbens and Rubin (2015) bazuar në rezultatet e mundshme, shih Imbens and Rubin (2015) . Për një krahasim midis këtyre dy qasjeve, shih Morgan and Winship (2014) . Për një qasje formale për përcaktimin e një konfuzioni, shih VanderWeele and Shpitser (2013) .
Në këtë kapitull, unë kam krijuar atë që dukej si një linjë e ndritshme midis aftësisë sonë për të bërë vlerësime shkakësore nga të dhënat eksperimentale dhe jo eksperimentale. Megjithatë, mendoj se, në të vërtetë, dallimi është më i paqartë. Për shembull, të gjithë pranojnë se pirja e duhanit shkakton kancer, edhe pse asnjë eksperiment i kontrolluar i rastësishëm që i detyron njerëzit të pijë duhan nuk është bërë kurrë. Për trajtime të shkëlqyera në libër gjatë marrjes së vlerësimeve shkakësore nga të dhënat jo-eksperimentale shih Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) dhe Dunning (2012) .
Kapitujt 1 dhe 2 të Freedman, Pisani, and Purves (2007) ofrojnë një hyrje të qartë në dallimet ndërmjet eksperimenteve, eksperimenteve të kontrolluara dhe eksperimenteve të kontrolluara randomisht.
Manzi (2012) ofron një hyrje interesante dhe të lexueshme për bazat filozofike dhe statistikore të eksperimenteve të kontrolluara me randomizim. Ai gjithashtu siguron shembuj interesant në botën reale të fuqisë së eksperimentimit në biznes. Issenberg (2012) ofron një hyrje interesante për përdorimin e eksperimentimit në fushatat politike.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, dhe Athey and Imbens (2016b) ofrojnë hyrje të mira për aspektet statistikore të dizajnit dhe analizës eksperimentale. Më tej, ekzistojnë edhe tretmane të shkëlqyer të përdorimit të eksperimenteve në fusha të ndryshme: ekonomi (Bardsley et al. 2009) , Sociologji (Willer and Walker 2007; Jackson and Cox 2013) , psikologjia (Aronson et al. 1989) , Shkenca politike (Morton and Williams 2010) , dhe politika sociale (Glennerster and Takavarasha 2013) .
Rëndësia e rekrutimit të pjesëmarrësve (p.sh. marrja e mostrave) shpesh është nën vlerësim në kërkimet eksperimentale. Megjithatë, nëse efekti i trajtimit është heterogjen në popullsinë, atëherë marrja e mostrave është kritike. Longford (1999) bën këtë pikë të qartë kur ai avokon për studiuesit që mendojnë për eksperimentet si një sondazh popullsie me marrjen e mostrave të rastësishme.
Unë kam sugjeruar që ekziston një vazhdimësi midis laboratorëve dhe eksperimenteve në terren dhe studiuesit e tjerë kanë propozuar tipologji më të hollësishme, në veçanti që ndanë format e ndryshme të eksperimenteve në terren (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Një numër i dokumenteve kanë krahasuar eksperimentet laboratorike dhe në terren në abstrakt (Falk and Heckman 2009; Cialdini 2009) dhe në aspektin e rezultateve të eksperimenteve specifike në shkencat politike (Coppock and Green 2015) , ekonomia (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , dhe psikologjinë (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofrojnë një dizajn të mirë kërkimi për krahasimin e rezultateve nga laboratorët dhe eksperimentet në terren. Parigi, Santana, and Cook (2017) përshkruan se si eksperimentet në terren mund të kombinojnë disa nga karakteristikat e laboratorit dhe eksperimenteve në terren.
Shqetësimet rreth pjesëmarrësve që ndryshojnë sjelljen e tyre, sepse ata e dinë se po vëzhgohen nga afër nganjëherë quhen efekte të kërkesës dhe janë studiuar në psikologji (Orne 1962) dhe në ekonomi (Zizzo 2010) . Megjithëse shoqërohet kryesisht me eksperimente laboratorike, këto çështje të njëjta mund të shkaktojnë probleme edhe për eksperimente në terren. Në fakt, efektet e kërkesës nganjëherë quhen edhe efektet Hawthorne , një term që nxjerr eksperimente të ndriçimit të ndriçimit që filloi në vitin 1924 në veprat Hawthorne të Kompanisë Elektrike Perëndimore (Adair 1984; Levitt and List 2011) . Të dy efektet e kërkesës dhe efektet Hawthorne janë të lidhura ngushtë me idenë e matjes reaktive të diskutuara në kapitullin 2 (shih gjithashtu Webb et al. (1966) ).
Eksperimentet në terren kanë një histori të gjatë në ekonomi (Levitt and List 2009) , shkenca politike (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologjia (Shadish 2002) dhe politika publike (Shadish and Cook 2009) . Një fushë e shkencës shoqërore, ku eksperimentet në terren shpejt u bënë të njohur, është zhvillimi ndërkombëtar. Për një rishikim pozitiv të asaj pune brenda ekonomisë shih Banerjee and Duflo (2009) , dhe për një vlerësim kritik shih Deaton (2010) . Për një rishikim të kësaj pune në shkencat politike shih Humphreys and Weinstein (2009) . Së fundi, sfidat etike që dalin nga eksperimentet në terren janë hulumtuar në kontekstin e shkencave politike (Humphreys 2015; Desposato 2016b) dhe ekonomisë zhvillimore (Baele 2013) .
Në këtë seksion, unë sugjeroja që informacioni i para-trajtimit të mund të përdoret për të përmirësuar saktësinë e efekteve të llogaritura të trajtimit, por ka një debat rreth kësaj qasjeje; shih Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , dhe Bloniarz et al. (2016) për më shumë informacion.
Përfundimisht, ekzistojnë dy lloje të tjera të eksperimenteve të kryera nga shkencëtarët socialë që nuk përshtaten mirë me dimensionin e fushës së laboratorit: eksperimentet e anketës dhe eksperimentet sociale. Eksperimentet e anketimit janë eksperimente që përdorin infrastrukturën e anketave ekzistuese dhe krahasojnë përgjigjet ndaj versioneve alternative të të njëjtave pyetje (disa eksperimente të studimit janë paraqitur në Kapitullin 3); për më shumë në eksperimentet e studimit shih Mutz (2011) . Eksperimentet sociale janë eksperimente ku trajtimi është një politikë sociale që mund të zbatohet vetëm nga një qeveri. Eksperimentet sociale janë të lidhura ngushtë me vlerësimin e programit. Për më shumë mbi eksperimentet e politikave, shih Heckman and Smith (1995) , Orr (1998) dhe @ glennerster_running_2013.
Unë kam zgjedhur të përqëndrohem në tre koncepte: vlefshmërinë, heterogjenitetin e efekteve të trajtimit dhe mekanizmave. Këto koncepte kanë emra të ndryshëm në fusha të ndryshme. Për shembull, psikologët priren të lëvizin përtej eksperimenteve të thjeshta duke u fokusuar në ndërmjetësuesit dhe moderatorët (Baron and Kenny 1986) . Ideja e ndërmjetësuesve kapet nga ajo që unë i quaj mekanizma dhe ideja e moderatorëve kapet nga ajo që unë e quaj vlefshmëria e jashtme (p.sh. a do të ishin rezultatet e eksperimentit të ndryshme nëse do të ekzekutoheshin në situata të ndryshme) dhe heterogjeniteti i efekteve të trajtimit ( p.sh., janë efektet më të mëdha për disa njerëz sesa për të tjerët).
Eksperimenti nga Schultz et al. (2007) tregon se si teoritë sociale mund të përdoren për të hartuar ndërhyrje efektive. Për një argument më të përgjithshëm rreth rolit të teorisë në hartimin e ndërhyrjeve efektive, shih Walton (2014) .
Konceptet e vlefshmërisë së brendshme dhe të jashtme u prezantuan së pari nga Campbell (1957) . Shihni Shadish, Cook, and Campbell (2001) për një histori më të detajuar dhe një përpunim të kujdesshëm të vlefshmërisë së përfundimit të statistikave, vlefshmërisë së brendshme, ndërtimit të vlefshmërisë dhe vlefshmërisë së jashtme.
Për një pasqyrë të çështjeve që kanë të bëjnë me vlefshmërinë e përfundimit të rezultateve statistikore në eksperimentet shih Gerber and Green (2012) (nga perspektiva e shkencave sociale) dhe Imbens and Rubin (2015) (nga perspektiva statistikore). Disa çështje të vlefshmërisë së përfundimit të rezultateve statistikore që lindin në mënyrë specifike në eksperimentet në terren në terren përfshijnë çështje të tilla si metodat e llogaritjes efikase për krijimin e intervaleve të besimit me të dhënat e varura (Bakshy and Eckles 2013) .
Vlefshmëria e brendshme mund të jetë e vështirë për t'u siguruar në eksperimentet komplekse në terren. Shih, për shembull, Gerber and Green (2000) , Imai (2005) dhe Gerber and Green (2005) për debat rreth zbatimit të një eksperimenti kompleks fushë në lidhje me votimin. Kohavi et al. (2012) dhe Kohavi et al. (2013) ofrojnë një hyrje në sfidat e vlefshmërisë së intervaleve në eksperimentet në terren.
Një kërcënim i madh për vlefshmërinë e brendshme është mundësia e randomizimit të dështuar. Një mënyrë e mundshme për të zbuluar problemet me randomizimin është krahasimi i grupeve të trajtimit dhe kontrollit në tipare të vëzhgueshme. Ky lloj i krahasimit quhet një kontroll i bilancit . Shih Hansen and Bowers (2008) për një qasje statistikore për të balancuar kontrollet Mutz and Pemantle (2015) për shqetësimet rreth kontrollit të bilancit. Për shembull, duke përdorur një kontroll të bilancit, Allcott (2011) gjeti disa prova se randomizimi nuk ishte implementuar në mënyrë korrekte në tri eksperimentet Opower (shih tabelën 2, faqet 2, 6 dhe 8). Për qasje të tjera, shih kapitullin 21 të Imbens and Rubin (2015) .
Shqetësime të tjera të rëndësishme në lidhje me vlefshmërinë e brendshme janë: (1) mospërmbushja e njëanshme, ku jo të gjithë në grupin e trajtimit kanë marrë aktualisht trajtimin, (2) mosbashkëputje dypalëshe, kur jo të gjithë në grupin e trajtimit marrin trajtim dhe disa njerëz në grupi i kontrollit të marrë trajtimin, (3) tretje, ku rezultatet nuk janë matur për disa pjesëmarrës, dhe (4) ndërhyrje, ku trajtimi kalon nga njerëzit në gjendjen e trajtimit tek njerëzit në gjendjen e kontrollit. Shihni kapitujt 5, 6, 7 dhe 8 të Gerber and Green (2012) për më shumë për secilën prej këtyre çështjeve.
Për më shumë në ndërtimin e vlefshmërisë, shih Westen and Rosenthal (2003) , dhe për më shumë në ndërtimin e vlefshmërisë në burimet e mëdha të të dhënave, Lazer (2015) dhe kapitulli 2 i këtij libri.
Një aspekt i vlefshmërisë së jashtme është vendosja në të cilën testohet një ndërhyrje. Allcott (2015) ofron një trajtim të kujdesshëm teorik dhe empirik të paragjykimit të përzgjedhjes së site-eve. Kjo çështje diskutohet gjithashtu nga Deaton (2010) . Një aspekt tjetër i vlefshmërisë së jashtme është nëse operacionalizimet alternative të të njëjtit ndërhyrje do të kenë efekte të ngjashme. Në këtë rast, një krahasim midis Schultz et al. (2007) dhe Allcott (2011) tregojnë se eksperimentet Opower kishin një efekt më të vogël të vlerësuar se eksperimentet origjinale nga Schultz dhe kolegët (1.7% kundrejt 5%). Allcott (2011) spekuloi se eksperimentet pasuese kishin një efekt më të vogël për shkak të mënyrave në të cilat trajtimi ndryshonte: një emoticon me dorë, si pjesë e një studimi të sponsorizuar nga një universitet, krahasuar me një emoticon të shtypur si pjesë e një prodhimi në masë raport nga një kompani e energjisë.
Për një pasqyrë të shkëlqyer të heterogjenitetit të efekteve të trajtimit në eksperimentet në terren, shih kapitullin 12 të Gerber and Green (2012) . Për paraqitjet në heterogjenitetin e efekteve të trajtimit në sprovat mjekësore, shih Kent and Hayward (2007) , Longford (1999) dhe Kravitz, Duan, and Braslow (2004) . Konsideratat e heterogjenitetit të efekteve të trajtimit në përgjithësi përqëndrohen në dallimet e bazuara në karakteristikat e para-trajtimit. Nëse jeni i interesuar për heterogjenitet bazuar në rezultatet e pas trajtimit, atëherë nevojiten qasje më komplekse, siç është shtresimi kryesor (Frangakis and Rubin 2002) ; shih Page et al. (2015) për një shqyrtim.
Shumë studiues vlerësojnë heterogjenitetin e efekteve të trajtimit duke përdorur regresionin linear, por metodat më të reja mbështeten në mësimin e makinës; shih, për shembull, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) dhe Athey and Imbens (2016a) .
Ekzistojnë disa skepticizëm për gjetjet e heterogjenitetit të efekteve për shkak të problemeve të shumëfishta të krahasimit dhe "peshkimit". Ka një sërë metodash statistikore që mund të ndihmojnë në adresimin e shqetësimeve për krahasime të shumëfishta (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Një qasje ndaj shqetësimeve rreth "peshkimit" është pre-regjistrimi, i cili po bëhet gjithnjë e më i zakonshëm në psikologjinë (Nosek and Lakens 2014) , shkenca politike (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dhe ekonomisë (Olken 2015) .
Në studimin e Costa and Kahn (2013) vetëm rreth gjysma e familjeve në eksperiment mund të lidhen me informacionin demografik. Lexuesit të interesuar në këto detaje duhet t'i referohen dokumentit origjinal.
Mekanizmat janë tepër të rëndësishëm, por ato rezultojnë shumë të vështira për t'u studiuar. Hulumtimi rreth mekanizmave është i lidhur ngushtë me studimin e ndërmjetësuesve në psikologji (por shih gjithashtu VanderWeele (2009) për një krahasim të saktë midis dy ideve). Qasjet statistikore për gjetjen e mekanizmave, të tilla si qasja e zhvilluar në Baron and Kenny (1986) , janë mjaft të zakonshme. Për fat të keq, del se këto procedura varen nga disa supozime të forta (Bullock, Green, and Ha 2010) dhe vuajnë kur ka mekanizma të shumëfishta, siç mund të pritet në shumë situata (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) dhe Imai and Yamamoto (2013) ofrojnë disa metoda të përmirësuara statistikore. Më tej, VanderWeele (2015) ofron një trajtim me gjatësi të librit me një numër rezultatesh të rëndësishme, duke përfshirë një qasje gjithëpërfshirëse për analizën e ndjeshmërisë.
Një përqasje e veçantë fokusohet në eksperimentet që përpiqen të manipulojnë mekanizmin drejtpërsëdrejti (p.sh., duke i dhënë marinarë vitaminës C). Për fat të keq, në shumë mjedise të shkencave shoqërore, shpesh ekzistojnë mekanizma të shumëfishta dhe është vështirë të dizajnohen trajtimet që ndryshojnë një pa ndryshuar të tjerët. Disa metoda për të ndryshuar eksperimentalisht mekanizmat janë përshkruar nga Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , dhe Pirlott and MacKinnon (2016) .
Hulumtuesit që zhvillojnë eksperimente plotësisht faktoriale duhet të jenë të shqetësuar për testimin e shumë hipotezave; shih Fink, McConnell, and Vollmer (2014) dhe List, Shaikh, and Xu (2016) për më shumë informacion.
Së fundi, mekanizmat gjithashtu kanë një histori të gjatë në filozofinë e shkencës siç përshkruhet nga Hedström and Ylikoski (2010) .
Për më shumë mbi përdorimin e studimeve të korrespondencës dhe studimeve të auditimit për të matur diskriminimin, shih Pager (2007) .
Mënyra më e zakonshme për të rekrutuar pjesëmarrësit në eksperimentet që ndërroni është Amazon Mechanical Turk (MTurk). Sepse MTurk imiton aspekte të eksperimenteve tradicionale laboratorike - duke paguar njerëzit për të kryer detyra që nuk do të bënin falas - shumë studiues kanë filluar të përdorin Turkers (punëtorët në MTurk) si pjesëmarrës eksperimentale, duke rezultuar në grumbullimin e të dhënave më të shpejtë dhe më të lirë sesa mund të arrihet në eksperimentet laboratorike tradicionale në kampus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Në përgjithësi, avantazhet më të mëdha të përdorimit të pjesëmarrësve të rekrutuar nga MTurk janë logjistike. Ndërsa eksperimentet e laboratorit mund të kërkojnë javë për të kandiduar dhe eksperimentet në terren mund të kërkojnë muaj për të vendosur, eksperimente me pjesëmarrësit e rekrutuar nga MTurk mund të drejtohen në ditë. Për shembull, Berinsky, Huber, and Lenz (2012) ishin në gjendje të rekrutonin 400 lëndë në një ditë të vetme për të marrë pjesë në një eksperiment 8 minuta. Për më tepër, këta pjesëmarrës mund të rekrutohen për pothuajse çdo qëllim (duke përfshirë sondazhet dhe bashkëpunimin masiv, siç është diskutuar në kapitujt 3 dhe 5). Kjo lehtësi e rekrutimit do të thotë se studiuesit mund të kryejnë sekuenca të eksperimenteve të ndërlidhura me sukses të shpejtë.
Para se të rekrutoni pjesëmarrës nga MTurk për eksperimentet tuaja, ekzistojnë katër gjëra të rëndësishme që ju duhet të dini. Së pari, shumë studiues kanë një skepticizëm jo-specifik të eksperimenteve që përfshijnë Turkers. Për shkak se ky skepticizëm nuk është specifik, është e vështirë të kundërshtohet me prova. Sidoqoftë, pas disa vitesh studimesh që përdorin Turkers, tani mund të konkludojmë se ky skepticizëm nuk është veçanërisht i justifikuar. Ka pasur shumë studime që krahasojnë demografinë e Turkers me ato të popullatave të tjera dhe shumë studime që krahasojnë rezultatet e eksperimenteve me Turkers me ato të popullsive të tjera. Duke pasur parasysh të gjitha këto veprime, mendoj se mënyra më e mirë për ju që të mendoni është se Turkers janë një mostër e arsyeshme e arsyeshmërisë, sikurse studentët, por pak më e larmishme (Berinsky, Huber, and Lenz 2012) . Kështu, ashtu si studentët janë një popullatë e arsyeshme për disa, por jo të gjitha, hulumtimet, Turkers janë një popullsi e arsyeshme për disa, por jo të gjitha, kërkime. Nëse do të punoni me Turkers, atëherë ka kuptim të lexoni shumë nga këto studime krahasuese dhe të kuptoni nuancat e tyre.
Së dyti, hulumtuesit kanë zhvilluar praktikat më të mira për rritjen e vlefshmërisë së brendshme të eksperimenteve MTurk, dhe ju duhet të mësoni dhe ndiqni këto praktika më të mira (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Për shembull, studiuesit që përdorin Turkers inkurajohen që të përdorin përzgjedhës për të hequr pjesëmarrësit e (Berinsky, Margolis, and Sances 2014, 2016) (por shih edhe DJ Hauser and Schwarz (2015b) dhe DJ Hauser and Schwarz (2015a) ). Nëse nuk i hiqni pjesëmarrësit e pavetëdijshëm, atëherë çdo efekt i trajtimit mund të lahet nga zhurma që ato paraqesin, dhe në praktikë numri i pjesëmarrësve të pavëmendshëm mund të jetë i konsiderueshëm. Në eksperimentin nga Huber dhe kolegët (2012) , rreth 30% e pjesëmarrësve dështuan shqyrtuesit bazë të vëmendjes. Probleme të tjera që zakonisht lindin kur përdoren Turkers janë pjesëmarrës jo naivë (Chandler et al. 2015) dhe attrition (Zhou and Fishbach 2016) .
Së treti, në lidhje me disa forma të tjera të eksperimenteve dixhitale, eksperimentet MTurk nuk mund të shkallëzohen; Stewart et al. (2015) vlerësojnë se në çdo kohë të caktuar ka vetëm rreth 7,000 njerëz në MTurk.
Së fundi, duhet ta dini se MTurk është një komunitet me rregullat dhe normat e veta (Mason and Suri 2012) . Në të njëjtën mënyrë që do të përpiqeni të kuptoni rreth kulturës së një vendi ku do të bëni eksperimentet tuaja, duhet të përpiqeni të gjeni më shumë rreth kulturës dhe normave të Turkers (Salehi et al. 2015) . Dhe duhet ta dini që Turkers do të flasin për eksperimentin tuaj nëse ju bëni diçka të papërshtatshme ose joetike (Gray et al. 2016) .
MTurk është një mënyrë tepër e përshtatshme për të rekrutuar pjesëmarrësit në eksperimentet tuaja, nëse ato janë laboratorike, të tilla si ato të Huber, Hill, and Lenz (2012) , ose më shumë fusha si ato të Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , dhe Mao et al. (2016) .
Nëse po mendoni të provoni të krijoni produktin tuaj, ju rekomandoj që të lexoni këshillat e ofruara nga grupi MovieLens në Harper and Konstan (2015) . Një pasqyrë kyçe nga përvoja e tyre është se për çdo projekt të suksesshëm ka shumë, shumë dështime. Për shembull, grupi MovieLens lansoi produkte të tjera, të tilla si GopherAnswers, që ishin dështime të plota (Harper and Konstan 2015) . Një shembull tjetër i një hulumtuesi që dështon gjatë përpjekjes për të ndërtuar një produkt është përpjekja e Edward Castronova për të ndërtuar një lojë në internet të quajtur Arden. Përkundër financimit prej 250,000 dollarësh, projekti ishte një bllok (Baker 2008) . Projektet si GopherAnswers dhe Arden janë për fat të keq shumë më të zakonshme se projektet si MovieLens.
Unë kam dëgjuar idenë e Quadrant Pasteur's diskutuar shpesh në kompanitë e teknologjisë, dhe kjo ndihmon në organizimin e përpjekjeve kërkimore në Google (Spector, Norvig, and Petrov 2012) .
Studimi i Bond dhe kolegëve (2012) gjithashtu përpiqet të zbulojë efektin e këtyre trajtimeve tek miqtë e atyre që i pranuan ato. Për shkak të dizajnit të eksperimentit, këto përhapje janë të vështira për t'u zbuluar në mënyrë të pastër; lexuesit e interesuar duhet të shohin Bond et al. (2012) për një diskutim më të plotë. Jones dhe kolegët (2017) gjithashtu zhvilluan një eksperiment shumë të ngjashëm gjatë zgjedhjeve të vitit 2012. Këto eksperimente janë pjesë e një tradite të gjatë të eksperimenteve në shkencat politike për përpjekjet për të inkurajuar votimin (Green and Gerber 2015) . Këto eksperimente të daljes së votës janë të zakonshme, pjesërisht për shkak se ato janë në kuadrantin e Pasteurit. Kjo është, ka shumë njerëz që janë të motivuar për të rritur votimin dhe votimi mund të jetë një sjellje interesante për të testuar më shumë teori të përgjithshme rreth ndryshimit të sjelljes dhe ndikimit social.
Për këshillat në lidhje me eksperimentimin në terren me organizatat partnere si partitë politike, OJQ-të dhe bizneset, shih Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) dhe Gueron (2002) . Për mendimet se si partneritetet me organizatat mund të ndikojnë në hartimin e hulumtimeve, shih King et al. (2007) dhe Green, Calfano, and Aronow (2014) . Partneriteti gjithashtu mund të çojë në pyetje etike, siç u diskutua nga Humphreys (2015) dhe Nickerson and Hyde (2016) .
Nëse do të krijoni një plan analize përpara se të ekzekutoni eksperimentin tuaj, sugjeroj që të filloni duke lexuar udhëzimet e raportimit. Udhëzimet e CONSORT-it (Raportimi i Konsoliduar i Raportimit Gjykues) janë zhvilluar në mjekësi (Schulz et al. 2010) dhe janë modifikuar për hulumtime sociale (Mayo-Wilson et al. 2013) . Një grup i udhëzimeve të ndërlidhura është zhvilluar nga redaktorët e Gazetës së Shkencave Politike Eksperimentale (Gerber et al. 2014) (shih gjithashtu Mutz and Pemantle (2015) dhe Gerber et al. (2015) ). Së fundmi, udhëzimet e raportimit janë zhvilluar në psikologji (APA Working Group 2008) , dhe shih gjithashtu Simmons, Nelson, and Simonsohn (2011) .
Nëse krijon një plan analize, duhet ta konsiderosh para regjistrimin, sepse regjistrimi paraprak do të rrisë besimin që të tjerët kanë në rezultatet e tua. Më tej, nëse jeni duke punuar me një partner, ai do të kufizojë aftësinë e partnerit tuaj për të ndryshuar analizën pas shikimit të rezultateve. Para-regjistrimi po bëhet gjithnjë e më i zakonshëm në psikologji (Nosek and Lakens 2014) , shkenca politike (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dhe ekonomi (Olken 2015) .
Konstan and Chen (2007) per eksperimentet ne terren eshte paraqitur edhe ne Konstan and Chen (2007) dhe Chen and Konstan (2015) .
Ajo që unë e kam quajtur strategjia e armada nganjëherë quhet hulumtim programatik ; shih Wilson, Aronson, and Carlsmith (2010) .
Për më shumë në eksperimentet e MusicLab, shihni Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) dhe Salganik (2007) . Për më shumë mbi tregjet e fituesve, shih Frank and Cook (1996) . Për më shumë për kapërcimin e fatit dhe aftësisë në përgjithësi, shih Mauboussin (2012) , Watts (2012) dhe Frank (2016) .
Ekziston një tjetër qasje për eliminimin e pagesave të pjesëmarrësve që hulumtuesit duhet të përdorin me kujdes: rekrutimi. Në shumë eksperimente online në terren pjesëmarrësit janë hartuar në thelb në eksperimente dhe asnjëherë nuk janë kompensuar. Shembuj të kësaj qasjeje përfshijnë eksperimentin e shpërblimeve në Wikipedia dhe Bond dhe eksperti të kolegut (2012) Restivo dhe van de Rijt (2012) për nxitjen e njerëzve për të votuar. Këto eksperimente nuk kanë kosto të ndryshueshme zero, në vend që ata të kenë zero kosto të ndryshueshme për kërkuesit . Në eksperimente të tilla, edhe nëse kostoja për çdo pjesëmarrës është jashtëzakonisht e vogël, kostoja totale mund të jetë mjaft e madhe. Hulumtuesit që kryejnë eksperimente masive në internet shpesh justifikojnë rëndësinë e efekteve të vogla të vlerësuara të trajtimit duke thënë se këto efekte të vogla mund të bëhen të rëndësishme kur zbatohen për shumë njerëz. E njëjta mendim vlen edhe për shpenzimet që kërkuesit i imponojnë pjesëmarrësve. Nëse eksperimenti juaj shkakton një milion njerëz që të harxhojnë një minutë, eksperimenti nuk është shumë i dëmshëm për ndonjë person të veçantë, por në tërësi është humbur gati dy vjet.
Një metodë tjetër për krijimin e pagesave me kosto zero të ndryshueshme për pjesëmarrësit është përdorimi i një llotarie, një qasje që është përdorur gjithashtu në hulumtimin e anketës (Halpern et al. 2011) . Për më shumë rreth dizajnimit të përvojave të kënaqshme të përdoruesve, shih Toomim et al. (2011) . Për më shumë rreth përdorimit të botëve për të krijuar eksperimente me kosto zero të ndryshueshme shih ( ??? ) .
Të tre R-të siç janë propozuar fillimisht nga Russell and Burch (1959) janë si më poshtë:
"Zëvendësimi do të thotë zëvendësim për të ndërgjegjshëm që jetojnë kafshët më të larta të materialit të pandjeshëm. Reduktimi do të thotë ulje të numrit të kafshëve të përdorura për të marrë informacion për një sasi të caktuar dhe saktësi. Rafinimi nënkupton çdo rënie në incidencën apo ashpërsia e procedurave çnjerëzore aplikuar për ato kafshë të cilat ende kanë për t'u përdorur. "
Të tre R-të që unë propozoj nuk i anashkalojnë parimet etike të përshkruara në kapitullin 6. Përkundrazi, ato janë një version më i përpunuar, një nga këto parime - mirëqenie, veçanërisht në vendosjen e eksperimenteve njerëzore.
Përsa i përket R-së së parë ("zëvendësimi"), krahasimi i eksperimentit të ngjitjes emocionale (Kramer, Guillory, and Hancock 2014) dhe eksperimenti natyror i infeksionit emocional (Lorenzo Coviello et al. 2014) ofron disa mësime të përgjithshme rreth kompromiseve të përfshira në lëvizje nga eksperimentet në eksperimentet natyrore (dhe qasjet e tjera si përputhja e përpjekjes për të përafruar eksperimentet në të dhënat jo-eksperimentale, shih kapitullin 2). Përveç përfitimeve etike, kalimi nga studimet eksperimentale në ato jo-eksperimentale gjithashtu u mundëson hulumtuesve të studiojnë trajtimet që ata janë logjikisht të paaftë për t'u vendosur. Megjithatë, këto përfitime etike dhe logjistike vijnë me një kosto. Me eksperimente natyrore studiuesit kanë më pak kontroll mbi gjërat si rekrutimi i pjesëmarrësve, randomizimi dhe natyra e trajtimit. Për shembull, një kufizim i reshjeve si një trajtim është që të dy rrit pozitivitetin dhe zvogëlon negativitetin. Megjithatë, në studimin eksperimental, Kramer dhe kolegët ishin në gjendje të rregullonin pozitivisht dhe negativitet në mënyrë të pavarur. Qasja e veçantë e përdorur nga Lorenzo Coviello et al. (2014) u përpunua më tej nga L. Coviello, Fowler, and Franceschetti (2014) . Për një hyrje të variablave instrumentale, e cila është qasja e përdorur nga Lorenzo Coviello et al. (2014) , shih Angrist and Pischke (2009) (më pak formal) ose Angrist, Imbens, and Rubin (1996) (më formale). Për një vlerësim skeptik të variablave instrumentalë, shih Deaton (2010) , dhe për një hyrje të variablave instrumentalë me instrumente të dobëta (shiu është një instrument i dobët), shih Murray (2006) . Në përgjithësi, një hyrje e mirë për eksperimentet natyrore jepet nga Dunning (2012) , ndërsa Rosenbaum (2002) , ( ??? ) dhe Shadish, Cook, and Campbell (2001) ofrojnë ide të mira për vlerësimin e efekteve shkakësore pa eksperimente.
Në aspektin e dytë R ("përsosje"), ekzistojnë shkëmbime shkencore dhe logjistike kur konsiderojnë ndryshimin e dizajnit të Përmbajtjes Emocionale nga bllokimi i posteve për rritjen e posteve. Për shembull, mund të jetë rasti që zbatimi teknik i Feedit të Lajmeve e bën më të lehtë për të bërë një eksperiment në të cilin postat janë të bllokuara dhe jo në atë në të cilën ato janë rritur (vini re se një eksperiment që përfshin bllokimin e posteve mund të zbatohet si një shtresë në krye të sistemit të News Feed pa ndonjë nevojë për ndryshime të sistemit bazë). Megjithatë, shkencërisht, teoria e trajtuar nga eksperimenti nuk ka sugjeruar qartë një dizajn mbi tjetrin. Për fat të keq, unë nuk jam i vetëdijshëm për hulumtime të rëndësishme paraprake në lidhje me meritat relative të bllokimit dhe rritjes së përmbajtjes në News Feed. Gjithashtu, unë nuk kam parë shumë hulumtime rreth trajtimeve të rafinimit për t'i bërë ato më pak të dëmshme; një përjashtim është B. Jones and Feamster (2015) , i cili konsideron rastin e matjes së censurës së Internetit (një temë që diskutoj në kapitullin 6 në raport me studimin Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Në aspektin e R (RI) të tretë, hyrjet e mira për analizën tradicionale të energjisë janë dhënë nga Cohen (1988) (libri) dhe Cohen (1992) (artikull), ndërsa Gelman and Carlin (2014) ofrojnë një perspektivë pak më të ndryshme. Covariatet e para-trajtimit mund të përfshihen në fazën e projektimit dhe analizës së eksperimenteve; kapitulli 4 i Gerber and Green (2012) ofron një hyrje të mirë për të dy qasjet, dhe Casella (2008) ofron një trajtim më të thellë. Teknikat që përdorin këtë informacion para trajtimit në randomizim zakonisht quhen ose dizenjime eksperimentale të bllokuara ose dizajne të shtresuara eksperimentale (terminologjia nuk përdoret vazhdimisht nëpër komunitete); këto teknika janë të lidhura ngushtë me teknikat e shtresëzuara të marrjes së mostrave të diskutuara në kapitullin 3. Shihni Higgins, Sävje, and Sekhon (2016) për më shumë në përdorimin e këtyre projektimeve në eksperimente masive. Covariatet e para-trajtimit gjithashtu mund të përfshihen në fazën e analizës. McKenzie (2012) shqyrton qasjen e diferencës në dallime në analizimin e eksperimenteve në terren në detaje më të hollësishme. Shih Carneiro, Lee, and Wilhelm (2016) për më shumë mbi shkëmbimet midis qasjeve të ndryshme për të rritur saktësinë në vlerësimet e efekteve të trajtimit. Së fundi, kur vendosni nëse do të përpiqen të përfshijnë covariates para trajtimit në fazën e dizajnit ose analizës (ose të dyja), ka disa faktorë që duhet të merren parasysh. Në një mjedis ku hulumtuesit duan të tregojnë se nuk janë "peshkim" (Humphreys, Sierra, and Windt 2013) , përdorimi i covariates para trajtimit në fazën e projektimit mund të jetë e dobishme (Higgins, Sävje, and Sekhon 2016) . Në situata ku pjesëmarrësit mbërrijnë në mënyrë sekuenciale, sidomos eksperimentet në terren në terren, përdorimi i informacionit të para-trajtimit në fazën e projektimit mund të jetë e vështirë logjistike; shih, për shembull, Xie and Aurisset (2016) .
Vlen të shtohen pak intuitë përse një qasje e diferencës në dallime mund të jetë shumë më efektive sesa një ndryshim në mjet. Shumë rezultate online kanë variancë shumë të lartë (shih p.sh. RA Lewis and Rao (2015) dhe Lamb et al. (2015) ) dhe janë relativisht të qëndrueshme me kalimin e kohës. Në këtë rast, rezultati i ndryshimit do të ketë variancë dukshëm më të vogël, duke rritur fuqinë e testit statistikor. Një nga arsyet pse kjo qasje nuk përdoret më shpesh është se para moshës dixhitale, nuk ishte e zakonshme që të ketë rezultate para trajtimit. Një mënyrë më konkrete për të menduar për këtë është të imagjinohet një eksperiment për të matur nëse një rutinë specifike e ushtrimit shkakton humbje peshe. Nëse adoptoni një qasje në ndryshim-në-mjet, vlerësimi juaj do të ketë ndryshueshmëri që del nga ndryshueshmëria në peshë në popullsi. Megjithatë, nëse bëni një ndryshim në diferencat, ndryshimi natyral i peshave hiqet dhe mund të zbuloni më lehtë një ndryshim të shkaktuar nga trajtimi.
Së fundi, e konsiderova shtimin e një R të katërt: "ripërpunimin". Domethënë, nëse hulumtuesit gjejnë veten me të dhëna më eksperimentale sesa ata që duhet të trajtojnë pyetjen e tyre origjinale të hulumtimit, ata duhet të ripunësojnë të dhënat për të bërë pyetje të reja. Për shembull, imagjinoni se Kramer dhe kolegët kishin përdorur një vlerësues të diferencave në ndryshime dhe gjetën veten me më shumë të dhëna sesa ata kishin nevojë për të trajtuar pyetjen e tyre kërkimore. Në vend që të mos përdorin të dhënat në masë të plotë, ata mund të kishin studiuar madhësinë e efektit si një funksion i shprehjes emocionale para trajtimit. Ashtu si Schultz et al. (2007) zbuluan se efekti i trajtimit ishte i ndryshëm për përdoruesit e lehtë dhe të rëndë, ndoshta efektet e Feed News ishin të ndryshme për njerëzit që tashmë tentonin të postonin mesazhe të lumtura (ose të trishtuara). Repurposing mund të çojë në "peshkim" (Humphreys, Sierra, and Windt 2013) dhe "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , por këto janë kryesisht të adresueshme me një kombinim të raportimit të sinqertë (Simmons, Nelson, and Simonsohn 2011) , para-regjistrimi (Humphreys, Sierra, and Windt 2013) , dhe metodat e mësimit të makinës që përpiqen të shmangin tejkalimin.