Ky seksion është projektuar për t'u përdorur si një referencë, në vend që të lexohet si një tregim.
Pyetjet rreth shkakësisë në hulumtimet sociale shpesh janë komplekse dhe të ndërlikuar. Për një qasje themelore të shkakësisë bazuar në grafikët shkakësore, shih Pearl (2009) , dhe për një qasje themelore bazuar në rezultatet e mundshme, shikoni Imbens and Rubin (2015) (dhe shtojcën teknike në këtë kapitull). Për një krahasim mes këtyre dy qasjeve, shih Morgan and Winship (2014) . Për një qasje formale për të përcaktuar një confounder, shih VanderWeele and Shpitser (2013) .
Në kapitullin, kam krijuar atë që dukej si një vijë të ndritshme në mes të aftësisë sonë për të bërë vlerësimet shkakësore nga të dhënat eksperimentale dhe jo eksperiment. Në të vërtetë, unë mendoj se dallimi është blurrier. Për shembull, të gjithë e pranon se pirja e duhanit shkakton kancer edhe pse ne kurrë nuk kanë bërë një eksperiment randomized kontrolluar që i detyron njerëzit për të pirë duhan. Për trajtime të shkëlqyer gjatësi libër në bërjen e vlerësimeve shkakësore nga të dhënat jo-eksperimentale parë Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , dhe Dunning (2012) .
Kapitujt 1 dhe 2 të Freedman, Pisani, and Purves (2007) ofron një hyrje të qartë në ndryshimet mes eksperimente, eksperimente të kontrolluara, dhe randomized eksperimente të kontrolluara.
Manzi (2012) siguron një hyrje interesante dhe i lexueshëm në konsolidimin filozofike dhe statistikore të eksperimenteve randomized kontrolluar. Ajo gjithashtu ofron shembuj interesante të botës reale të pushtetit të eksperimentimit në biznes.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) të sigurojë Paraqitjet e mira me aspektet statistikore të projektimit eksperimentale dhe analiza. Për më tepër, ekzistojnë edhe tretmane të shkëlqyer të përdorimit të eksperimenteve në fusha të ndryshme: ekonomi (Bardsley et al. 2009) , Sociologjia (Willer and Walker 2007; Jackson and Cox 2013) , psikologjia (Aronson et al. 1989) , Shkenca politike (Morton and Williams 2010) , dhe politika sociale (Glennerster and Takavarasha 2013) .
Rëndësia e rekrutimit pjesëmarrës (p.sh., të mostrimit) shpesh është e nën-vlerësuar në kërkimin eksperimentale. Megjithatë, nëse efekti i trajtimit është heterogjene të popullsisë, atëherë mostrave është kritike. Longford (1999) e bën këtë pikë të qartë kur ai mbron për studiuesit duke menduar për eksperiment, si një sondazhi të popullsisë me marrjen e mostrave kuturu.
Ndarje që kam paraqitur në mes laboratorike dhe fushore eksperimenteve është pak thjeshtuar. Në fakt, studiues të tjerë kanë propozuar tipologjitë më të hollësishme, në ato të veçanta që ndajnë format e ndryshme të eksperimenteve fushore (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Për më tepër, ka dy lloje të tjera të eksperimenteve të kryera nga shkencëtarët socialë që nuk përshtaten me kujdes në laborator dhe në terren ndarje në dy pjesë:. Eksperimente të studimit dhe eksperimente sociale eksperimentet e anketës janë eksperimente duke përdorur infrastrukturën e sondazheve ekzistuese dhe të krahasojnë përgjigjet për versionet alternative të të njëjtat pyetje (disa eksperimente anketës janë paraqitur në Kapitullin 3); për më shumë në eksperimentet e sondazhit të parë Mutz (2011) . eksperimentet sociale janë eksperimente ku trajtimi është disa politika sociale që mund të zbatohet vetëm nga një qeveri. eksperimente sociale janë të lidhura ngushtë të programit vlerësim. Për më shumë mbi eksperimentet e politikave, shih Orr (1998) , Glennerster and Takavarasha (2013) , dhe Heckman and Smith (1995) .
Një numër i letrave kanë krahasuar laborator dhe në terren eksperimente në abstrakte (Falk and Heckman 2009; Cialdini 2009) dhe në aspektin e rezultateve të eksperimenteve të veçanta në shkencat politike (Coppock and Green 2015) , ekonomisë (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) dhe psikologjia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ofron një dizajn të bukur kërkimore për të krahasuar rezultatet laboratorike dhe në terren eksperimente.
Shqetësimet rreth pjesëmarrësve ndryshon sjelljen e tyre, sepse ata e dinë se ata janë duke vëzhguar nga afër janë të quajtur nganjëherë efektet e kërkesës, dhe ata janë studiuar në psikologji (Orne 1962) dhe ekonomi (Zizzo 2009) . Edhe pse kryesisht të lidhur me eksperimentet laboratorike, këto çështje të njëjta mund të shkaktojë probleme për eksperimente në terren, si dhe. Në fakt, efektet e kërkesës janë gjithashtu i quajtur nganjëherë efekte Hawthorne, një term që rrjedh nga një eksperiment në terren, konkretisht eksperimentet e famshme ndriçim që filloi në vitin 1924 në Punëve Hawthorne e Kompanisë Elektrike perëndimore (Adair 1984; Levitt and List 2011) . Të dy efektet e kërkesës dhe efektet Hawthorn janë të lidhura ngushtë me idenë e matjes reaktive diskutuar në Kapitullin 2 (shih gjithashtu Webb et al. (1966) ).
Historia e eksperimente në terren është përshkruar në ekonomi (Levitt and List 2009) , shkenca politike (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologjia (Shadish 2002) , dhe politika publike (Shadish and Cook 2009) . Një fushë e shkencave shoqërore, ku eksperimente në terren shpejt u bë i njohur është zhvillimi ndërkombëtar. Për një shqyrtim pozitiv të asaj pune brenda ekonomisë parë Banerjee and Duflo (2009) , dhe për një vlerësim kritik të parë Deaton (2010) . Për një shqyrtim të kësaj pune në shkenca politike shihni Humphreys and Weinstein (2009) . Më në fund, sfidat etike të përfshira me eksperimente në terren janë hulumtuar në shkencat politike (Humphreys 2015; Desposato 2016b) dhe ekonomi të zhvillimit (Baele 2013) .
Në kapitullin, kam sugjeruar që informacioni para-trajtimi mund të përdoret për të përmirësuar saktësinë e efekteve të trajtimit të vlerësuara, por ka disa debate në lidhje me këtë qasje: Freedman (2008) , Lin (2013) , dhe Berk et al. (2013) ; shih Bloniarz et al. (2016) për më shumë informacion.
Unë kam zgjedhur të përqëndrohet në tre koncepte: vlefshmërisë, heterogjeniteti i efekteve të trajtimit, dhe mekanizmave. Këto koncepte kanë emra të ndryshëm në fusha të ndryshme. Për shembull, psikologët kanë tendencë për të lëvizur përtej eksperimenteve të thjeshta duke u fokusuar në ndërmjetësit dhe moderatorë (Baron and Kenny 1986) . Ideja e ndërmjetësuesve është kapur nga ajo që unë e quaj mekanizmat, dhe ideja e moderatorëve është kapur nga ajo që unë e quaj vlefshmëria e jashtme (për shembull, do të rezultatet e eksperimentit të jenë të ndryshme në qoftë se ajo ishte e drejtuar në situata të ndryshme) dhe heterogjenitet e efekteve të trajtimit ( për shembull, janë efektet më të mëdha për disa njerëz se njerëzit e tjerë).
Eksperimenti i Schultz et al. (2007) tregon se si teoritë sociale mund të përdoret për të hartuar ndërhyrje efektive. Për një argument më të përgjithshme për rolin e teorisë në hartimin e ndërhyrjeve efektive, shih Walton (2014) .
Konceptet e vlefshmërisë brendshme dhe të jashtme u prezantua të parë në Campbell (1957) . Shih Shadish, Cook, and Campbell (2001) për një histori më të detajuar dhe një përpunim të kujdesshëm të vlefshmërisë statistikore përfundim, vlefshmërinë e brendshme, të ndërtuar vlefshmërinë, dhe vlefshmërinë e të jashtëm.
Për një vështrim të çështjeve që lidhen me vlefshmërinë përfundim statistikore në eksperimente të parë Gerber and Green (2012) (për një perspektivë të shkencave sociale) dhe Imbens and Rubin (2015) (për një perspektivë statistikore). Disa çështje të vlefshmërisë përfundim statistikore që lindin në mënyrë specifike në eksperimente internet fushë përfshijnë çështje të tilla si metodat computationally efikase për krijimin e intervalet e besimit me të dhënat e varur (Bakshy and Eckles 2013) .
vlefshmëria e brendshme mund të jetë e vështirë për të siguruar në eksperimente komplekse në terren. Shih, për shembull, Gerber and Green (2000) , Imai (2005) , dhe Gerber and Green (2005) për debat në lidhje me zbatimin e një eksperimenti kompleks terren rreth votimit. Kohavi et al. (2012) dhe Kohavi et al. (2013) të sigurojë një hyrje në sfidat e vlefshmërisë interval në eksperimentet në terren në internet.
Një shqetësim i madh me vlefshmëri të brendshëm është probleme me randomization. Një mënyrë për të potencialisht të zbuluar probleme me randomization është për të krahasuar trajtimit dhe kontrollit grupet e në tipare të vëzhgueshme. Ky lloj krahasimi quhet një kontroll bilanci. Shih Hansen and Bowers (2008) për një qasje statistikore për të balancuar kontrolle, dhe të shohim Mutz and Pemantle (2015) për të shqetësimeve në lidhje me kontrollet e bilancit. Për shembull, duke përdorur një balancë të kontrolluar Allcott (2011) ka gjetur se ka disa prova që randomization nuk është zbatuar në mënyrë korrekte në tre eksperimenteve në disa nga eksperimentet OPower (shih Tabelën 2; faqet 2, 6, dhe 8). Për qasje të tjera, shih Imbens and Rubin (2015) , Kapitulli 21.
Shqetësime të tjera të mëdha në lidhje me vlefshmërinë e brendshëm janë: 1) të njëanshme papajtueshmëri, ku jo të gjithë në grupin e trajtimit në fakt ka marrë trajtimin, 2) dy njëanshëm mospërputhje, ku jo të gjithë në grupin e trajtimit merr trajtimin dhe disa njerëz në grupin e kontrollit marrin trajtim, 3) tretje, ku rezultatet nuk maten për disa pjesëmarrës, dhe 4) ndërhyrje, ku trajtimi depërton pastaj nga njerëzit në gjendje të trajtimit të njerëzve në gjendjen e kontrollit. Shih Gerber and Green (2012) Kapitujt 5, 6, 7, dhe 8 për më shumë në secilin nga këto çështje.
Për më shumë mbi validitetit ndërtues, shikoni Westen and Rosenthal (2003) , dhe për më shumë në validitetit ndërtues në burime të mëdha të të dhënave, Lazer (2015) dhe Kapitullin 2 të këtij libri.
Një aspekt i vlefshmërisë së jashtme është vendosja ku një ndërhyrje është testuar. Allcott (2015) siguron një trajtim të kujdesshëm teorike dhe empirike për paragjykim përzgjedhjes faqe. Kjo çështje është diskutuar edhe në Deaton (2010) . Përveç kësaj për të duke u përsëritur në shumë vende, ndërhyrja Faqja Energy Raporti ka qenë gjithashtu studiuar në mënyrë të pavarur nga grupe të shumta kërkimore (p.sh., Ayres, Raseman, and Shih (2013) ).
Për një pasqyrë të shkëlqyer të heterogjenitetit të efekteve të trajtimit në eksperimentet në terren, shih kapitullin 12 të Gerber and Green (2012) . Për hyrjet në heterogjenitetin e efekteve të trajtimit në gjykimet mjekësore, shih Kent and Hayward (2007) , Longford (1999) , dhe Kravitz, Duan, and Braslow (2004) . Heterogjeniteti i efekteve të trajtimit në përgjithësi të fokusohen në dallimet në bazë të karakteristikave të para-trajtimit. Nëse jeni të interesuar në heterogjenitetit bazuar në rezultatet pas trajtimit, atëherë approachs më komplekse janë të nevojshme, si kryesor stratifikimi (Frangakis and Rubin 2002) ; shih Page et al. (2015) për një shqyrtim.
Shumë studiues vlerësojnë heterogjenitetin e efekteve të trajtimit duke përdorur regresionin linear, por metodat më të reja të mbështeten në të mësuarit e makinës, për shembull Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , dhe Athey and Imbens (2016a) .
Ka disa skepticizëm në lidhje me rezultatet e heterogjenitetit të efekteve për shkak të problemeve të shumta të krahasimit dhe "peshkim." Ka një shumëllojshmëri të metodave statistikore që mund të ndihmojnë adresuar shqetësimet për krahasim shumëfishtë (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Një mënyrë për të shqetësimeve në lidhje me "peshkim" është para-regjistrimi, e cila po bëhet gjithnjë e më e zakonshme në psikologji (Nosek and Lakens 2014) , shkenca politike (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) dhe ekonomi (Olken 2015) .
Në studimin e Costa and Kahn (2013) vetëm rreth gjysma e familjeve në eksperiment ishin në gjendje të jetë i lidhur me informacionin demografik. Lexuesit të interesuar në detaje dhe problemet e mundshme me këtë analizë duhet të referohet në letër origjinale.
Mekanizmat janë tepër të rëndësishme, por ata të kthehet të jetë shumë e vështirë për të studiuar. Studim në lidhje me mekanizmat e lidhur ngushtë me studimin e ndërmjetësuesve në psikologji (por shih gjithashtu VanderWeele (2009) për një krahasim të saktë mes dy ideve). Qasjet statistikore të mekanizmave gjetjen, të tilla si qasje të zhvilluar në Baron and Kenny (1986) , janë mjaft të zakonshme. Për fat të keq, rezulton se këto procedura të varet nga disa supozime të forta (Bullock, Green, and Ha 2010) dhe vuajnë kur ka mekanizma të shumta, si mund të presim në shumë situata (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) dhe Imai and Yamamoto (2013) ofrojnë disa metoda të përmirësuara statistikore. Më tej, VanderWeele (2015) ofron një trajtim libër të gjatë me një numër të rezultateve të rëndësishme, duke përfshirë një qasje gjithëpërfshirëse për analizën e ndjeshmërisë.
Një qasje e veçantë fokusohet në eksperimentet që përpiqen për të manipuluar mekanizmin direkt (p.sh., duke i dhënë marinarët vitaminë C). Për fat të keq, në shumë mjedise të shkencave sociale shpesh ka mekanizma të shumta dhe është e vështirë për të hartuar trajtimet që ndryshojnë njëri pa ndryshuar të tjerët. Disa qasje të eksperimentalisht mekanizma tjetërsimin janë përshkruar në Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , dhe Pirlott and MacKinnon (2016) .
Së fundi, mekanizmat gjithashtu kanë një histori të gjatë në filozofinë e shkencës siç përshkruhet nga Hedström and Ylikoski (2010) .
Për më shumë në përdorimin e studimeve me korrespondencë dhe studimet e auditimit për të matur diskriminimin parë Pager (2007) .
Mënyra më e zakonshme për të rekrutuar pjesëmarrësit për eksperimente që ju të ndërtuar është Amazon Mekanike Turk (MTurk). Sepse MTurk imiton aspektet e eksperimenteve-paguar tradicionale laboratorike njerëzit për të kompletuar detyrat që ata nuk do të bëjnë për hulumtuesit e lirë, shumë kanë filluar tashmë duke përdorur Turkers (të punëtorëve në MTurk) si pjesëmarrës në subjektet e njeriut eksperimente rezultuar në mbledhjen më të shpejtë dhe të lirë të të dhënave se sa tradicionale on-kampus eksperimente laboratorike (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Forca më e madhe e eksperimenteve me pjesëmarrës të rekrutuar nga MTurk janë logjistike: ata lejojnë kërkuesit për të rekrutuar pjesëmarrësit shpejt dhe sipas nevojës. Ndërsa eksperimente laboratorike, mund të duhen javë për të drejtuar dhe eksperimentet në terren mund të duhen muaj për të vendosur-up, eksperimente me pjesëmarrës të rekrutuar nga MTurk mund të kandidojë në ditë. Për shembull, Berinsky, Huber, and Lenz (2012) ishin në gjendje për të rekrutuar 400 subjekte në një ditë të vetme për të marrë pjesë në një eksperiment 8 minuta. Për më tepër, këta pjesëmarrës mund të rekrutohen për pothuajse çdo qëllim (duke përfshirë anketat dhe bashkëpunim në masë, siç është diskutuar në kapitujt 3 dhe 5). Kjo lehtësinë e rekrutimit do të thotë se studiuesit mund të drejtuar sekuenca e eksperimente të ngjashme në suksesion të shpejtë.
Para se të rekrutuar pjesëmarrës nga MTurk për vetë eksperimentet tuaja, janë katër gjëra të rëndësishme të dini. Së pari, shumë hulumtues kanë një skepticizëm jo-specifike të eksperimenteve që përfshijnë Turkers. Për shkak se ky skepticizmi nuk është specifike, është e vështirë për t'u përballur me prova. Megjithatë, pas disa vitesh të studimeve duke përdorur Turkers, ne tani mund të konkludojmë se ky skepticizmi nuk është veçanërisht e nevojshme. Ka pasur shumë studime krahasuar demografinë e Turkers të popullsive të tjera dhe shumë studime duke krahasuar rezultatet e eksperimenteve me Turkers për rezultatet nga popullatat e tjera. Duke pasur parasysh gjithë këtë punë, unë mendoj se mënyra më e mirë për ju që të mendoni rreth saj është se Turkers janë një mostër të arsyeshme lehtësi, ashtu si studentë, por pak më të ndryshme (Berinsky, Huber, and Lenz 2012) . Kështu, ashtu si nxënësit janë një popullsi të arsyeshme për disa, por jo të gjitha hulumtimet eksperimentale, Turkers janë një popullsi të arsyeshme për disa, por jo të gjitha hulumtimet. Nëse ju do të punojnë me Turkers, atëherë kjo ka kuptim për të lexuar shumë nga këto studime krahasuese dhe për të kuptuar nuancat e tyre.
Së dyti, studiuesit kanë zhvilluar praktikat më të mira për rritjen vlefshmërinë e brendshëm të eksperimenteve turq, dhe ju duhet të mësojnë dhe të ndiqni këto praktikat më të mira (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Për shembull, studiuesit përdorur Turkers inkurajohen të përdorin screeners për të hequr pjesëmarrësit pavëmendshëm (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (por shih gjithashtu DJ Hauser and Schwarz (2015b) dhe DJ Hauser and Schwarz (2015a) ). Nëse ju nuk hiqni pjesëmarrësit pavëmendshëm, atëherë çdo efekti i trajtimit mund të lahen nga zhurma prezantuar nga pjesëmarrësit pavëmendshëm, dhe në praktikë numri i pjesëmarrësve pavëmendshëm mund të jenë thelbësore. Në eksperimentin e Huber dhe kolegët (2012) rreth 30% e pjesëmarrësve nuk screeners themelore vëmendje. Një tjetër problem i përbashkët me Turkers është pjesëmarrës jo naive (Chandler et al. 2015) .
Së treti, në krahasim me disa forma të tjera të eksperimenteve dixhitale, eksperimentet MTurk nuk mund shkallë; Stewart et al. (2015) vlerëson se në çdo kohë të dhënë ka vetëm rreth 7,000 njerëz në MTurk.
Së fundi, ju duhet të dini se MTurk është një komunitet me rregullat e veta dhe normat (Mason and Suri 2012) . Në të njëjtën mënyrë që ju do të përpiqet për të mësuar në lidhje me kulturën e një vendi ku ju jeni duke shkuar për të drejtuar eksperimentet tuaja, ju duhet të përpiqen për të mësuar më shumë për kulturën dhe normat e Turkers (Salehi et al. 2015) . Dhe, ju duhet të dini se Turkers do të flasim për eksperiment tuaj, nëse ju bëni diçka të papërshtatshme ose joetike (Gray et al. 2016) .
MTurk është një mënyrë tepër të përshtatshëm për të rekrutuar pjesëmarrësit për eksperimentet tuaja, nëse ato janë laboratori-si, të tilla si Huber, Hill, and Lenz (2012) , apo më shumë fusha-si, të tilla si Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , dhe Mao et al. (2016) .
Nëse jeni duke menduar e duke u përpjekur për të krijuar produktin tuaj, unë ju rekomandojmë që të lexoni këshillat e ofruar nga grupi MovieLens në Harper and Konstan (2015) . Një depërtim i rëndësishëm nga përvoja e tyre është se për çdo projekt të suksesshëm ka shumë, shumë dështime. Për shembull, grupi MovieLens nisur produkte të tjera të tilla si GopherAnswers që ishin dështimet e plotë (Harper and Konstan 2015) . Një tjetër shembull i një studiues dështuar duke u përpjekur për të ndërtuar një produkt është përpjekja Edward Castronova për të ndërtuar një lojë online të quajtur Arden. Pavarësisht nga 250.000 $ në financim, projekti ishte një dështim (Baker 2008) . Projektet si GopherAnswers dhe Arden janë për fat të keq shumë më të zakonshme se projekte si MovieLens. Së fundi, kur kam thënë se unë nuk e di për çdo studiues të tjerë që kishin ndërtuar me sukses produktet për eksperimentim përsëritur këtu janë kriteret im: 1) pjesëmarrësit të përdorin produktin, për shkak të asaj që ajo u jep atyre (p.sh., ata nuk janë paguar dhe ata nuk janë të vullnetarë ndihmuar shkencës) dhe 2) produkti është përdorur për më shumë se një eksperiment të veçantë (dmth, jo të njëjtin eksperiment herë të shumta me pishina të ndryshme pjesëmarrëse). Nëse ju e dini shembuj të tjerë, please let me know.
Unë kam dëgjuar idenë e sektor Pasteur të diskutuar shpesh në kompanitë e teknologjisë së lartë, dhe kjo ndihmon të organizojnë përpjekjet kërkimore në Google (Spector, Norvig, and Petrov 2012) .
Bond, dhe studimi kolegët " (2012) edhe përpjekjet për të zbuluar efektin e këtyre trajtimeve për miqtë e atyre që i morën ato. Për shkak të dizajnit të eksperimentit, këto përhapja janë të vështirë për të zbuluar të pastër; lexuesit e interesuar duhet të shihni Bond et al. (2012) për një diskutim më të plotë. Ky eksperiment është pjesë e një traditë të gjatë të eksperimenteve në shkencat politike në përpjekje për të nxitur votimin (Green and Gerber 2015) . Këto eksperimente get-out-the-vote janë të zakonshme në pjesë, sepse ata janë në sektor Pasteur-it. Kjo është, ka shumë njerëz të cilët janë të motivuar për të rritur votimit dhe votimi mund të jetë një sjellje interesante për të provuar teoritë më të përgjithshme në lidhje me ndryshimin e sjelljes dhe të ndikimit social.
Studiues të tjerë kanë dhënë këshilla në lidhje me kandidimin eksperimente në terren me organizatat partnere, si parti politike, OJQ-ve dhe bizneset (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Të tjerë kanë ofruar këshilla se si partneriteti me organizata mund të ndikojë në planet kërkimore (Green, Calfano, and Aronow 2014; King et al. 2007) . Partneriteti mund të çojë në pyetjet etike (Humphreys 2015; Nickerson and Hyde 2016) .
Nëse ju do të krijojë një plan analizë para se drejtimin eksperiment tuaj, unë sugjeroj që ju të filloni duke lexuar udhëzimet e raportimit. Bashkëshorte (Konsoliduar Raportimi Standard i Trials) udhëzimet janë zhvilluar në mjekësi (Schulz et al. 2010) dhe të modifikuar për hulumtim social (Mayo-Wilson et al. 2013) . Një grup i lidhur i udhëzimeve është zhvilluar nga redaktorët e Journal of Experimental Shkencave Politike (Gerber et al. 2014) (shih gjithashtu Mutz and Pemantle (2015) dhe Gerber et al. (2015) ). Së fundi, udhëzimet e raportimit janë zhvilluar në psikologji (Group 2008) , dhe shih gjithashtu Simmons, Nelson, and Simonsohn (2011) .
Nëse keni krijuar një plan analizë që duhet marrë parasysh para-regjistruar atë, sepse para-regjistrimi do të rrisë besimin se të tjerë kanë në rezultatet tuaja. Më tej, në qoftë se ju jeni duke punuar me një partner, ajo do të kufizojë aftësinë e partnerit tuaj për të ndryshuar analizën pas duke parë rezultatet. Para-regjistrimi po bëhet gjithnjë e më e zakonshme në psikologji (Nosek and Lakens 2014) , shkenca politike (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , dhe ekonomia (Olken 2015) .
Duke krijuar planin tuaj para analizë ju duhet të jenë të vetëdijshëm se disa studiues të përdorë gjithashtu edhe regres dhe qasje të ngjashme për të përmirësuar saktësinë e efektit të trajtimit të vlerësuar, dhe ka disa debate në lidhje me këtë qasje: Freedman (2008) , Lin (2013) , dhe Berk et al. (2013) ; shih Bloniarz et al. (2016) për më shumë informacion.
Dizajni këshilla posaçërisht për eksperimente në internet në terren është paraqitur edhe në Konstan and Chen (2007) dhe Chen and Konstan (2015) .
Për më shumë mbi eksperimentet MusicLab, shih Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , dhe Salganik (2007) . Për më shumë mbi fituesi i merr të gjitha tregjet, shih Frank and Cook (1996) . Për më shumë në fat untangling dhe aftësi më në përgjithësi, shih Mauboussin (2012) , Watts (2012) , dhe Frank (2016) .
Nuk është një tjetër mënyrë për të eliminuar pagesat pjesëmarrëse se studiuesit duhet të përdorin me kujdes: rekrutimin. Në shumë eksperimente në internet fushë pjesëmarrësit janë hartuar kryesisht në eksperimentet dhe nuk kompensohen. Shembuj të kësaj qasjeje përfshijnë Restivo dhe van de Rijt-së (2012) eksperiment për shpërblime në Wikipedia dhe Bond dhe koleg (2012) eksperiment mbi inkurajuar njerëzit që të votojnë. Këto eksperimente të vërtetë nuk kanë zero kosto variabël, ata kanë zero kosto variabël për hulumtuesit. Edhe pse kostoja e shumë prej këtyre eksperimenteve është jashtëzakonisht i vogël për çdo pjesëmarrës, shpenzimet e vogla të vendosura një numër i madh i pjesëmarrësve mund të shtoni deri shpejt. Hulumtuesit drejtimin eksperimente të mëdha në internet shpesh justifikojnë rëndësinë e efekteve të vogla të trajtimit të vlerësuara duke thënë se këto efekte të vogla mund të bëhet e rëndësishme kur zbatohet për shumë njerëz. njëjta menduarit e saktë vlen për shpenzimet që studiuesit imponojnë mbi pjesëmarrësit. Nëse eksperimentet tuaja shkakton një milion njerëz për të humbur një minutë, eksperimenti nuk është shumë e dëmshme për çdo person të veçantë, por në total ka humbur pothuajse dy vjet kohë.
Një tjetër mënyrë për të krijuar zero pagesa variabël të kostos të pjesëmarrësve është që të përdorin një llotari, një qasje që është përdorur edhe në studimet hulumtuese (Halpern et al. 2011) . Së fundi, për më shumë në lidhje me hartimin e këndshme përdorues-përvojat parë Toomim et al. (2011) .
Këtu janë përkufizimet origjinale të tre R, nga Russell and Burch (1959) :
"Zëvendësimi do të thotë zëvendësim për të ndërgjegjshëm që jetojnë kafshët më të larta të materialit të pandjeshëm. Reduktimi do të thotë ulje të numrit të kafshëve të përdorura për të marrë informacion për një sasi të caktuar dhe saktësi. Rafinimi nënkupton çdo rënie në incidencën apo ashpërsia e procedurave çnjerëzore aplikuar për ato kafshë të cilat ende kanë për t'u përdorur. "
Të tre R-së që unë propozoj të mos shkelur parimet etike të përshkruara në Kapitullin 6. Përkundrazi, ata janë një version më të përpunuar një nga ato parime-beneficence-specifike për vendosjen e eksperimenteve njerëzore.
Kur e konsideruar ngjitjen emocional, janë tre çështje jo-etike për të mbajtur në mendje kur interpretimin e këtij eksperimenti. Së pari, nuk është e qartë se si të dhënat aktuale të eksperimentit lidhur me pretendimet teorike; me fjalë të tjera, ka pyetje rreth validitetit ndërtues. Nuk është e qartë se akuza pozitive dhe negative fjalë në të vërtetë janë një tregues i mirë i gjendjes emocionale të pjesëmarrësve, sepse 1) nuk është e qartë se fjalët që njerëzit të krijoni janë një tregues i mirë i emocioneve të tyre dhe 2) nuk është e qartë se veçanti teknikë analiza ndjenja se studiuesit e përdorur është në gjendje të besueshme tregoj emocionet (Beasley and Mason 2015; Panger 2016) . Me fjalë të tjera, nuk mund të jetë një masë e keqe e një sinjal të njëanshëm. Së dyti, hartimi dhe analiza e eksperimentit na tregon asgjë për të cilët është më e ndikuar (p.sh., nuk ka asnjë analizë e heterogjenitetit të efekteve të trajtimit) dhe çfarë mund të jetë mekanizmi. Në këtë rast, studiuesit kishin shumë informacion rreth pjesëmarrësve, por ato u trajtuan kryesisht si Widgets në analizë. Së treti, madhësia efekti në këtë eksperiment ishte shumë e vogël; diferenca midis trajtimit dhe kontrollit të kushteve është rreth 1 në 1.000 fjalë. Në letër e tyre, Kramer dhe kolegët bëjë rastin që një efekt i kësaj madhësie është e rëndësishme për shkak se qindra miliona njerëz të hyni në News Feed të tyre çdo ditë. Me fjalë të tjera, ata argumentojnë se edhe efekte që janë të vogla për çdo person që ata janë të mëdha në total. Edhe në qoftë se ju do të pranojë këtë argument, nuk është ende e qartë nëse efekti i kësaj mase është e rëndësishme në lidhje me çështjen më të përgjithshme shkencore rreth infektimit emocional. Për më shumë në situatat ku efektet e vogla janë të rëndësishme shihni Prentice and Miller (1992) .
Në kushtet e pare R (Ndërrimi), krahasuar emocional infektimit eksperiment (Kramer, Guillory, and Hancock 2014) dhe infektimit emocional eksperiment natyror (Coviello et al. 2014) ofron disa mësime të përgjithshme rreth tregtisë të humbura të përfshira me lëviz nga eksperimentet në eksperimentet natyrore (dhe qasjet e tjera si përputhen se përpjekje për të përafruar eksperimente në të dhënat jo-eksperimentale, shih Kapitullin 2). Përveç përfitimeve etike, kalimi nga eksperimentale studimeve jo-eksperimentale gjithashtu mundëson studiuesit për të studiuar trajtime që ata janë logjistike në gjendje për të vendosur. Këto përfitime etike dhe logjistike të vijë me një kosto, megjithatë. Me eksperimente natyrore studiuesit kanë më pak kontroll mbi gjëra të tilla si rekrutimi i pjesëmarrësve, randomization, dhe natyrën e trajtimit. Për shembull, një kufizim i reshjeve si një trajtim është se ajo edhe rrit positivity dhe ul negativitet. Në studim eksperimental, megjithatë, Kramer dhe kolegët ishin në gjendje për të rregulluar positivity dhe negativitet në mënyrë të pavarur.
Qasja e veçantë e përdorur nga Coviello et al. (2014) është elaboruar më tej në Coviello, Fowler, and Franceschetti (2014) . Për një hyrje në variabla instrumentalë parë Angrist and Pischke (2009) (më pak formal) ose Angrist, Imbens, and Rubin (1996) (më formale). Për një vlerësim skeptik të variablave instrumentalë parë Deaton (2010) , dhe për një hyrje në variabla instrumentalë me instrumente të dobëta (shi është një instrument i dobët), shih Murray (2006) .
Më në përgjithësi, një hyrje e mirë për eksperimente natyrore është Dunning (2012) , dhe Rosenbaum (2002) , Rosenbaum (2009) , dhe Shadish, Cook, and Campbell (2001) ofrojnë ide të mira në lidhje me vlerësimin efekti shkakor pa eksperimente.
Në kushtet e dytë R (Rafinimit), nuk janë shkencore dhe logjistike të tregtisë të humbura, kur duke pasur parasysh ndryshimin dizajnin e infektimit emocional nga bllokimi mesazhet për rritjen mesazhet. Për shembull, ajo mund të jetë rasti se implementimi teknik i News Feed bën ajo është në thelb më e lehtë për të bërë një eksperiment me bllokimin postimet më tepër se një eksperiment me rritjen mesazhet (vini re se një eksperiment me bllokimin mesazhet do të mund të zbatohet si një shtresë të i lartë i sistemit News Feed, pa pasur nevojë për ndryshime të sistemit themelor). Shkencërisht, megjithatë, teoria e drejtuar nga eksperimenti nuk sugjerojnë në mënyrë të qartë një dizajn mbi tjetrin.
Për fat të keq, unë nuk jam në dijeni të kërkimeve të konsiderueshme paraprake në lidhje me meritat relative të bllokuar dhe rritjen e përmbajtjes në News Feed. Gjithashtu, unë nuk kam parë shumë kërkime në lidhje me rafinimit trajtime për t'i bërë ato më pak të dëmshme; një përjashtim është Jones and Feamster (2015) , e cila e konsideron rastin e matjes së censurës në internet (një temë kam diskutuar në Kapitullin 6 në marrëdhënie me studimin Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Në kushtet e tretë R (Reduktimit), një hyrje e mirë për analizën tradicionale të energjisë është Cohen (1988) . covariates para-trajtimit mund të përfshihen në fazën e projektimit dhe fazën e analizës së eksperimenteve; Kapitulli 4 i Gerber and Green (2012) ofron një paraqitje të mirë për të dyja qasjet, dhe Casella (2008) ofron një trajtim më të thellë. Teknikat që përdorin këtë informacion para-trajtimit në randomization quhen zakonisht bllokuar ose harton eksperimentale ose harton stratifikimit eksperimentale (terminologjia nuk është përdorur në mënyrë të vazhdueshme në të gjithë komunitetet); këto teknika janë të lidhura thellësisht me teknikat e marrjes së mostrave shtresuar diskutuara në Kapitullin 3. Shih Higgins, Sävje, and Sekhon (2016) për më shumë në përdorimin e këtyre harton në eksperimente masive. Covariates para-trajtimit mund të përfshihen në fazën e analizës. McKenzie (2012) shqyrton qasjen diferenca-ne-dallimeve të analizuar eksperimente në terren në hollësi. Shih Carneiro, Lee, and Wilhelm (2016) për më shumë në të tregtisë të humbura në mes të qasjeve të ndryshme për rritjen e saktësi në vlerësimet e efekteve të trajtimit. Më në fund, kur të vendoset nëse do të përpiqen për të përfshirë model i cili para-trajtimit në fazën e projektimit, ose analiza (ose të dyja), ka disa faktorë të marrin në konsideratë. Në një mjedis ku hulumtuesit duan të tregojnë se ata nuk janë "peshkim" (Humphreys, Sierra, and Windt 2013) , duke përdorur model i cili para-trajtimit në fazën e projektimit mund të jetë e dobishme (Higgins, Sävje, and Sekhon 2016) . Në situata ku pjesëmarrësit vijnë njëra pas tjetrës, eksperimente sidomos në internet në terren, duke përdorur informacionin e para-trajtimit në fazën e projektimit mund të jetë e vështirë logjistik, shih për shembull Xie and Aurisset (2016) .
Vlen të shtuar një grimë e intuitë se pse dallimi-in-dallimet mund të jetë aq shumë më efektive se sa ndryshim-ne-mjetet. Shumë rezultatet online kanë një variancë shumë të lartë (shih p.sh., Lewis and Rao (2015) dhe Lamb et al. (2015) ) dhe janë relativisht të qëndrueshme me kalimin e kohës. Në këtë rast, rezultati ndryshimi do të ketë grindje të konsiderueshme më të vogël, duke rritur fuqinë e testit statistikor. Një arsye kjo afruar nuk është përdorur më shpesh është se para moshën dixhitale nuk ka qenë e zakonshme që të ketë rezultate të para-trajtimit. Një mënyrë më konkrete për të menduar për këtë është të imagjinohet një eksperiment për të matur nëse një rutinë ushtrim të veçantë shkakton humbje peshe. Nëse ju bëni një qasje diferenca-ne-mjetet, vlerësimi yt do të të ketë ndryshueshmërinë që vjen nga ndryshueshmëri në peshat në popullsinë. Nëse ju bëni një qasje diferenca-ne-ndryshim, megjithatë, se ndryshimi natyrale në peshat merr hequr dhe ju më lehtë mund të zbulojë një ndryshim të shkaktuar nga trajtimi.
Një mënyrë e rëndësishme për të reduktuar numrin e pjesëmarrësve në eksperiment tuaj është për të kryer një analizë të energjisë, e cila Kramer dhe kolegët do të mund të bëhet në bazë të madhësive efekt vëzhguara nga eksperimenti natyror nga Coviello et al. (2014) ose në fillim të hulumtimit jo-eksperimentale nga Kramer (2012) (në fakt këto janë aktivitete në fund të këtij kapitulli). Vini re se ky përdorim i analizave të energjisë është pak më ndryshe se sa tipike. Në moshën analog, studiuesit në përgjithësi bëri analizë të energjisë për të siguruar se studimi i tyre nuk ishte shumë e vogël (p.sh., nën-powered). Tani, megjithatë, studiuesit duhet të bëjë analizën e energjisë për të siguruar se studimi i tyre nuk është shumë i madh (p.sh., mbi-powered).
Së fundi, kam konsideruar duke shtuar një e katërta R: repurpose. Kjo është, në qoftë se studiuesit e gjejnë veten me të dhëna më të eksperimentale se ata kanë nevojë për të adresuar çështjen origjinale e tyre kërkimore, ata duhet të repurpose të dhënat për të bërë pyetje të reja. Për shembull, imagjinoni se Kramer dhe kolegët e kishte përdorur një Vlerësues diferenca-ne-dallimeve dhe e gjeti veten me më shumë të dhëna se sa të nevojshme për të adresuar çështjen e tyre kërkimore. Në vend që të mos përdorur të dhënat në masën më të madhe, ata mund të kenë studiuar madhësinë e efektit në funksion të para-trajtimit shprehje emocionale. Ashtu si Schultz et al. (2007) ka gjetur se efekti i trajtimit ishte e ndryshme për të lehta dhe të rënda përdorues, ndoshta efektet e Feed News ishin të ndryshme për njerëzit që tashmë prirur për të postuar lumtur (ose e trishtuar) mesazhe. Repurposing mund të çojë në "peshkim" (Humphreys, Sierra, and Windt 2013) dhe "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , por këto janë kryesisht adresueshme me një kombinim të raportimit të ndershëm (Simmons, Nelson, and Simonsohn 2011) , para-regjistrimit (Humphreys, Sierra, and Windt 2013) , dhe metodat e të mësuarit makinë që të bëjnë të pamundurën për të shmangur mbi-montim.