Ang mga tanong tungkol sa pananahilan sa panlipunang pananaliksik ay kadalasang kumplikado at masalimuot. Para sa isang foundational diskarte sa pananahilan batay sa causal graphs, tingnan ang Pearl (2009) , at para sa isang foundational diskarte batay sa mga potensyal na kinalabasan, tingnan ang Imbens and Rubin (2015) . Para sa paghahambing sa pagitan ng dalawang mga pamamaraang ito, tingnan ang Morgan and Winship (2014) . Para sa isang pormal na diskarte sa pagtukoy ng isang VanderWeele and Shpitser (2013) , tingnan ang VanderWeele and Shpitser (2013) .
Sa kabanatang ito, ginawa ko ang tila isang maliwanag na linya sa pagitan ng aming kakayahang gumawa ng mga pang-aalalang pananahilan mula sa data na pang-experimental at hindi eksperimento. Gayunpaman, sa palagay ko, sa katotohanan, ang pagkakaiba ay mas malabo. Halimbawa, tinatanggap ng lahat na ang paninigarilyo ay nagiging sanhi ng kanser, bagaman walang randomized na kinokontrol na eksperimento na pinipilit ang mga tao na manigarilyo ay nagawa na. Para sa mahusay na paggamot sa paggamot ng aklat sa paggawa ng mga pang- Shadish, Cook, and Campbell (2001) mula sa di-eksperimentong data tingnan ang Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , at Dunning (2012) .
Ang mga kabanata 1 at 2 ng Freedman, Pisani, and Purves (2007) aalok ng isang malinaw na panimula sa mga pagkakaiba sa pagitan ng mga eksperimento, kinokontrol na mga eksperimento, at mga random na kinokontrol na mga eksperimento.
Manzi (2012) nagbibigay ng isang kamangha-manghang at nababasa pagpapakilala sa pilosopiko at statistical underpinnings ng randomized kinokontrol na mga eksperimento. Nagbibigay din ito ng mga kagiliw-giliw na mga halimbawa sa real-world ng kapangyarihan ng pag-eksperimento sa negosyo. Issenberg (2012) nagbibigay ng isang kamangha-manghang pagpapakilala sa paggamit ng eksperimento sa mga kampanyang pampulitika.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, at Athey and Imbens (2016b) nagbibigay ng mahusay na pagpapakilala sa mga istatistikang aspeto ng eksperimentong disenyo at pagtatasa. Dagdag dito, may mga mahuhusay na paggamot ng paggamit ng mga eksperimento sa maraming iba't ibang mga patlang: economics (Bardsley et al. 2009) , Sosyolohiya (Willer and Walker 2007; Jackson and Cox 2013) , sikolohiya (Aronson et al. 1989) , Pampulitika agham (Morton and Williams 2010) , at patakaran sa lipunan (Glennerster and Takavarasha 2013) .
Ang kahalagahan ng pag-recruit ng kalahok (hal., Sampling) ay madalas na hindi nasasabik sa pananaliksik na pang-eksperimentong. Gayunpaman, kung ang epekto ng paggamot ay magkakaiba sa populasyon, pagkatapos ay ang sampling ay kritikal. Longford (1999) malinaw na Longford (1999) sa puntong ito kapag siya ay nagtataguyod para sa mga mananaliksik na nag-iisip ng mga eksperimento bilang isang survey ng populasyon na may walang kapantay na sampling.
Iminungkahi ko na mayroong isang continuum sa pagitan ng mga eksperimento sa lab at field, at iba pang mga mananaliksik ay nagpanukala ng mas detalyadong mga tipikal, partikular na mga naghihiwalay sa iba't ibang anyo ng mga eksperimento sa larangan (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Ang bilang ng mga papeles ay kumpara sa mga eksperimento ng lab at field sa abstract (Falk and Heckman 2009; Cialdini 2009) at sa mga tuntunin ng mga resulta ng mga partikular na eksperimento sa agham pampolitika (Coppock and Green 2015) , economics (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , at sikolohiya (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) aalok ng magandang disenyo ng pananaliksik para sa paghahambing ng mga resulta mula sa mga eksperimento sa lab at field. Parigi, Santana, and Cook (2017) naglalarawan kung paano maaaring pagsamahin ang mga eksperimento ng online na patlang sa ilan sa mga katangian ng mga eksperimento sa lab at field.
Ang mga alalahanin tungkol sa mga kalahok na nagbabago sa kanilang pag-uugali dahil alam nila na sila ay malapit na sinusunod ay minsan tinatawag na demand effect , at sila ay pinag-aralan sa sikolohiya (Orne 1962) at economics (Zizzo 2010) . Bagaman kadalasang nauugnay sa mga eksperimentong lab, ang mga parehong isyu ay maaaring maging sanhi ng mga problema para sa mga eksperimento sa field. Sa katunayan, ang mga demand effect ay tinatawag din na mga epekto ng Hawthorne , isang terminong nagmumula sa mga kilalang eksperimentong pag-iilaw na nagsimula noong 1924 sa Hawthorne Works ng Western Electric Company (Adair 1984; Levitt and List 2011) . Ang parehong mga epekto ng demand at ang mga epekto ng Hawthorne ay malapit na nauugnay sa ideya ng reactive na pagsukat na tinalakay sa kabanata 2 (tingnan din sa Webb et al. (1966) ).
Ang mga eksperimento sa larangan ay may mahabang kasaysayan sa ekonomiya (Levitt and List 2009) , agham pampolitika (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , sikolohiya (Shadish 2002) , at pampublikong patakaran (Shadish and Cook 2009) . Isang lugar ng agham panlipunan kung saan ang mga eksperimento sa larangan ay mabilis na naging tanyag ay pang-internasyonal na pag-unlad. Para sa isang positibong pagsusuri ng gawaing iyon sa loob ng ekonomiya tingnan ang Banerjee and Duflo (2009) , at para sa isang kritikal na pagtatasa makita Deaton (2010) . Para sa pagsusuri ng gawaing ito sa agham pampolitika, tingnan ang Humphreys and Weinstein (2009) . Sa wakas, ang mga etikal na hamon na nagmumula sa mga eksperimento sa larangan ay na-ginalugad sa konteksto ng agham pampolitika (Humphreys 2015; Desposato 2016b) at pag-unlad sa ekonomiya (Baele 2013) .
Sa seksyong ito, iminungkahi ko na ang impormasyong pre-treatment ay magagamit upang mapabuti ang katumpakan ng mga tinatayang epekto sa paggamot, ngunit may ilang debate tungkol sa diskarte na ito; tingnan ang Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , at Bloniarz et al. (2016) para sa karagdagang impormasyon.
Sa wakas, mayroong dalawang iba pang mga uri ng mga eksperimento na isinagawa ng mga sosyal na siyentipiko na hindi magkasya sa kahabaan ng dimensyon ng lab-field: mga eksperimento ng survey at mga social na eksperimento. Ang mga eksperimentong pagsusuri ay mga eksperimento gamit ang imprastraktura ng mga kasalukuyang survey at ihambing ang mga tugon sa mga alternatibong bersyon ng mga parehong tanong (ilang mga eksperimento sa pagsusuri ay iniharap sa Kabanata 3); Para sa higit pa sa mga eksperimento sa pagsusuri makita ang Mutz (2011) . Ang mga eksperimentong panlipunan ay mga eksperimento kung saan ang paggamot ay ilang patakarang panlipunan na maaari lamang ipatupad ng pamahalaan. Ang mga social na eksperimento ay malapit na nauugnay sa pagsusuri ng programa. Para sa higit pa sa mga eksperimento sa patakaran, tingnan ang Heckman and Smith (1995) , Orr (1998) , at @ glennerster_running_2013.
Pinili kong mag-focus sa tatlong konsepto: ang pagiging wasto, heterogeneity ng mga epekto sa paggamot, at mga mekanismo. Ang mga konsepto na ito ay may iba't ibang mga pangalan sa iba't ibang larangan. Halimbawa, ang mga psychologist ay may posibilidad na lumipat sa mga simpleng eksperimento sa pamamagitan ng pagtuon sa mga mediator at moderator (Baron and Kenny 1986) . Ang ideya ng mga tagapamagitan ay nakukuha ng kung ano ang tinatawag kong mga mekanismo, at ang ideya ng mga moderator ay nakukuha ng kung ano ang tinatawag kong panlabas na bisa (halimbawa, ang mga resulta ng eksperimento ay magkakaiba kung ito ay tumatakbo sa iba't ibang mga sitwasyon) at heterogeneity ng mga epekto sa paggamot ( halimbawa, ang mga epekto mas malaki para sa ilang mga tao kaysa para sa iba).
Ang eksperimento ni Schultz et al. (2007) nagpapakita kung paano maaaring gamitin ang mga teorya ng panlipunan upang mag-disenyo ng mga epektibong interbensyon. Para sa isang mas pangkalahatang argumento tungkol sa papel na ginagampanan ng teorya sa pagdidisenyo ng mga mabisang interbensyon, tingnan ang Walton (2014) .
Ang mga konsepto ng panloob at panlabas na bisa ay unang ipinakilala sa pamamagitan ng Campbell (1957) . Tingnan ang Shadish, Cook, and Campbell (2001) para sa isang mas detalyadong kasaysayan at maingat na pagpapaliwanag ng validity ng istatistikang konklusyon, panloob na bisa, bumuo ng bisa, at panlabas na bisa.
Para sa isang pangkalahatang-ideya ng mga isyu na may kaugnayan sa statistical konklusyon ng bisa sa mga eksperimento tingnan ang Gerber and Green (2012) (mula sa isang panlipunan agham pananaw) at Imbens and Rubin (2015) (mula sa isang istatistika pananaw). Ang ilang mga isyu ng statistical conclusion validity na partikular na nagmumula sa mga eksperimento sa online na patlang ay kinabibilangan ng mga isyu tulad ng mahusay na mga pamamaraan ng computationally para sa paglikha ng mga agwat ng kumpyansa na may nakadepende na data (Bakshy and Eckles 2013) .
Maaaring mahirap ang panloob na katiyakan upang matiyak ang mga komplikadong eksperimento sa field. Tingnan, halimbawa, Gerber and Green (2000) , Imai (2005) , at Gerber and Green (2005) para sa debate tungkol sa pagpapatupad ng isang komplikadong eksperto sa field tungkol sa pagboto. Kohavi et al. (2012) at Kohavi et al. (2013) nagbibigay ng pagpapakilala sa mga hamon ng bisa ng pagitan sa mga eksperimento sa online na patlang.
Ang isang pangunahing banta sa panloob na bisa ay ang posibilidad ng bigo randomization. Ang isang potensyal na paraan upang makita ang mga problema sa randomization ay upang ihambing ang paggamot at kontrol ng mga grupo sa mga kapansin-pansin na mga katangian. Ang ganitong uri ng paghahambing ay tinatawag na isang balanse check . Tingnan ang Hansen and Bowers (2008) para sa isang istatistika na diskarte upang balansehin ang mga tseke at Mutz and Pemantle (2015) para sa mga alalahanin tungkol sa mga tseke sa balanse. Halimbawa, gamit ang isang tseke sa balanse, Allcott (2011) ilang katibayan na ang randomization ay hindi maipatupad nang tama sa tatlong eksperimento ng Opower (tingnan ang talahanayan 2; mga site 2, 6, at 8). Para sa iba pang mga diskarte, tingnan ang kabanata 21 ng Imbens and Rubin (2015) .
Ang iba pang mga pangunahing alalahanin na may kinalaman sa panloob na bisa ay ang: (1) walang katapat na hindi pagsunod, kung saan hindi lahat ng grupo ng paggamot ay aktwal na nakatanggap ng paggamot, (2) dalawang panig na hindi sumusunod, kung saan hindi lahat ng tao sa grupong paggamot ay tumatanggap ng paggamot at ilang tao sa ang kontrol ng grupo ay tumatanggap ng paggamot, (3) pagkasira, kung saan ang mga resulta ay hindi sinusukat para sa ilang mga kalahok, at (4) pagkagambala, kung saan ang paggamot ay bumubuhos mula sa mga tao sa kondisyon ng paggamot sa mga tao sa kalagayan ng pagkontrol. Tingnan ang mga kabanata 5, 6, 7, at 8 ng Gerber and Green (2012) para sa higit pa sa bawat isa sa mga isyung ito.
Para sa higit pa sa pagkakaloob ng bisa, tingnan ang Westen and Rosenthal (2003) , at para sa higit pa sa bumuo ng bisa sa malaking mga mapagkukunan ng data, Lazer (2015) at kabanata 2 ng aklat na ito.
Ang isang aspeto ng panlabas na bisa ay ang pagtatakda kung saan sinubukan ang isang interbensyon. Allcott (2015) nagbibigay ng maingat na teoretikal at empirical na paggamot sa bias sa pagpili ng site. Ang usaping ito ay tinalakay din ni Deaton (2010) . Ang isa pang aspeto ng panlabas na bisa ay kung ang alternatibong pagpapatakbo ng parehong interbensyon ay magkakaroon ng katulad na mga epekto. Sa kasong ito, isang paghahambing sa pagitan ng Schultz et al. (2007) at Allcott (2011) nagpapakita na ang mga eksperimento ng Opower ay may mas maliit na tinatayang itinuturing na epekto kaysa sa orihinal na mga eksperimento ni Schultz at mga kasamahan (1.7% kumpara sa 5%). Allcott (2011) na ang mga eksperimento ng follow-up ay may mas maliit na epekto dahil sa mga paraan kung saan ang paggamot ay naiiba: isang sulat-kamay na emoticon bilang bahagi ng isang pag-aaral na inisponsor ng isang unibersidad, kumpara sa isang naka-print na emoticon bilang bahagi ng isang mass-produced ulat mula sa isang kumpanya ng kapangyarihan.
Para sa isang mahusay na pangkalahatang-ideya ng heterogeneity ng mga epekto sa paggamot sa mga eksperimento sa field, tingnan ang kabanata 12 ng Gerber and Green (2012) . Para sa pagpapakilala sa heterogeneity ng mga epekto sa paggamot sa mga medikal na pagsubok, tingnan ang Kent and Hayward (2007) , Longford (1999) , at Kravitz, Duan, and Braslow (2004) . Ang mga pagsasaalang-alang ng heterogeneity ng mga epekto sa paggamot sa pangkalahatan ay tumutuon sa mga pagkakaiba batay sa mga katangian ng pre-paggamot. Kung ikaw ay interesado sa heterogeneity batay sa mga kinalabasan ng post-treatment, kailangan ng mas kumplikadong pamamaraan, gaya ng pangunahing pagsasanib (Frangakis and Rubin 2002) ; tingnan ang Page et al. (2015) para sa isang pagsusuri.
Tinataya ng maraming mananaliksik ang heterogeneity ng mga epekto sa paggamot gamit ang linear regression, ngunit ang mga bagong pamamaraan ay umaasa sa pag-aaral ng machine; tingnan, halimbawa, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , at Athey and Imbens (2016a) .
Mayroong ilang mga pag-aalinlangan tungkol sa mga natuklasan ng heterogeneity ng mga epekto dahil sa maraming mga problema sa paghahambing at "pangingisda." Mayroong iba't ibang mga pamamaraang pang-istatistika na maaaring makatulong sa pag-aalala tungkol sa maraming mga paghahambing (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ang isang diskarte sa pag-aalala tungkol sa "pangingisda" ay pre-registration, na nagiging mas karaniwan sa sikolohiya (Nosek and Lakens 2014) , agham pampolitika (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , at economics (Olken 2015) .
Sa pag-aaral sa pamamagitan ng Costa and Kahn (2013) lamang tungkol sa kalahati ng mga kabahayan sa eksperimento ay maaaring maiugnay sa demograpikong impormasyon. Ang mga mambabasa na interesado sa mga detalye ay dapat sumangguni sa orihinal na papel.
Mekanismo ay hindi mapaniniwalaan o kapani-paniwala mahalaga, ngunit sila turn out na maging mahirap na pag-aaral. Ang pananaliksik tungkol sa mga mekanismo ay malapit na nauugnay sa pag-aaral ng mga tagapamagitan sa sikolohiya (ngunit tingnan din ang VanderWeele (2009) para sa tumpak na paghahambing sa pagitan ng dalawang ideya). Ang mga diskarte sa paghahanap ng mga mekanismo, tulad ng diskarte na binuo sa Baron and Kenny (1986) , ay karaniwan. Sa kasamaang palad, lumalabas na ang mga pamamaraang ito ay nakasalalay sa ilang mga malakas na pagpapalagay (Bullock, Green, and Ha 2010) at magdusa kapag may maraming mekanismo, gaya ng inaasahan sa maraming sitwasyon (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) at Imai and Yamamoto (2013) aalok ng ilang pinabuting statistical pamamaraan. Dagdag dito, ang VanderWeele (2015) aalok ng isang paggamot na aklat-haba na may maraming mahahalagang resulta, kabilang ang isang kumpletong diskarte sa sensitivity analysis.
Ang isang hiwalay na diskarte ay nakatutok sa mga eksperimento na nagtatangkang maipamamanhain ang mekanismo nang direkta (hal., Na nagbibigay sa mga manlalarong bitamina C). Sa kasamaang palad, sa maraming mga setting ng agham panlipunan, madalas na maraming mekanismo at mahirap mag-disenyo ng mga paggamot na nagbabago nang hindi binabago ang iba. Ang ilang mga diskarte sa pag-convert ng mga mekanismo sa pag-aaral ay inilarawan ni Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , at Pirlott and MacKinnon (2016) .
Ang mga mananaliksik na nagpapatakbo ng ganap na mga eksperimento na pang-pormal ay kailangang mag-alala tungkol sa maraming pagsubok sa teorya; tingnan ang Fink, McConnell, and Vollmer (2014) at List, Shaikh, and Xu (2016) para sa karagdagang impormasyon.
Sa wakas, ang mga mekanismo ay may mahabang kasaysayan din sa pilosopiya ng agham tulad ng inilarawan ni Hedström and Ylikoski (2010) .
Para sa higit pa sa paggamit ng mga pag-aaral ng pag-uusap at pag-aaral ng pag-audit upang sukatin ang diskriminasyon, tingnan ang Pager (2007) .
Ang pinaka-karaniwang paraan upang kumalap ng mga kalahok sa mga eksperimento na itinayo mo ay Amazon Mechanical Turk (MTurk). Dahil ang MTurk ay nagsasamantala sa mga aspeto ng mga tradisyunal na mga eksperimento ng lab-nagbabayad na mga tao upang makumpleto ang mga gawain na hindi nila gagawin para sa libreng-maraming mga mananaliksik ay nagsimula na gamit ang mga Turker (ang mga manggagawa sa MTurk) bilang mga kalahok na pang-eksperimento, na nagreresulta sa mas mabilis at mas murang pagkolekta ng data kaysa maaaring makamit sa tradisyunal na mga eksperimentong laboratoryo sa kampus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Sa pangkalahatan, ang pinakamalaking pakinabang ng paggamit ng mga kalahok na hinihikayat mula sa MTurk ay logistical. Samantalang ang mga eksperimento sa lab ay maaaring tumagal ng ilang linggo upang tumakbo at ang mga eksperimento sa field ay maaaring tumagal ng ilang buwan upang mag-set up, ang mga eksperimento sa mga kalahok na hinihikayat mula sa MTurk ay maaaring tumakbo sa mga araw. Halimbawa, Berinsky, Huber, and Lenz (2012) ang 400 na mga paksa sa isang araw upang makilahok sa isang 8 minutong eksperimento. Dagdag dito, ang mga kalahok ay maaaring hinikayat para sa halos anumang layunin (kabilang ang mga survey at pakikipagtulungan ng masa, tulad ng tinalakay sa mga kabanata 3 at 5). Ang kadalian ng pangangalap ay nangangahulugan na ang mga mananaliksik ay maaaring magpatakbo ng mga pagkakasunud-sunod ng mga kaugnay na eksperimento sa sunud-sunod.
Bago magrekrut ng mga kalahok mula sa MTurk para sa iyong sariling mga eksperimento, mayroong apat na mahahalagang bagay na kailangan mong malaman. Una, maraming mga mananaliksik ay may isang walang katuturang pag-aalinlangan ng mga eksperimento na kinasasangkutan ng Turkers. Dahil ang pag-aalinlangan na ito ay hindi tiyak, mahirap na kontrahin ang katibayan. Gayunpaman, pagkatapos ng ilang mga taon ng pag-aaral gamit ang Turkers, maaari nating tapusin na ang pag-aalinlangan na ito ay hindi partikular na makatwiran. Nagkaroon ng maraming mga pag-aaral ng paghahambing sa mga demograpiko ng Turkers sa mga iba pang mga populasyon at maraming mga pag-aaral ng paghahambing ng mga resulta ng mga eksperimento sa mga Turkers na may talas ng mga mula sa iba pang mga populasyon. Dahil sa lahat ng gawaing ito, sa palagay ko na ang pinakamahusay na paraan para sa pag-isipan mo ito ay ang Turkers ay isang makatwirang sample ng kaginhawaan, katulad ng mga estudyante ngunit bahagyang mas magkakaibang (Berinsky, Huber, and Lenz 2012) . Kaya, tulad ng mga estudyante ay isang makatwirang populasyon para sa ilan, ngunit hindi lahat, pananaliksik, ang Turkers ay isang makatwirang populasyon para sa ilan, ngunit hindi lahat, pananaliksik. Kung makikipagtulungan ka sa Turkers, makatwirang basahin ang marami sa mga paghahambing at maunawaan ang kanilang mga nuances.
Pangalawa, ang mga mananaliksik ay gumawa ng mga pinakamahuhusay na gawi upang madagdagan ang panloob na bisa ng mga eksperimento ng MTurk, at dapat mong malaman at sundin ang mga pinakamahusay na kasanayan na ito (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Halimbawa, hinihimok ang mga mananaliksik na gumagamit ng Turkers na gumamit ng screeners upang tanggalin ang mga hindi (Berinsky, Margolis, and Sances 2014, 2016) kalahok (Berinsky, Margolis, and Sances 2014, 2016) (ngunit tingnan din ang DJ Hauser and Schwarz (2015b) at DJ Hauser and Schwarz (2015a) ). Kung hindi mo aalisin ang mga hindi kanais-nais na kalahok, ang anumang epekto ng paggamot ay maaaring hugasan ng ingay na ipinakilala nila, at sa pagsasanay ang bilang ng mga hindi kanais-nais na kalahok ay maaaring malaki. Sa eksperimento ni Huber at mga kasamahan (2012) , mga 30% ng mga kalahok ay nabigo sa pangunahing mga screeners ng pansin. Ang iba pang mga problema na kadalasang lumitaw kapag ginamit ang mga Turker ay mga di-walang-kasiyahan na mga kalahok (Chandler et al. 2015) (Zhou and Fishbach 2016) .
Pangatlo, kamag-anak sa ilang iba pang mga anyo ng mga digital na eksperimento, hindi maaaring masukat ang mga eksperimento ng MTurk; Stewart et al. (2015) tinatantya na sa anumang oras na may lamang tungkol sa 7,000 mga tao sa MTurk.
Sa wakas, dapat mong malaman na ang MTurk ay isang komunidad na may sariling mga alituntunin at kaugalian (Mason and Suri 2012) . Sa parehong paraan na nais mong subukan ang tungkol sa kultura ng isang bansa kung saan ikaw ay tatakbo sa iyong mga eksperimento, dapat mong subukan upang malaman ang higit pa tungkol sa kultura at mga kaugalian ng Turkers (Salehi et al. 2015) . At dapat mong malaman na ang mga Turkers ay magsasalita tungkol sa iyong eksperimento kung gagawin mo ang isang bagay na hindi naaangkop o hindi etikal (Gray et al. 2016) .
Ang MTurk ay isang hindi kapani-paniwala na maginhawang paraan upang mag-recruit ng mga kalahok sa iyong mga eksperimento, kung sila ay lab-tulad, tulad ng Huber, Hill, and Lenz (2012) , o higit pang field-like, tulad ng mga ng Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , at Mao et al. (2016) .
Kung iniisip mong subukan ang paglikha ng iyong sariling produkto, inirerekumenda ko na basahin mo ang payo na inalok ng grupo ng MovieLens sa Harper and Konstan (2015) . Ang isang pangunahing pananaw mula sa kanilang karanasan ay para sa bawat matagumpay na proyekto maraming, maraming pagkabigo. Halimbawa, inilunsad ng grupo ng MovieLens ang iba pang mga produkto, tulad ng GopherAnswers, na kumpleto na ang pagkabigo (Harper and Konstan 2015) . Ang isa pang halimbawa ng isang mananaliksik na hindi nagtagumpay habang sinusubukang bumuo ng isang produkto ay pagtatangka ni Edward Castronova na bumuo ng isang online na laro na tinatawag na Arden. Sa kabila ng $ 250,000 sa pagpopondo, ang proyekto ay isang kabiguan (Baker 2008) . Ang mga proyekto tulad ng GopherAnswers at Arden ay sa kasamaang-palad ay mas karaniwan kaysa sa mga proyekto tulad ng MovieLens.
Narinig ko ang ideya ng Pasteur's Quadrant na madalas na tinalakay sa mga tech company, at tumutulong ito sa pag-ayos ng pagsisikap sa pananaliksik sa Google (Spector, Norvig, and Petrov 2012) .
Tinutulungan din ng pag-aaral ng Bond at mga kasamahan (2012) na makita ang epekto ng mga paggamot na ito sa mga kaibigan ng mga tumatanggap sa kanila. Dahil sa disenyo ng eksperimento, ang mga spillover na ito ay mahirap matukoy nang malinis; Dapat makita ng mga interesadong mambabasa ang Bond et al. (2012) para sa isang mas masusing pag-uusap. Ang Jones at mga kasamahan (2017) ay nagsagawa rin ng isang katulad na eksperimento sa panahon ng halalan ng 2012. Ang mga eksperimento na ito ay bahagi ng isang mahabang tradisyon ng mga eksperimento sa agham pampolitika sa pagsisikap na hikayatin ang pagboto (Green and Gerber 2015) . Ang mga eksperimento sa pagkuha-out-the-vote ay karaniwan, sa bahagi dahil nasa Quadrant nila ang Pasteur. Iyon ay, maraming mga tao na motivated upang madagdagan ang pagboto at pagboto ay maaaring maging isang kawili-wiling pag-uugali upang masulit ang mga pangkalahatang mga teorya tungkol sa pagbabago ng pag-uugali at panlipunang impluwensiya.
Para sa payo tungkol sa pagpapatakbo ng mga eksperimentong field sa mga organisasyon ng kasosyo tulad ng mga partidong pampulitika, NGO, at mga negosyo, tingnan ang Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , at Gueron (2002) . Para sa mga saloobin kung paano maaaring makaapekto ang mga pakikipagtulungan sa mga organisasyon sa mga disenyo ng pananaliksik, tingnan ang King et al. (2007) at Green, Calfano, and Aronow (2014) . Ang Partnership ay maaari ring humantong sa mga etikal na katanungan, tulad ng tinalakay ng Humphreys (2015) at Nickerson and Hyde (2016) .
Kung pupunta ka ng isang plano sa pagtatasa bago patakbuhin ang iyong eksperimento, iminumungkahi ko na magsimula ka sa pamamagitan ng pagbabasa ng mga alituntunin sa pag-uulat. Ang mga gabay na CONSORT (Consolidated Standard Reporting of Trials) ay binuo sa gamot (Schulz et al. 2010) at binago para sa panlipunang pananaliksik (Mayo-Wilson et al. 2013) . Ang isang kaugnay na hanay ng mga alituntunin ay binuo ng mga editor ng Journal of Experimental Political Science (Gerber et al. 2014) (tingnan din ang Mutz and Pemantle (2015) at Gerber et al. (2015) ). Sa wakas, ang mga alituntunin sa pag-uulat ay binuo sa sikolohiya (APA Working Group 2008) , at tingnan din sina Simmons, Nelson, and Simonsohn (2011) .
Kung gumawa ka ng isang plano sa pagtatasa, dapat mong isaalang-alang ang pre-registering ito dahil ang pre-registration ay magpapataas ng tiwala na mayroon sa iyong mga resulta. Dagdag pa, kung nagtatrabaho ka sa isang kasosyo, limitahan nito ang kakayahan ng iyong partner na baguhin ang pagsusuri pagkatapos makita ang mga resulta. Ang pre-registration ay nagiging mas karaniwan sa sikolohiya (Nosek and Lakens 2014) , agham pampolitika (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , at economics (Olken 2015) .
Ang payo sa disenyo partikular para sa mga eksperimento sa online na field ay ipinakita rin sa Konstan and Chen (2007) at Chen and Konstan (2015) .
Ang tinatawag ko na diskarte sa armada ay paminsan-minsan ay tinatawag na programmatic na pananaliksik ; tingnan ang Wilson, Aronson, and Carlsmith (2010) .
Para sa higit pa sa mga eksperimento ng MusicLab, tingnan ang Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , at Salganik (2007) . Para sa higit pa sa mga winner-take-all markets, tingnan ang Frank and Cook (1996) . Para sa higit pa sa hindi kasiya-siya at kasanayan sa pangkalahatan, tingnan ang Mauboussin (2012) , Watts (2012) , at Frank (2016) .
May isa pang paraan upang maalis ang mga bayad sa kalahok na dapat gamitin ng mga mananaliksik nang may pag-iingat: conscription. Sa maraming mga eksperimento sa online na mga kalahok ay karaniwang na-draft sa mga eksperimento at hindi kailanman nabayaran. Kabilang sa mga halimbawa ng diskarte na ito ang eksperimento ng Restivo at van de Rijt (2012) sa mga gantimpala sa Wikipedia at eksperimentong Bond at kasamahan (2012) sa paghikayat sa mga tao na bumoto. Ang mga eksperimentong ito ay hindi tunay na mayroong zero cost variable-sa halip, mayroon silang zero cost variable sa mga mananaliksik . Sa ganitong mga eksperimento, kahit na ang gastos sa bawat kalahok ay napakaliit, ang aggregate cost ay maaaring masyadong malaki. Ang mga mananaliksik na nagpapatakbo ng napakalaking online na mga eksperimento ay kadalasang nagbibigay-katwiran sa kahalagahan ng maliit na tinatayang epekto sa paggamot sa pagsasabi na ang mga maliit na epekto ay maaaring maging mahalaga kapag inilapat sa maraming tao. Ang eksaktong parehong pag-iisip ay nalalapat sa mga gastos na ipinapatupad ng mga mananaliksik sa mga kalahok. Kung ang iyong eksperimento ay nagdudulot ng isang milyong mga tao na mag-aaksaya ng isang minuto, ang eksperimento ay hindi masyadong mapanganib sa anumang partikular na tao, ngunit sa kabuuan ito ay nasayang halos dalawang taon ng oras.
Ang isa pang paraan upang lumikha ng zero variable na pagbabayad sa gastos sa mga kalahok ay ang paggamit ng loterya, isang diskarte na ginagamit din sa pananaliksik sa pananaliksik (Halpern et al. 2011) . Para sa higit pa tungkol sa pagdisenyo ng kasiya-siyang mga karanasan ng gumagamit, tingnan ang Toomim et al. (2011) . Para sa higit pa tungkol sa paggamit ng mga bot upang lumikha ng zero na mga eksperimentong gastos sa gastos makita ( ??? ) .
Ang tatlong R bilang orihinal na iminungkahi ng Russell and Burch (1959) ay ang mga sumusunod:
"Kapalit ay nangangahulugan na ang pagpapalit para matauhan buhay mas mataas hayop ng walang buhay na materyal. Reduction nangangahulugan na pagbabawas sa mga numero ng mga hayop na ginagamit upang makakuha ng impormasyon ng isang naibigay na halaga at katumpakan. Refinement ay nangangahulugang anumang pagbaba sa saklaw o kalubhaan ng di-makataong pamamaraan na inilapat sa mga hayop na mayroon pa rin na gagamitin. "
Ang tatlong R na aking imungkahi ay hindi pinapawalang-bisa ang mga prinsipyo ng etika na inilarawan sa kabanata 6. Sa halip, ang mga ito ay isang mas detalyadong bersyon na isa sa mga prinsipyo na iyon-pagiging mapagbigay-partikular sa pagtatakda ng mga eksperimento ng tao.
Sa mga tuntunin ng unang R ("kapalit"), ang paghahambing sa eksperimento sa emosyonal na contagion (Kramer, Guillory, and Hancock 2014) at ang emosyonal na contagion natural na eksperimento (Lorenzo Coviello et al. 2014) nagbibigay ng ilang pangkalahatang mga aralin tungkol sa mga pagsali sa paglipat mula sa mga eksperimento sa mga natural na eksperimento (at iba pang mga diskarte tulad ng pagtutugma na pagtatangka upang humigit-kumulang na mga eksperimento sa di-eksperimentong data; tingnan ang kabanata 2). Bilang karagdagan sa mga etikal na benepisyo, ang paglipat mula sa eksperimentong sa mga hindi pag-eksperimentong mga pag-aaral ay nagpapahintulot din sa mga mananaliksik na pag-aralan ang mga paggamot na hindi sila maaaring lumawak. Gayunman, ang mga benepisyong ito sa etika at logistical ay nagkakahalaga. Sa natural na mga eksperimento, ang mga mananaliksik ay walang gaanong kontrol sa mga bagay tulad ng pangangalap ng mga kalahok, randomization, at likas na katangian ng paggamot. Halimbawa, ang isang limitasyon ng pag-ulan bilang isang paggamot ay na ito ay parehong nagdaragdag positibo at bumababa sa negatibiti. Gayunman, sa pag-aaral ng eksperimento, nakapag-ayos ng positibo at negatibiti ang Kramer at mga kasamahan. Ang partikular na diskarte na ginamit ni Lorenzo Coviello et al. (2014) pinalawig pa ni L. Coviello, Fowler, and Franceschetti (2014) . Para sa isang pagpapakilala sa mga variable ng nakatulong, na kung saan ay ang diskarte na ginamit ni Lorenzo Coviello et al. (2014) , tingnan ang Angrist and Pischke (2009) (mas pormal) o Angrist, Imbens, and Rubin (1996) (mas pormal). Para sa isang may pag-aalinlangan na pagtatasa ng mga variable na nakatulong, tingnan ang Deaton (2010) , at para sa isang pagpapakilala sa mga variable ng instrumental na may mahinang mga instrumento (ang ulan ay isang mahinang instrumento), tingnan ang Murray (2006) . Sa pangkalahatan, ang isang mahusay na pagpapakilala sa mga likas na eksperimento ay ibinibigay ni Dunning (2012) , habang ang Rosenbaum (2002) , ( ??? ) , At Shadish, Cook, and Campbell (2001) aalok ng mga magagandang ideya tungkol sa pagtantya ng mga pang-epekto na walang mga eksperimento.
Sa mga tuntunin ng pangalawang R ("refinement"), may mga pang-agham at logistical trade-off kapag isinasaalang-alang ang pagpapalit ng disenyo ng Emosyonal Contagion mula sa pagharang sa mga post sa pagpapalakas ng mga post. Halimbawa, maaaring ang kaso na ang teknikal na pagpapatupad ng Feed ng Balita ay ginagawang mas madaling gawin ang isang eksperimento kung saan ang mga post ay hinarangan sa halip na isa kung saan sila ay pinalakas (tandaan na ang isang eksperimento na kinasasangkutan ng pagharang ng mga post ay maaring ipatupad bilang isang layer sa itaas ng sistema ng Feed ng Balita nang walang anumang pangangailangan para sa mga pagbabago sa pinagbabatayan system). Gayunman, sa siyentipiko, ang teorya na tinutugunan ng eksperimento ay hindi malinaw na iminumungkahi ang isang disenyo sa iba. Sa kasamaang palad, hindi ko alam ang malaking naunang pananaliksik tungkol sa mga kamag-anak ng pag-block at pagpapalakas ng nilalaman sa News Feed. Gayundin, hindi ko nakita ang maraming pananaliksik tungkol sa mga paggamot sa pagpino upang gawing mas nakakapinsala ang mga ito; Ang isang eksepsiyon ay B. Jones and Feamster (2015) , na isinasaalang-alang ang kaso ng pagsukat ng Internet censorship (isang paksa na tatalakayin ko sa kabanata 6 na may kaugnayan sa pag-aaral ng Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Sa mga tuntunin ng ikatlong R ("pagbawas"), ang mga mahusay na pagpapakilala sa tradisyunal na pagtatasa ng kapangyarihan ay ibinibigay ni Cohen (1988) (aklat) at Cohen (1992) (artikulo), habang si Gelman and Carlin (2014) aalok ng bahagyang naiibang pananaw. Ang mga pre-treatment covariates ay maaaring kasama sa yugto ng disenyo at pag-aaral ng mga eksperimento; Ang kabanata 4 ng Gerber and Green (2012) nagbibigay ng isang mahusay na panimula sa parehong mga diskarte, at Casella (2008) nagbibigay ng isang mas malalim na paggamot. Ang mga diskarte na gumagamit ng impormasyong pre-paggamot na ito sa randomization ay karaniwang tinatawag na alinman sa naka-block na mga pang-eksperimentong disenyo o pinag-istilong mga disenyo ng eksperimentong (ang terminolohiya ay hindi ginagamit nang tuluyan sa mga komunidad); ang mga pamamaraan na ito ay malapit na nauugnay sa mga diskarte sa Higgins, Sävje, and Sekhon (2016) tinalakay sa kabanata 3. Tingnan ang Higgins, Sävje, and Sekhon (2016) para sa higit pa sa paggamit ng mga disenyo sa malalaking eksperimento. Ang mga pre-treatment covariates ay maaari ring kasama sa yugto ng pagtatasa. McKenzie (2012) ang pagkakaiba sa pagkakaiba-sa-pagkakaiba sa pag-aaral ng mga eksperimento sa patlang nang mas detalyado. Tingnan ang Carneiro, Lee, and Wilhelm (2016) para sa higit pa sa mga trade-off sa pagitan ng iba't ibang mga diskarte upang madagdagan ang katumpakan sa mga pagtatantya ng mga epekto sa paggamot. Sa wakas, kapag nagpapasiya kung susubukang isama ang mga kovariate na pre-treatment sa yugto ng disenyo o pagtatasa (o pareho), may ilang mga bagay na dapat isaalang-alang. Sa isang setting kung saan nais ipinapakita ng mga mananaliksik na hindi sila "pangingisda" (Humphreys, Sierra, and Windt 2013) , ang paggamit ng mga kovariate sa pre-treatment sa yugto ng disenyo ay makatutulong (Higgins, Sävje, and Sekhon 2016) . Sa mga sitwasyon kung saan dumarating ang mga kalahok nang sunud-sunod, lalo na ang mga eksperimento sa online na field, ang paggamit ng impormasyon sa pre-paggamot sa yugto ng disenyo ay maaaring mahirap logistically; tingnan, halimbawa, Xie and Aurisset (2016) .
Ito ay nagkakahalaga ng pagdaragdag ng isang bit ng intuwisyon tungkol sa kung bakit ang isang pagkakaiba-sa-pagkakaiba ng diskarte ay maaaring maging mas epektibo kaysa sa isang pagkakaiba-sa-ibig sabihin ng isa. Maraming mga kinalabasan sa online ang may napakalaking pagkakaiba (tingnan ang hal., RA Lewis and Rao (2015) at Lamb et al. (2015) ) at relatibong matatag sa paglipas ng panahon. Sa kasong ito, ang puntos ng pagbabago ay magkakaroon ng mas maliit na pagkakaiba-iba, pagdaragdag ng kapangyarihan ng statistical test. Ang isang kadahilanan na ito ay hindi ginagamit nang mas madalas ay na bago ang digital age, hindi karaniwan na magkaroon ng mga kinalabasan ng pre-paggamot. Ang isang mas kongkreto na paraan upang mag-isip tungkol dito ay upang isipin ang isang eksperimento upang masukat kung ang isang partikular na ehersisyo na gawain ay nagiging sanhi ng pagbaba ng timbang. Kung gumamit ka ng isang diskarte sa pagkakaiba-sa-ibig sabihin, ang iyong pagtantya ay magkakaroon ng pagkakaiba-iba na nagmumula sa pagkakaiba-iba sa timbang sa populasyon. Kung gagawin mo ang isang diskarte sa pagkakaiba-sa-pagkakaiba, gayunpaman, ang natural na nagaganap na pagkakaiba-iba sa mga timbang ay aalisin, at mas madali mong matuklasan ang isang pagkakaiba na sanhi ng paggamot.
Sa wakas, isinasaalang-alang ko ang pagdaragdag ng ika-apat na R: "repurpose". Iyon ay, kung ang mga mananaliksik ay makahanap ng kanilang mga sarili na may higit pang mga pang-eksperimentong data kaysa sa kailangan nila upang tugunan ang kanilang orihinal na pananaliksik na tanong, dapat nilang repurpose ang data upang magtanong ng mga bagong tanong. Halimbawa, isipin na ang Kramer at mga kasamahan ay gumamit ng isang pagkakaiba sa pagkakaiba-sa-pagkakaiba at natagpuan ang kanilang sarili sa mas maraming data kaysa sa kailangan nila upang tugunan ang kanilang katanungan sa pananaliksik. Sa halip na gamitin ang data nang lubusan, maaari nilang pag-aralan ang sukat ng epekto bilang isang function ng pre-paggamot emosyonal na expression. Tulad ng Schultz et al. (2007) natagpuan na ang epekto ng paggamot ay naiiba para sa mga magaan at mabigat na mga gumagamit, marahil ang mga epekto ng News Feed ay naiiba para sa mga tao na naka-post na ng maligayang (o malungkot) mga mensahe. Ang pagrepaso ay maaaring humantong sa "pangingisda" (Humphreys, Sierra, and Windt 2013) at "p-hack" (Simmons, Nelson, and Simonsohn 2011) , ngunit ang mga ito ay higit na matugunan na may kombinasyon ng matapat na pag-uulat (Simmons, Nelson, and Simonsohn 2011) , pre-registration (Humphreys, Sierra, and Windt 2013) , at mga pamamaraan sa pag-aaral ng machine na nagsisikap na maiwasan ang labis na angkop.