Ang seksyon na ito ay dinisenyo upang magamit bilang isang sanggunian, sa halip na basahin bilang isang nagkukuwento.
Mga tanong tungkol sa pananahilan sa panlipunang pananaliksik ay madalas na mahirap unawain at masalimuot. Para sa isang foundational diskarte sa pananahilan batay sa pananahilan graphs, tingnan Pearl (2009) , at para sa isang foundational diskarte batay sa mga potensyal na kinalabasan, tingnan Imbens and Rubin (2015) (at ang mga teknikal na apendiks sa kabanatang ito). Para sa isang paghahambing sa pagitan ng dalawang approach na ito, makita Morgan and Winship (2014) . Para sa isang pormal na diskarte sa pagtukoy ng isang confounder, tingnan VanderWeele and Shpitser (2013) .
Sa kabanatang ito, nilikha ko kung ano ang tila tulad ng isang maliwanag na linya sa pagitan ng aming kakayahan na gumawa ng pananahilan mga pagtatantya mula sa pang-eksperimentong at non-eksperimento data. Sa katotohanan, sa tingin ko na ang mga pagkakaiba ay blurrier. Halimbawa, lahat ng tao ay tumatanggap na ang paninigarilyo nagiging sanhi ng kanser kahit na kami ay hindi kailanman ginawa ng isang randomized kinokontrol na eksperimento na pwersa mga tao na manigarilyo. Para sa mahusay na haba ng libro treatment sa paggawa pananahilan pagtatantya mula sa mga di-pang-eksperimentong data na nakikita Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , at Dunning (2012) .
Chapters 1 at 2 ng Freedman, Pisani, and Purves (2007) ay nag-aalok ng isang malinaw na pagpapakilala sa mga pagkakaiba sa pagitan ng mga eksperimento, kinokontrol mga eksperimento, at randomized kinokontrol na mga eksperimento.
Manzi (2012) ay nagbibigay ng isang kaakit-akit at nababasa pagpapakilala sa pilosopiko at pang-istatistikang underpinnings ng randomized kinokontrol na mga eksperimento. Nagbibigay din ito ng mga kagiliw-giliw halimbawa sa totoong buhay ng kapangyarihan ng pag-eksperimento sa negosyo.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) magbigay ng magandang pagpapakilala sa statistical mga aspeto ng pang-eksperimentong disenyo at pagtatasa. Dagdag dito, may mga mahusay na paggamot dahil sa paggamit ng mga eksperimento sa maraming iba't ibang mga patlang: economics (Bardsley et al. 2009) , Sosyolohiya (Willer and Walker 2007; Jackson and Cox 2013) , sikolohiya (Aronson et al. 1989) , Ang agham pampolitika (Morton and Williams 2010) , at panlipunang patakaran (Glennerster and Takavarasha 2013) .
Ang kahalagahan ng kalahok recruitment (eg, sampling) ay madalas na sa ilalim-appreciated sa experimental research. Gayunpaman, kung ang epekto ng paggamot ay magkakaiba sa populasyon, pagkatapos sampling ay kritikal. Longford (1999) gumagawa puntong ito malinaw na kapag siya tagapagtaguyod para sa mga mananaliksik ng pag-iisip ng mga eksperimento bilang populasyon survey sa walang tuos sampling.
Ang paghihiwalay sa dalawang bahagi na ako iniharap sa pagitan lab at ang patlang na eksperimento ay isang bit pinasimple. Sa katunayan, iba pang nagpanukala mas detalyadong typologies, sa partikular na mga na hiwalay na ang iba't ibang anyo ng field eksperimento (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Dagdag dito, may mga dalawang iba pang mga uri ng mga eksperimento ginanap sa pamamagitan ng mga social siyentipiko na hindi akma nang maayos sa ang lab at ang patlang na paghihiwalay sa dalawang bahagi:. Survey eksperimento at panlipunan eksperimento Survey eksperimento ay mga eksperimento gamit ang imprastraktura ng mga umiiral na mga survey at ihambing kasagutan sa mga alternatibong mga bersyon ng parehong mga katanungan (ang ilang mga survey na mga eksperimento ay iniharap sa Chapter 3); para sa karagdagang sa survey eksperimento makita Mutz (2011) . Social eksperimento ay mga eksperimento kung saan ang paggamot ay ang ilang mga panlipunang patakaran na maaari lamang ipinatupad ng isang pamahalaan. Social na mga eksperimento ay malapit na nauugnay sa programa ng pagsusuri. Para sa karagdagang sa mga eksperimento patakaran, tingnan Orr (1998) , Glennerster and Takavarasha (2013) , at Heckman and Smith (1995) .
Ang isang bilang ng mga papeles ay may inihambing lab at ang patlang na mga eksperimento sa abstract (Falk and Heckman 2009; Cialdini 2009) at sa mga tuntunin ng mga kinalabasan ng mga tiyak na mga eksperimento sa agham pampolitika (Coppock and Green 2015) , economics (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) at sikolohiya (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) ay nag-aalok ng isang magandang disenyo ng pananaliksik para sa paghahambing ng mga resulta mula sa lab at ang patlang na mga eksperimento.
Mga alalahanin tungkol sa mga kalahok pagbabago ng kanilang pag-uugali dahil alam nila sila ay malapit na sinusunod ay minsan tinatawag na demand effects, at sila ay nag-aral sa sikolohiya (Orne 1962) at economics (Zizzo 2009) . Kahit halos na nauugnay sa mga eksperimento lab, ang parehong mga isyu ay maaaring magdulot ng mga problema para sa field eksperimento pati na rin. Sa katunayan, demand epekto ay din minsan ay tinatawag Hawthorne epekto, isang term na derives mula sa isang eksperimento patlang, partikular na ang mga sikat na pag-iilaw mga eksperimento na nagsimula sa 1924 sa Hawthorne Works ng Western Electric Company (Adair 1984; Levitt and List 2011) . Parehong demand na mga epekto at Hawthorn epekto ay malapit na nauugnay sa ang ideya ng reaktibo pagsukat ng tinalakay sa Kabanata 2 (tingnan din Webb et al. (1966) ).
Ang kasaysayan ng field eksperimento ay inilarawan sa economics (Levitt and List 2009) , pampulitika agham (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , sikolohiya (Shadish 2002) , at patakarang pampubliko (Shadish and Cook 2009) . Isang lugar ng agham panlipunan kung saan field eksperimento mabilis na naging tanyag ay international development. Para sa isang positibong pagsusuri ng na trabaho sa loob ng economics makita Banerjee and Duflo (2009) , at para sa isang kritikal na pagtatasa makita Deaton (2010) . Para sa isang pagsusuri ng mga ito ng trabaho sa agham pampulitika makita Humphreys and Weinstein (2009) . Sa wakas, ang etikal hamon na kasangkot sa patlang na mga eksperimento ay explored sa agham pampolitika (Humphreys 2015; Desposato 2016b) at pag-unlad economics (Baele 2013) .
Sa kabanata, iminungkahi ko na pre-paggamot impormasyon ay maaaring gamitin upang mapabuti ang katumpakan ng tinatayang epekto paggamot, ngunit may ilang mga debate tungkol sa mga ito diskarte: Freedman (2008) , Lin (2013) , at Berk et al. (2013) ; makita Bloniarz et al. (2016) para sa karagdagang impormasyon.
Pinili ko mag-focus sa tatlong konsepto: bisa, heterogeneity ng mga epekto ng paggamot, at mga mekanismo. Ang mga konsepto ay may iba't ibang mga pangalan sa iba't ibang larangan. Halimbawa, psychologists ay may posibilidad upang ilipat na lampas sa simpleng mga eksperimento sa pamamagitan ng tumututok sa mediators at mga moderator (Baron and Kenny 1986) . Ang ideya ng mediators ay nakunan ng kung ano ang tawag ko mekanismo, at ang ideya ng mga moderator ay nakunan ng kung ano ang tawag ko ang panlabas na katotohanan (eg, ang gusto ang mga resulta ng eksperimento ay naiiba kung ito ay tatakbo sa iba't ibang sitwasyon) at heterogeneity ng mga epekto paggamot ( eg, ang mga epekto mas malaki para sa ilang mga tao kaysa sa iba pang mga tao).
Ang eksperimento ng Schultz et al. (2007) ay nagpapakita kung paano social theories ay maaaring gamitin upang mag-disenyo ng epektibong mga pamamagitan. Para sa isang mas pangkalahatang argument tungkol sa papel ng teorya sa pagdisenyo epektibong pamamagitan, tingnan Walton (2014) .
Ang konsepto ng mga panloob at panlabas na katotohanan ay unang ipinakilala sa Campbell (1957) . Tingnan Shadish, Cook, and Campbell (2001) para sa isang mas detalyadong kasaysayan at isang maingat na pagpaliwanag ng statistical pagkabisa konklusyon, panloob na bisa, ay makagawa ng bisa, at panlabas na katotohanan.
Para sa isang pangkalahatang-ideya ng mga isyu na may kaugnayan sa statistical pagkabisa konklusyon sa mga eksperimento makita Gerber and Green (2012) (para sa isang social pananaw science) at Imbens and Rubin (2015) (para sa isang statistical pananaw). Ang ilang mga isyu ng statistical pagkabisa konklusyon na lumabas dahil partikular sa online eksperimento patlang isama mga isyu tulad ng computationally mahusay na pamamaraan para sa paglikha ng agwat ng kumpyansa na may mga sakop data (Bakshy and Eckles 2013) .
Internal bisa ay maaaring maging mahirap upang matiyak sa mga komplikadong mga eksperimento field. Tingnan, halimbawa, Gerber and Green (2000) , Imai (2005) , at Gerber and Green (2005) para sa debate tungkol sa pagpapatupad ng isang komplikadong eksperimento parang, ay may pagboto. Kohavi et al. (2012) at Kohavi et al. (2013) ay nagbibigay ng isang panimula sa ang mga hamon ng interval bisa sa online eksperimento field.
Isa sa mga pangunahing pag-aalala na may panloob na bisa ay problema sa randomization. Ang isang paraan upang potensyal na makita ang mga problema sa mga randomization ay upang ihambing ang paggamot at kontrol grupo sa kapansin-pansin katangian na ito. Ang ganitong uri ng paghahambing ay tinatawag na isang balanse check. Tingnan Hansen and Bowers (2008) para sa isang statistical diskarte sa balanse tseke, at makita Mutz and Pemantle (2015) para sa mga alalahanin tungkol sa mga tseke balanse. Halimbawa, ang paggamit ng isang balanse check Allcott (2011) natagpuan na may ilang mga katibayan na ang randomization ay hindi naipatupad nang tama sa tatlong ng mga eksperimento sa ilan sa mga eksperimento OPower (tingnan ang Table 2; sites 2, 6, at 8). Para sa iba pang mga pamamaraang, tingnan Imbens and Rubin (2015) , Kabanata 21.
Iba pang mga pangunahing mga alalahanin na may kaugnayan sa panloob na bisa ay: 1) tagibang di-pagsunod, kung saan hindi lahat ng tao sa grupo paggamot aktwal na natanggap ng paggamot, 2) dalawang panig di-pagsunod, kung saan hindi lahat ng tao sa grupo ng paggamot na natatanggap ang treatment at ilang mga tao sa control group makatanggap ng paggamot, 3) attrition, kung saan kinalabasan ay hindi sinusukat para sa ilang mga kalahok, at 4) pagkagambala, kung saan ang paggamot spills sa ibabaw mula sa mga tao sa kalagayan paggamot sa mga tao sa kalagayan control. Tingnan Gerber and Green (2012) Kabanata 5, 6, 7, at 8 para sa karagdagang sa bawat isa sa mga isyung ito.
Para sa higit sa validity tayuan, tingnan Westen and Rosenthal (2003) , at para sa higit pa sa validity tayuan sa malaking pinagkukunan ng data, Lazer (2015) at Kabanata 2 ng aklat na ito.
Isang aspeto ng panlabas na katotohanan ay ang setting na kung saan isang interbensyon ay nasubok. Allcott (2015) ay nagbibigay ng isang maingat panteorya at empirical paggamot ng pagpili ng site bias. Ang isyu na ito ay tinalakay sa Deaton (2010) . Bilang karagdagan sa pagiging kinokopya sa maraming mga site, ang Home Energy Report interbensyon ay din ay nakapag-iisa-aral sa pamamagitan ng maramihang mga grupo ng pananaliksik (eg, Ayres, Raseman, and Shih (2013) ).
Para sa isang mahusay na pangkalahatang-ideya ng heterogeneity ng mga epekto ng paggamot sa larangan na eksperimento, tingnan ang Kabanata 12 ng Gerber and Green (2012) . Para Pagpapakilala sa heterogeneity ng mga epekto ng paggamot sa mga medikal na mga pagsubok, tingnan ang Kent and Hayward (2007) , Longford (1999) , at Kravitz, Duan, and Braslow (2004) . Heterogeneity ng mga epekto ng paggamot sa pangkalahatan ay tumutok sa mga pagkakaiba batay sa mga katangian pre-paggamot. Kung ikaw ay interesado sa heterogeneity batay sa kinalabasan post-treatment, pagkatapos ay mas kumplikado approachs ay kinakailangan tulad ng mga punong-guro pagsasapin-sapin (Frangakis and Rubin 2002) ; makita Page et al. (2015) para sa isang pagsusuri.
Maraming mga mananaliksik inestima na ang heterogeneity ng mga epekto paggamot gamit linear pagbabalik, ngunit mas bagong pamamaraan umaasa sa mga machine learning, halimbawa Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , at Athey and Imbens (2016a) .
Mayroong ilang mga pag-aalinlangan tungkol natuklasan ng heterogeneity ng mga epekto dahil sa maramihang mga problema paghahambing at "fishing." May mga iba't-ibang mga statistical approach na maaaring makatulong sa address alalahanin tungkol sa maramihang paghahambing (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Isa diskarte sa mga alalahanin tungkol sa "pangingisda" ay pre-registration, na kung saan ay nagiging Padalas nang padalas karaniwan sa sikolohiya (Nosek and Lakens 2014) , pampulitika agham (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , at economics (Olken 2015) .
Sa pag-aaral ng Costa and Kahn (2013) lamang tungkol sa kalahati ng mga kabahayan sa eksperimento nagawang ma-link sa ang demograpikong impormasyon. Mambabasa interesado sa ang mga detalye at mga posibleng problema sa pagtatasa na ito ay dapat sumangguni sa orihinal na papel.
Mekanismo ay incredibly mahalaga, ngunit sila i-out na maging mahirap upang mag-aral. Research tungkol mekanismo malapit na nauugnay sa pag-aaral ng mediators sa sikolohiya (ngunit tingnan din VanderWeele (2009) para sa isang tiyak paghahambing sa pagitan ng dalawang mga ideya). Statistical pamamaraang sa paghahanap ng mga mekanismo, tulad ng mga diskarte na binuo sa Baron and Kenny (1986) , ay ganap pangkaraniwan. Sa kasamaang palad, ito ay lumiliko out na ang mga pamamaraan ay depende sa ilang mga malakas na pagpapalagay (Bullock, Green, and Ha 2010) at magdusa kapag mayroong maramihang mga mekanismo, bilang isa maaaring asahan sa maraming mga sitwasyon (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) at Imai and Yamamoto (2013) nag-aalok ng ilang mga pinahusay na statistical methods. Dagdag dito, VanderWeele (2015) nag-aalok ng isang libro-length paggamot na may isang bilang ng mga mahalagang mga resulta, kabilang ang isang kumpletong diskarte sa sensitivity analysis.
Ang isang hiwalay na diskarte ay nakatutok sa mga eksperimento na pagtatangka upang mamanipula ang mekanismo direkta (eg, na nagbibigay sa sailors bitamina C). Sa kasamaang palad, sa maraming mga setting social science may mga madalas maramihang mga mekanismo at ito ay mahirap upang mag-disenyo paggamot na baguhin ang isa nang hindi binabago ang iba. Ang ilang mga pamamaraang sa pagtuklas binabago mekanismo ay inilarawan sa Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , at Pirlott and MacKinnon (2016) .
Sa wakas, mekanismo ay mayroon ding isang mahabang kasaysayan sa pilosopiya ng agham tulad ng inilarawan sa pamamagitan ng Hedström and Ylikoski (2010) .
Para sa karagdagang sa ang paggamit ng mga liham pag-aaral at pag-aaral ng pag-audit upang masukat diskriminasyon makita Pager (2007) .
Ang pinaka-karaniwang paraan upang kumalap mga kalahok upang eksperimento na bumuo ka ay Amazon Mechanical Turk (MTurk). Dahil MTurk mimics aspeto ng tradisyonal na lab eksperimento na magbayad na mga tao upang makumpleto ang mga gawain na hindi nila gawin para sa free-maraming mga mananaliksik ay may nagsimula gamit Turkers (ang mga manggagawa sa MTurk) bilang kalahok sa pantao paksa eksperimento na nagreresulta sa mas mabilis at mas mura sa pagkolekta ng data kaysa sa tradisyonal na on-campus laboratoryo mga eksperimento (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Ang pinakamalaking lakas ng mga eksperimento na may mga kalahok hinikayat na mula MTurk ay logistical: pinapayagan nila mananaliksik upang kumalap mga kalahok nang mabilis at kung kinakailangan. Sapagkat lab eksperimento ay maaaring tumagal ng mga linggo na tumakbo at field eksperimento ay maaaring tumagal ng mga buwan upang i-set-up, mga eksperimento na may mga kalahok hinikayat na mula MTurk maaaring tumakbo sa araw na ito. Halimbawa, Berinsky, Huber, and Lenz (2012) ay able sa kumalap 400 paksa sa isang solong araw upang lumahok sa isang 8 minuto eksperimento. Dagdag dito, ang mga kalahok ay maaaring hinikayat na para sa kahit anong layunin (kabilang ang mga survey at mass pakikipagtulungan, gaya ng tinalakay sa Kabanata 3 at 5). Ito kadalian ng recruitment ay nangangahulugan na ang mga mananaliksik ay maaaring magpatakbo ng mga pagkakasunud-sunod ng mga kaugnay na mga eksperimento sa mabilis na magkakasunod.
Bago recruiting kalahok mula MTurk para sa iyong sariling mga eksperimento, may mga apat na mahalagang bagay na dapat malaman. Una, maraming mga mananaliksik ay may isang di-tiyak na pag-aalinlangan ng mga eksperimento na kinasasangkutan Turkers. Dahil ito aalinlangan ay hindi na tiyak, ito ay mahirap na counter na may ebidensya. Gayunpaman, pagkatapos ng ilang mga taon ng pag-aaral gamit Turkers, kami ay maaari na ngayong tapusin na ito pag-aalinlangan ay hindi lalo na kinakailangan. Nagkaroon ng maraming mga pag-aaral ng paghahambing ng mga demograpiko ng Turkers sa iba pang mga populasyon at maraming pag-aaral ng paghahambing ng mga resulta ng mga eksperimento na may Turkers sa mga resulta mula sa iba pang mga populasyon. Dahil sa lahat ng gawaing ito, sa tingin ko na ang pinakamahusay na paraan para sa iyo na mag-isip tungkol dito ay na Turkers ay isang makatwirang convenience sample, marami tulad ng mga mag-aaral ngunit bahagyang mas magkakaibang (Berinsky, Huber, and Lenz 2012) . Kaya, tulad mag-aaral ay isang makatwirang populasyon para sa ilang ngunit hindi lahat experimental pananaliksik, Turkers ay isang makatwirang populasyon para sa ilang ngunit hindi lahat ng pananaliksik. Kung ikaw ay pagpunta sa trabaho sa Turkers, pagkatapos ito ang akma upang basahin ang marami sa mga comparative pag-aaral at maunawaan ang kanilang mga nuances.
Pangalawa, mga mananaliksik ay may binuo ng pinakamahusay na kasanayan para sa pagtaas ng panloob na bisa ng Turk mga eksperimento, at dapat mong malaman tungkol sa at sundin ang mga pinakamahusay na kasanayan (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Halimbawa, ang mga mananaliksik gamit Turkers ay hinihikayat na gamitin screeners alisin hindi nag-iintindi kalahok (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (ngunit tingnan din DJ Hauser and Schwarz (2015b) at DJ Hauser and Schwarz (2015a) ). Kung hindi mo alisin ang hindi nag-iintindi kalahok, pagkatapos ay ang anumang epekto ng paggamot ay maaaring hugasan out sa pamamagitan ng ingay ipinakilala mula nag-iintindi kalahok, at sa pagsasanay ang bilang ng mga hindi nag-iintindi kalahok ay maaaring maging matibay. Sa eksperimento ng Huber at kasamahan (2012) tungkol sa 30% ng mga kalahok ay nabigo pangunahing pansin screeners. Ang isa pang problema karaniwan sa Turkers ay non-walang muwang mga kalahok (Chandler et al. 2015) .
Third, kamag-anak sa ilang mga iba pang mga anyo ng mga digital na mga eksperimento, MTurk eksperimento ay maaaring hindi scale; Stewart et al. (2015) estima na sa anumang naibigay na oras may mga lamang tungkol sa 7,000 mga tao sa MTurk.
Sa wakas, dapat mong malaman na MTurk ay isang komunidad na may sariling patakaran at kaugalian (Mason and Suri 2012) . Sa parehong paraan na nais mong subukan upang malaman ang tungkol sa kultura ng isang bansa kung saan ikaw ay pagpunta upang patakbuhin ang iyong mga eksperimento, dapat mong subukan upang makakuha ng karagdagang kaalaman tungkol sa kultura at kaugalian ng Turkers (Salehi et al. 2015) . At, dapat mong malaman na ang Turkers ay pakikipag-usap tungkol sa iyong mga eksperimento kung gagawin mo ang isang bagay hindi naaangkop o unethical (Gray et al. 2016) .
MTurk ay isang hindi kapani-paniwalang maginhawang paraan upang kumalap mga kalahok sa iyong mga eksperimento, kung ang mga ito lab-tulad ng, tulad ng Huber, Hill, and Lenz (2012) , o higit pang mga patlang na-tulad ng, tulad ng Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , at Mao et al. (2016) .
Kung ikaw ay iisip ng sinusubukan upang lumikha ng iyong sariling mga produkto, inirerekumenda ko na basahin mo ang payo na inaalok ng mga MovieLens grupo sa Harper and Konstan (2015) . Ang isang pangunahing pananaw mula sa kanilang mga karanasan ay na para sa bawat matagumpay na proyekto maraming, maraming mga pagkabigo. Halimbawa, ang MovieLens grupo inilunsad iba pang mga produkto tulad ng GopherAnswers na kumpletong pagkabigo (Harper and Konstan 2015) . Ang isa pang halimbawa ng isang researcher hindi pagtupad habang sinusubukang upang bumuo ng isang produkto ay pagtatangka Edward Castronova upang bumuo ng isang online game na tinatawag na Arden. Sa kabila $ 250,000 sa pagpopondo, ang proyekto ay isang kabiguan (Baker 2008) . Proyekto tulad GopherAnswers at Arden ay sa kasamaang-palad mas karaniwan kaysa sa mga proyekto tulad ng MovieLens. Sa wakas, kapag sinabi ko na hindi ko alam ng anumang iba pang na ay matagumpay na binuo produkto para paulit-ulit na pag-eksperimento narito ang aking pamantayan: 1) kalahok gamitin ang mga produkto dahil sa kung ano ito ay nagbibigay ng mga ito (eg, ang mga ito ay hindi binayaran at sila ay hindi boluntaryo pagtulong science) at 2) ang produkto ay ginagamit para sa higit sa isang natatanging eksperimento (ibig sabihin, hindi ang parehong eksperimento ng maraming beses na may iba't ibang kalahok pool). Kung alam mo ng iba pang mga halimbawa, mangyaring ipaalam sa akin.
Ko na narinig ang ideya ng ni Pasteur Quadrant tinalakay madalas sa tech na mga kompanya, at ito ay tumutulong ayusin ang mga pagsisikap ng pananaliksik sa Google (Spector, Norvig, and Petrov 2012) .
Bond at kasamahan 'pag-aaral (2012) din pagtatangka upang tuklasin ang mga epekto ng mga treatment sa mga kaibigan ng mga taong nakatanggap ang mga ito. Dahil sa disenyo ng eksperimento, ang mga spillovers ay mahirap na matagpuan nang malinis; interesado mga mambabasa ay dapat na makita Bond et al. (2012) para sa isang mas masusing talakayan. Ang eksperimentong ito ay bahagi ng isang mahabang tradisyon ng mga eksperimento sa agham pampulitika sa mga pagsisikap upang hikayatin ang pagboto (Green and Gerber 2015) . Ang mga get-out-the-vote eksperimento ay karaniwan sa bahagi dahil sila ay sa ni Pasteur Quadrant. Iyon ay, may mga maraming mga tao na motivated upang madagdagan pagboto at pagboto ay maaaring maging isang kawili-wiling pag-uugali upang subukan ang mas pangkalahatang theories tungkol sa ikinikilos ng pagbabago at panlipunang impluwensiya.
Iba pang mga mananaliksik ay may ibinigay na payo tungkol sa pagpapatakbo ng field eksperimento na may mga organisasyon ng kasosyo tulad ng mga partidong pampulitika, NGOs, at mga negosyo (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Ang iba ay may inaalok ng payo tungkol sa kung paano mga pakikipagtulungan sa mga organisasyong ito ay maaaring makaapekto sa mga disenyo ng pananaliksik (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnership maaari ring humantong sa etikal tanong (Humphreys 2015; Nickerson and Hyde 2016) .
Kung ikaw ay pagpunta lumikha ng isang pag-aaral plan bago patakbuhin ang iyong eksperimento, minumungkahi ko na simulan mo sa pamamagitan ng pagbabasa alituntunin sa pag-uulat. Ang asawa (Consolidated Standard Pag-uulat ng pagsubok) mga patnubay ay binuo sa medisina (Schulz et al. 2010) at binagong para sa panlipunang pananaliksik (Mayo-Wilson et al. 2013) . Ang mga kaugnay na hanay ng mga alituntunin na ito ay binuo sa pamamagitan ng mga editor ng Journal ng Experimental Political Science (Gerber et al. 2014) (tingnan din Mutz and Pemantle (2015) at Gerber et al. (2015) ). Sa wakas, pag-uulat mga alituntunin na ito ay binuo sa sikolohiya (Group 2008) , at tingnan din Simmons, Nelson, and Simonsohn (2011) .
Kung lumikha ka ng isang plano sa pagtatasa ay dapat mong isaalang-alang pre-pagrerehistro ito dahil pre-registration ay dagdagan ang pagtitiwala na ang iba ay may sa iyong mga resulta. Dagdag dito, kung ikaw ay nagtatrabaho sa isang partner, ito limitahan ang kakayahan ng iyong partner upang baguhin ang pagtatasa pagkatapos ng nakikita ang mga resulta. Pre-registration ay nagiging unting karaniwang sa sikolohiya (Nosek and Lakens 2014) , pampulitika agham (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , at economics (Olken 2015) .
Habang ang paglikha ng iyong pre-pagtatasa plano dapat mong malaman na ang ilang mga mananaliksik din gamitin pagbabalik at mga kaugnay na mga diskarte upang mapabuti ang katumpakan ng ang tinantyang epekto ng paggamot, at may ilang mga debate tungkol sa mga ito diskarte: Freedman (2008) , Lin (2013) , at Berk et al. (2013) ; makita Bloniarz et al. (2016) para sa karagdagang impormasyon.
Design payo para mismo sa online eksperimento field ay iniharap din sa Konstan and Chen (2007) at Chen and Konstan (2015) .
Para sa karagdagang sa ang mga eksperimento MusicLab, tingnan Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , at Salganik (2007) . Para sa higit sa winner-take-all markets, tingnan Frank and Cook (1996) . Para sa higit sa untangling kapalaran at kasanayan mas pangkalahatang paraan, makita Mauboussin (2012) , Watts (2012) , at Frank (2016) .
May isa pang diskarte sa pag-aalis ng mga pagbabayad kalahok na ang mga mananaliksik ay dapat gamitin may pag-iingat: sapilitang pagpapasundalo o pagpapamarino. Sa maraming online eksperimento field kalahok ay talaga drafted sa mga eksperimento at hindi kailanman bayad. Mga halimbawa ng mga ito diskarte ay kinabibilangan Restivo at van de Rijt ni (2012) eksperimento sa mga gantimpala sa Wikipedia at Bond at ni kasamahan (2012) eksperimento sa mahikayat ang mga tao nang bumoto. Ang mga eksperimento ay hindi talagang magkaroon zero variable cost, mayroon silang zero variable cost sa mga mananaliksik. Kahit na ang gastos ng marami sa mga eksperimentong ito ay lubhang maliit sa bawat kalahok, maliit gastos na ipinataw ng isang malaking bilang ng mga kalahok ay maaaring magdagdag ng up ng mabilis. Mananaliksik tumatakbo napakalaking online eksperimento madalas bigyang-katwiran ang kahalagahan ng maliit na tinatayang epekto ng paggamot sa pamamagitan ng pagsasabi na ang mga maliliit na mga epekto ay maaaring maging mahalaga kapag inilalapat sa maraming mga tao. Ang eksaktong parehong pag-iisip ay sumasaklaw sa mga gastos na ang mga mananaliksik magpataw sa mga kalahok. Kung ang iyong mga eksperimento nagiging sanhi ng isa milyong mga tao na mag-aaksaya ng isang minuto, ang eksperimento ay hindi masyadong mapanganib sa anumang partikular na tao, ngunit sa pinagsama-samang ito ay nasayang halos dalawang taon ng panahon.
Isa pang diskarte sa paglikha ng zero variable cost pagbabayad sa mga kalahok ay ang paggamit ng isang loterya, isang diskarte na ay din ay ginagamit sa survey pananaliksik (Halpern et al. 2011) . Sa wakas, para sa karagdagang tungkol sa pagdisenyo ng kasiya-siya user-karanasan makita Toomim et al. (2011) .
Narito ang orihinal na kahulugan ng mga tatlong R, mula Russell and Burch (1959) :
"Kapalit ay nangangahulugan na ang pagpapalit para matauhan buhay mas mataas hayop ng walang buhay na materyal. Reduction nangangahulugan na pagbabawas sa mga numero ng mga hayop na ginagamit upang makakuha ng impormasyon ng isang naibigay na halaga at katumpakan. Refinement ay nangangahulugang anumang pagbaba sa saklaw o kalubhaan ng di-makataong pamamaraan na inilapat sa mga hayop na mayroon pa rin na gagamitin. "
Ang tatlong R na ako imungkahi huwag i-override ang etikal prinsipyo na inilarawan sa Kabanata 6. Sa halip, ang mga ito ng isang mas elaborated bersiyon isa sa mga prinsipyo-kaampunan-para lang sa setting ng mga tao na mga eksperimento.
Kapag isinasaalang-alang Emotional Lalin, may tatlong non-etikal na isyu na dapat tandaan kapag nagbibigay pakahulugan sa eksperimentong ito. Una, ito ay hindi malinaw kung paano ang aktwal na mga detalye ng eksperimento kumonekta sa panteorya claims; sa ibang salita, may mga katanungan tungkol sa pagiging wasto makagawa ng. Ito ay hindi malinaw na ang mga positibo at negatibong mga bilang ng salita ay talagang isang mahusay na tagapagpahiwatig ng ang emosyonal na estado ng mga kalahok dahil 1) ito ay hindi malinaw na ang mga salita na ang mga tao-post ay isang mahusay na tagapagpahiwatig ng kanilang mga damdamin at 2) ito ay hindi malinaw na ang partikular na pagtatasa ng damdamin pamamaraan na ang mga mananaliksik na ginamit ay able sa mapagkakatiwalaan magpakilala emosyon (Beasley and Mason 2015; Panger 2016) . Sa ibang salita, diyan ay maaaring maging isang masamang sukatan ng isang kampi signal. Pangalawa, ang disenyo at pagtatasa ng eksperimento ay nagsasabi sa amin wala tungkol sa kung sino ay pinaka naapektuhan (ie, walang pagsusuri ng heterogeneity ng mga epekto ng paggamot) at kung ano ang mekanismo ay maaaring maging. Sa kasong ito, ang mga mananaliksik ay nagkaroon ng maraming impormasyon tungkol sa mga kalahok, ngunit sila ay mahalagang itinuturing bilang mga widget sa pag-aaral. Ikatlo, ang epekto laki sa eksperimento na ito ay masyadong maliit; ang pagkakaiba sa pagitan ng paggamot at kontrol kondisyon ay tungkol sa 1 sa 1,000 salita. Sa kanilang papel, Kramer at kasamahan gawin ang mga kaso na ang isang epekto ng ganitong laki ay mahalaga dahil daan-daang mga milyon-milyong mga tao-access ang kanilang News Feed sa bawat araw. Sa ibang salita, magpakilala sila na kahit mga epekto na ay maliit para sa bawat tao ang mga ito ay malaki sa pinagsama-samang. Kahit na kayo ay upang tanggapin ang argumento, ito ay hindi pa rin malinaw kung ang isang epekto ng ganitong laki ay mahalaga tungkol sa mas pangkalahatang pang-agham katanungan tungkol emosyonal lalin. Para sa higit sa mga sitwasyon kung saan maliit na epekto ay mahalagang makita Prentice and Miller (1992) .
Sa mga tuntunin ng unang R (Kapalit), paghahambing ng Emotional Contagion eksperimento (Kramer, Guillory, and Hancock 2014) at ang emosyonal lalin natural eksperimento (Coviello et al. 2014) ay nag-aalok ng ilang mga pangkalahatang mga aralin tungkol sa trade-offs kasangkot sa paglipat mula sa eksperimento upang natural na mga eksperimento (at iba pang mga pamamaraang tulad ng pagtutugma na pagtatangka upang matantiya eksperimento sa hindi pang-eksperimentong data, tingnan ang Kabanata 2). Bilang karagdagan sa mga etikal na mga benepisyo, ang paglipat mula sa experimental sa mga di-pang-eksperimentong mga pag-aaral din nagbibigay-daan sa mga mananaliksik upang pag-aralan mga paggamot na ang mga ito ay logistically magawang i-deploy. Ang mga etikal at logistical mga benepisyo dumating sa isang gastos, gayunman. Sa natural na mga eksperimento mananaliksik ay may mas mababa na kontrol sa mga bagay tulad ng pangangalap ng mga kalahok, randomization, at ang likas na katangian ng paggamot. Halimbawa, ang isang limitasyon ng pag-ulan bilang isang paggamot ay na ang parehong ito ay nagdaragdag positivity at bumababa negatibiti. Sa mga pang-eksperimentong pag-aaral, gayunpaman, Kramer at kasamahan ay able sa ayusin positivity at negatibiti nakapag-iisa.
Ang partikular na diskarte na ginagamit ng Coviello et al. (2014) ay karagdagang elaborated sa Coviello, Fowler, and Franceschetti (2014) . Para sa isang panimula sa instrumental variable makita Angrist and Pischke (2009) (mas pormal) o Angrist, Imbens, and Rubin (1996) (mas pormal). Para sa isang may pag-aalinlangan tasa ng instrumental variable makita Deaton (2010) , at para sa isang panimula sa instrumental variable na may mahinang mga instrumento (ulan ay isang mahina instrumento), tingnan Murray (2006) .
Higit pang mga pangkalahatan, ang isang mahusay na panimula sa natural na mga eksperimento ay Dunning (2012) , at Rosenbaum (2002) , Rosenbaum (2009) , at Shadish, Cook, and Campbell (2001) nag-aalok ng mahusay na mga ideya tungkol sa estimating pananahilan epekto nang walang mga eksperimento.
Sa mga tuntunin ng ikalawang R (Pagpipino), may mga pang-agham at logistical trade-offs kapag isinasaalang-alang ang pagpapalit ng mga disenyo ng Emotional Contagion mula sa pag-block ng mga post sa boosting mga post. Halimbawa, maaaring ito ay ang kaso na ang mga teknikal na pagpapatupad ng Feed News ginagawang ay malaki mas madali upang gawin ang isang eksperimento na may pag-block ng mga post sa halip na isang eksperimento na may boosting mga post (tandaan na ang isang eksperimento na may pag-block ng mga post ay maaaring ipatupad bilang isang layer sa itaas ng sistema News Feed nang walang anumang kailangan para sa alterations ng mga pinagbabatayan system). Scientifically, gayunpaman, ang mga teorya natutugunan ng mga eksperimento ay hindi malinaw na iminumungkahi ng isang disenyo sa ibabaw ng iba pang mga.
Sa kasamaang palad, hindi ako ng kamalayan ng malaking paunang pananaliksik tungkol sa mga kamag-anak merito ng pag-block at boosting nilalaman sa Feed News. Gayundin, hindi ko nakita magkano ang pananaliksik tungkol sa pagpino paggamot upang gumawa ng mga ito mas mapanganib; isang pagbubukod ay Jones and Feamster (2015) , na kung saan ay isinasaalang-alang ang kaso ng pagsukat ng Internet censorship (a topic ko talakayin sa Kabanata 6 in relasyon sa Encore study (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Sa mga tuntunin ng ikatlong R (Reduction), isang mahusay na panimula sa mga tradisyonal na pag-aaral kapangyarihan ay Cohen (1988) . Pre-paggamot covariates ay maaaring kasama sa yugto ng disenyo at ang pagtatasa yugto ng eksperimento; Kabanata 4 ng Gerber and Green (2012) ay nagbibigay ng isang mahusay na panimula sa parehong pamamaraang, at Casella (2008) ay nagbibigay ng isang mas malalim na paggamot. Pamamaraan na gamitin ang impormasyon na pre-paggamot sa randomization ay karaniwang tinatawag na alinman hinarangan experimental disenyo o nagsasapin-sapin experimental disenyo (ang terminolohiya ay hindi ginagamit palagiang buong komunidad); mga pamamaraan na ito ay malalim na may kaugnayan sa nagsasapin-sapin sampling techniques tinalakay sa Kabanata 3. Tingnan sa Higgins, Sävje, and Sekhon (2016) para sa karagdagang sa paggamit ng mga disenyo sa napakalaking eksperimento. Pre-paggamot covariates ay maaari ring kasama sa pagtatasa yugto. McKenzie (2012) explores ang pagkakaiba-in-pagkakaiba diskarte sa pag-aaral sa field eksperimento nang mas detalyado. Tingnan Carneiro, Lee, and Wilhelm (2016) para sa karagdagang sa ang kalakalan-offs sa pagitan ng iba't ibang mga diskarte upang madagdagan ang katumpakan sa mga pagtatantya ng mga epekto ng paggamot. Sa wakas, kapag ang pagpapasya kung upang subukan upang isama covariates pre-treatment sa disenyo o analysis stage (o pareho), may mga ilang mga kadahilanan upang isaalang-alang. Sa isang setting na kung saan mananaliksik na nais upang ipakita na ang mga ito ay hindi "pangingisda" (Humphreys, Sierra, and Windt 2013) , ang paggamit ng covariates pre-treatment sa disenyo yugto ay maaaring maging kapaki-pakinabang (Higgins, Sävje, and Sekhon 2016) . Sa mga sitwasyon kung saan kalahok dumating nang sunud-sunod, lalo na online field eksperimento, gamit ang impormasyon pre-paggamot sa disenyo ng entablado ay maaaring maging mahirap logistically, tingnan ang halimbawa Xie and Aurisset (2016) .
Ito ay nagkakahalaga ng pagdaragdag ng isang bit ng intuwisyon tungkol sa kung bakit pagkakaiba-in-pagkakaiba ay maaaring maging kaya magkano mas mabisa kaysa sa pagkakaiba-in-paraan. Maraming mga online na mga kinalabasan ay may mataas na pag-iiba (tingnan eg, Lewis and Rao (2015) at Lamb et al. (2015) ) at ay relatibong matatag sa paglipas ng panahon. Sa kasong ito, ang pagbabago na marka kukumpirmahin kalahatan mas maliit na pagkakaiba, ang pagtaas ng kapangyarihan ng statistical test. Isang dahilan ito approached ay hindi ginagamit nang mas madalas ay na bago ang digital na edad ay hindi ito pangkaraniwan sa may kinalabasan pre-paggamot. Ang isang mas kongkreto paraan upang isipin ang tungkol dito ay upang isipin ang isang eksperimento upang sukatin kung ang isang tiyak na ehersisyo na gawain ay nagiging sanhi ng pagbaba ng timbang. Kung gagawin mo ang isang pagkakaiba-in-paraan diskarte, ang iyong mga pagtatantya ay magkakaroon na pabagu-bago na ay mula sa pagbabagu-bago sa mga timbang sa populasyon. Kung gagawin mo ang isang pagkakaiba-in-pagkakaiba diskarte, gayunpaman, na natural na nagaganap pagkakaiba-iba sa mga timbang ay makakakuha ng tinanggal at maaari mong mas madaling makakita ng isang pagkakaiba na sanhi ng paggamot.
Ang isang mahalagang paraan upang mabawasan ang bilang ng mga kalahok sa iyong eksperimento ay upang magsagawa ng isang pagtatasa ng kapangyarihan, na kung saan Kramer at kasamahan ay maaaring magkaroon ng tapos na batay sa laki ng epekto sinusunod mula sa natural na eksperimento sa pamamagitan Coviello et al. (2014) o mas maaga non-eksperimentong pananaliksik sa pamamagitan ng Kramer (2012) (sa katunayan ang mga ito ay mga gawain sa pagtatapos ng kabanatang ito). Pansinin na ito ang paggamit ng pagtatasa ng kapangyarihan ay isang bit naiiba kaysa sa mga tipikal. Sa analog edad, mga mananaliksik sa pangkalahatan ay sa pagtatasa ng kapangyarihan upang matiyak na ang kanilang mga pag-aaral ay hindi masyadong maliit (ie, sa ilalim-powered). Ngayon, gayunpaman, ang mga mananaliksik ay dapat gawin sa pagtatasa ng kapangyarihan upang matiyak na ang kanilang mga pag-aaral ay hindi masyadong malaki (ie, over-powered).
Sa wakas, ako itinuturing pagdaragdag ikaapat R: repurpose. Iyon ay, kung ang mga mananaliksik mahanap ang kanilang sarili na may higit pang mga pang-eksperimentong data kaysa sa kailangan nila upang harapin ang kanilang orihinal na tanong ng pananaliksik, dapat silang repurpose ang data na magtanong mga bagong tanong. Halimbawa, isipin na Kramer at kasamahan ay ginagamit ng isang pagkakaiba-in-pagkakaiba estimator at natagpuan ang kanilang sarili na may mas maraming data kaysa sa kinakailangan upang matugunan ang kanilang mga pananaliksik katanungan. Sa halip na hindi gumagamit ng data sa sagad na sakop, hindi na nila napag-aralan ang laki ng epekto bilang isang function na i-pre-treatment emosyonal na expression. Tulad Schultz et al. (2007) natagpuan na ang epekto ng paggamot ay naiiba para sa liwanag at mabigat na mga gumagamit, marahil ang epekto ng Feed News ay naiiba para sa mga tao na mayroon tended upang mag-post ng masaya (o malungkot) mensahe. Repurposing maaaring humantong sa "pangingisda" (Humphreys, Sierra, and Windt 2013) at "p-taga" (Simmons, Nelson, and Simonsohn 2011) , ngunit ang mga ito ay higit sa lahat addressable may isang kumbinasyon ng tapat na pag-uulat (Simmons, Nelson, and Simonsohn 2011) , pre-registration (Humphreys, Sierra, and Windt 2013) , at mga pamamaraan machine learning na pagtatangka upang maiwasan ang over-agpang.