Demandoj pri kaŭzeco en socia esplorado ofte estas kompleksaj kaj komplikaj. Por fundamenta aliro al kaŭzeco bazita sur kaŭzaj grafikaĵoj, vidu Pearl (2009) , kaj por fundamenta aliro bazita sur eblaj rezultoj, vidu Imbens and Rubin (2015) . Por komparo inter ĉi tiuj du aliroj, vidu Morgan and Winship (2014) . Por formala aliro por difini konflikton, vidu VanderWeele and Shpitser (2013) .
En ĉi tiu ĉapitro mi kreis, kio ŝajnis kiel brila linio inter nia kapablo fari kaŭzajn taksojn de eksperimentaj kaj ne-eksperimentaj datumoj. Tamen, mi kredas, ke fakte la distingo estas pli neklara. Ekzemple, ĉiuj akceptas, ke fumado kaŭzas kanceron, kvankam neniu hazarda kontrolita eksperimento, kiu devigas homojn fumi, iam ajn fariĝis. Por bonega libro-longaj traktadoj pri kaŭzaj kalkuloj de Shadish, Cook, and Campbell (2001) datumoj, vidu Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , kaj Dunning (2012) .
Ĉapitroj 1 kaj 2 de Freedman, Pisani, and Purves (2007) proponas klaran enkondukon al la diferencoj inter eksperimentoj, kontrolitaj eksperimentoj kaj hazardigitaj kontrolitaj eksperimentoj.
Manzi (2012) provizas fascinan kaj legeblan enkondukon al la filozofiaj kaj statistikaj subtenoj de hazardigitaj kontrolitaj eksperimentoj. Ĝi ankaŭ provizas interesajn realajn ekzemplojn de la potenco de eksperimentado en komerco. Issenberg (2012) havigas fascinan enkondukon al la uzo de eksperimentado en politikaj kampanjoj.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, kaj Athey and Imbens (2016b) havigas bonajn enkondukojn al la statistikaj aspektoj de eksperimenta dezajno kaj analizo. Plue, ekzistas bonegaj traktadoj pri uzado de eksperimentoj en multaj malsamaj kampoj: ekonomiko (Bardsley et al. 2009) , sociologio (Willer and Walker 2007; Jackson and Cox 2013) , psikologio (Aronson et al. 1989) , politika scienco (Morton and Williams 2010) , kaj socia politiko (Glennerster and Takavarasha 2013) .
La graveco de partoprenantoj (ekzemple, sampado) ofte estas tre estimata en eksperimenta esplorado. Tamen, se la efiko de la traktado estas heterogenea en la populacio, tiam specimenado estas kritika. Longford (1999) faras ĉi tiun punkton klare kiam li defendas esploristojn pensante pri eksperimentoj kiel populara enketo kun haphazard-specimenado.
Mi sugestis, ke ekzistas kontinua inter laborkempo kaj eksperimentoj de kampo, kaj aliaj esploristoj proponis pli detalajn tipologiojn, precipe tiujn, kiuj apartigas la diversajn kampojn de eksperimentoj de kampo (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Kelkaj paperoj komparis laborejojn kaj kampojn eksperimentojn en la abstraktaĵo (Falk and Heckman 2009; Cialdini 2009) kaj pri rezultoj de specifaj eksperimentoj en politika scienco (Coppock and Green 2015) , ekonomiko (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , kaj psikologio (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) proponas belan esploron por komparadi rezultojn de laboratorio kaj kampo-eksperimentoj. Parigi, Santana, and Cook (2017) priskribas, ke interretaj teritoriaj eksperimentoj povas kombini iujn el la karakterizaĵoj de laboratorio kaj kampo-eksperimentoj.
Koncernoj pri partoprenantoj ŝanĝantaj sian konduton, ĉar ili scias, ke ili estas proksime observataj, estas foje nomataj efikoj , kaj ili estis studitaj en psikologio (Orne 1962) kaj ekonomiko (Zizzo 2010) . Kvankam plejparte asociitaj kun labormaj eksperimentoj, ĉi tiuj samaj aferoj ankaŭ povas kaŭzi problemojn por kampo-eksperimentoj. Fakte, la efikoj de la postulo ankaŭ estas nomataj " efektivecoj de Hawthorne" , termino kiu derivas la famajn lumigajn eksperimentojn, kiuj komencis en 1924 ĉe la Okcidentaj Elektraj Verkoj de Hawthorne (Adair 1984; Levitt and List 2011) . Ambaŭ efektoj de peto kaj efektoj de Hawthorne estas proksime rilatigitaj kun la ideo de mezurado reactiva diskutita en la ĉapitro 2 (vidu ankaŭ Webb et al. (1966) ).
Kampoj eksperimentoj havas longan historion en ekonomiko (Levitt and List 2009) , politika scienco (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologio (Shadish 2002) kaj publika politiko (Shadish and Cook 2009) . Unu areo de socia scienco kie kampa eksperimentoj rapide fariĝis elstara estas internacia evoluo. Por pozitiva recenzo de tiu laboro ene de ekonomiko vidu Banerjee and Duflo (2009) , kaj por kritika takso vidu Deaton (2010) . Por revizio pri ĉi tiu laboro en politika scienco vidu Humphreys and Weinstein (2009) . Fine, la etikaj defioj de la eksperimentoj de kampo estis esploritaj en la kunteksto de politika scienco (Humphreys 2015; Desposato 2016b) kaj evoluado-ekonomiko (Baele 2013) .
En ĉi tiu sekcio mi sugestis, ke antaŭaŭra informo povas esti uzata por plibonigi la precizecon de taksataj efikaj traktadoj, sed ekzistas iom da debato pri ĉi tiu aliro; vidu Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , kaj Bloniarz et al. (2016) por pliaj informoj.
Fine, ekzistas du aliaj tipoj de eksperimentoj faritaj de sociaj sciencistoj, kiuj ne taŭgas laŭ la laborela dimensio: enketaj eksperimentoj kaj sociaj eksperimentoj. Enketaj eksperimentoj estas eksperimentoj uzanta la infrastrukturon de ekzistantaj enketoj kaj kompari respondojn al alternativaj versioj de la samaj demandoj (iuj enketaj eksperimentoj estas prezentitaj en Ĉapitro 3); Por pli da enketaj eksperimentoj, vidu Mutz (2011) . Sociaj eksperimentoj estas eksperimentoj, kie la traktado estas iu socia politiko, kiu nur povas esti implementata de registaro. Sociaj eksperimentoj estas proksime rilatigitaj al programprovizado. Por pli da pri politikaj eksperimentoj, vidu Heckman and Smith (1995) , Orr (1998) , kaj @glennerster_running_2013.
Mi elektis centri en tri konceptoj: valideco, heterogeneco de kuracaj efikoj kaj mekanismoj. Ĉi tiuj konceptoj havas malsamajn nomojn en malsamaj kampoj. Ekzemple, psikologoj emas movi preter simplaj eksperimentoj centrante al mediadores kaj moderantoj (Baron and Kenny 1986) . La ideo de mediatoroj estas kaptita per tio, kion mi nomas mekanismoj, kaj la ideo de moderantoj estas kaptita per tio, kion mi nomas ekstera valideco (ekz., Ĉu la rezultoj de la eksperimento estus malsamaj se ĝi funkcios en malsamaj situacioj) kaj heterogeneco de traktado efikoj ( ekz., estas la efikoj pli grandaj por iuj homoj ol por aliaj).
La eksperimento de Schultz et al. (2007) montras kiel sociaj teorioj povas esti uzataj por desegni efikajn intervenojn. Por pli ĝenerala argumento pri la rolo de la teorio en desegnado de efikaj intervenoj, vidu Walton (2014) .
La konceptoj pri interna kaj ekstera valideco estis unue enkondukitaj fare de Campbell (1957) . Vidu Shadish, Cook, and Campbell (2001) por pli detala historio kaj zorgema elaborado de statistika konkluda valideco, interna valideco, konstruado de valideco kaj ekstera valideco.
Por superrigardado pri temoj rilatigitaj kun statistika konkluda valideco en eksperimentoj, vidu Gerber and Green (2012) (de socia scienca perspektivo) kaj Imbens and Rubin (2015) (de statistika perspektivo). Iuj temoj pri statistika konkluda valideco, kiuj aperiĝas specife en interretaj kampaj eksperimentoj inkluzivas temojn kiel komputike efikaj metodoj por krei konfidajn intervalojn kun dependaj datumoj (Bakshy and Eckles 2013) .
Interna valideco povas esti malfacile certigi en kompleksaj kampaj eksperimentoj. Vidu, ekzemple, Gerber and Green (2000) , Imai (2005) , kaj Gerber and Green (2005) por debato pri la efektivigo de kompleksa kampo-eksperimento pri balotado. Kohavi et al. (2012) kaj Kohavi et al. (2013) provizas enkondukon en la defiojn de intervala valideco en interretaj kampaj eksperimentoj.
Unu grava minaco al interna valideco estas la ebleco de malsukcesa hazardigo. Unu ebla maniero por detekti problemojn kun la hazardo estas kompari la traktadon kaj kontrolon de grupoj sur observaj trajtoj. Ĉi tiu speco de komparo estas nomata ekvilibro . Vidu Hansen and Bowers (2008) por statistika alproksimiĝo al ekvilibrigaj ĉekoj kaj Mutz and Pemantle (2015) por zorgoj pri ekvilibraj ĉekoj. Ekzemple, uzante ekvilibro, Allcott (2011) trovis iujn indikojn, ke hazardigo ne estis efektivigita ĝuste en tri el la eksperimentoj de Opower (vidu tablon 2, lokoj 2, 6 kaj 8). Por aliaj aliroj, vidu ĉapitro 21 de Imbens and Rubin (2015) .
Aliaj gravaj maltrankviloj rilatigitaj kun interna valideco estas: (1) unuflanka nekomplikaĵo, kie ne ĉiuj en la traktado-grupo efektive ricevis la traktadon, (2) duflankajn nekomplikiĝojn, kie ne ĉiuj en la traktado-grupo ricevas la traktadon kaj iujn homojn en la grupo de kontrolo ricevas la traktadon, (3) eluziĝon, kie rezultoj ne estas mezuritaj por iuj partoprenantoj, kaj (4) interrompo, kie la traktado disvastiĝas de homoj en la traktado kondiĉo al homoj en la kontrolo-kondiĉo. Vidu ĉapitrojn 5, 6, 7, kaj 8 el Gerber and Green (2012) por pli pri ĉi tiuj aferoj.
Por plie konstrui validecon, vidu Westen and Rosenthal (2003) , kaj por pli konstrui validecon en grandaj datumaj fontoj, Lazer (2015) kaj ĉapitro 2 de ĉi tiu libro.
Unu aspekto de ekstera valideco estas la agordo en kiu testo interveno. Allcott (2015) provizas zorgeme teorian kaj empirikan traktadon de loka selektado antaŭdiro. Ĉi tiu afero ankaŭ estas diskutita fare de Deaton (2010) . Alia aspekto de ekstera valideco estas ĉu alternativaj operacioj de la sama interveno havos similajn efikojn. En ĉi tiu kazo, komparo inter Schultz et al. (2007) kaj Allcott (2011) montras, ke la eksperimentoj de Opower havis pli malgrandan taksitan traktan efikon ol la originalaj eksperimentoj de Schultz kaj kolegoj (1.7% kontraŭ 5%). Allcott (2011) spekulis, ke la sekvaj eksperimentoj havis pli malgrandan efikon pro la manieroj en kiuj la traktado diferencis: manuskripta emocicon kiel parto de studo patronita de universitato, kompare kun presita emocicon kiel parto de produktita maso raporto de potenca firmao.
Por bonega superrigardado de heterogeneco de traktado efikoj en kampo eksperimentoj, vidu ĉapitro 12 de Gerber and Green (2012) . Por enkondukoj al heterogeneidad de traktaj efikoj en medicinaj provoj, vidu Kent and Hayward (2007) , Longford (1999) , kaj Kravitz, Duan, and Braslow (2004) . Konsideroj de heterogeneco de kuracaj efikoj ĝenerale fokusas sur diferencoj bazitaj sur antaŭ-traktado trajtoj. Se vi interesiĝas pri heterogeneco bazita sur post-traktado rezultoj, tiam pli kompleksaj aliroj estas bezonataj, kiel ĉefa estratigo (Frangakis and Rubin 2002) ; vidu Page et al. (2015) por revizio.
Multaj esploristoj taksas la heterogenecon de kuracaj efikoj per lineara regresado, sed pli novaj metodoj dependas pri maŝinaj lernado; vidu, ekzemple, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , kaj Athey and Imbens (2016a) .
Ekzistas iuj esceptoj pri trovoj de heterogeneco de efikoj pro multnombraj komparproblemoj kaj "fiŝkaptado". Ekzistas diversa statistika aliro, kiu povas helpi al prizorgi maltrankvilojn pri multoblaj komparoj (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Unu alproksimiĝo al zorgoj pri "fiŝkaptado" estas antaŭregistrado, kiu estas ĉiufoje pli ofta en psikologio (Nosek and Lakens 2014) , politika scienco (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , kaj ekonomio (Olken 2015) .
En la studo de Costa and Kahn (2013) nur ĉirkaŭ duono de la hejmoj en la eksperimento povus esti ligitaj al la demografia informo. Legantoj interesataj pri ĉi tiuj detaloj devus raporti al la originala papero.
Mekanismoj estas nekredeble gravaj, sed ili rezultas tre malfacile studi. Esploro pri mekanismoj estas proksime rilata al studado de mediatoroj en psikologio (sed ankaŭ vidu VanderWeele (2009) por preciza komparo inter la du ideoj). Estadistikaj aliroj por trovi mekanismojn, kiel ekzemple la enfokusigas evoluigita en Baron and Kenny (1986) , estas tre oftaj. Bedaŭrinde ĝi rezultas, ke tiuj proceduroj dependas de iuj fortaj supozoj (Bullock, Green, and Ha 2010) kaj suferas kiam ekzistas multaj mekanismoj, kiel oni povus atendi en multaj situacioj (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) kaj Imai and Yamamoto (2013) proponas plibonigitajn statistikajn metodojn. Plie, VanderWeele (2015) ofertas libron-longan traktadon kun multaj gravaj rezultoj, inkluzive de ampleksa alproksimiĝo al sentiveca analizo.
Aparta aliro fokusas pri eksperimentoj, kiuj provas manipuli la mekanismon rekte (ekz., Donante marineros vitaminon C). Bedaŭrinde, en multaj sociaj sciencaj agordoj, ofte multajn mekanismojn kaj malfacile desegnas traktadojn, kiuj ŝanĝas unu sen ŝanĝi la aliajn. Kelkaj aliroj al eksperimentaj ŝanĝaj mekanismoj estas priskribitaj de Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , kaj Pirlott and MacKinnon (2016) .
Esploristoj kurantaj plene faktoriaj eksperimentoj devos maltrankviligi pri multoblaj hipotezo-provoj; vidu Fink, McConnell, and Vollmer (2014) kaj List, Shaikh, and Xu (2016) por pli da informoj.
Fine, mekanismoj ankaŭ havas longan historion en la filozofio de scienco kiel priskribita de Hedström and Ylikoski (2010) .
Por pli da uzado de korespondaj studoj kaj auditoriaj studoj por mezuri diskriminacion, vidu Pager (2007) .
La plej ofta maniero rekruti partoprenantojn al eksperimentoj, kiujn vi konstruas estas Amazon Mechanical Turk (MTurk). Ĉar MTurk imitas aspektojn de tradiciaj labormemaj eksperimentoj-pagantaj homojn por kompletigi taskojn, kiujn ili ne farus senpage - multaj esploristoj jam komencis uzi Turkerojn (la laboristojn pri MTurk) kiel eksperimentaj partoprenantoj, rezultigante pli rapidan kaj pli malmultekostan kolekton de datumoj ol atingeblaj En tradiciaj sur-kampusaj laboratoriaj eksperimentoj (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Ĝenerale, la plej grandaj avantaĝoj de uzado de partoprenantoj rekrutitaj de MTurk estas logistikaj. Dum laboratoriaj eksperimentoj povas preni semajnojn por kuri kaj kampoj eksperimentoj povas preni monatojn por starigi, eksperimentoj kun partoprenantoj rekrutitaj de MTurk povas esti kuritaj dum tagoj. Ekzemple, Berinsky, Huber, and Lenz (2012) povis varbi 400 temojn en ununura tago por partopreni en 8-minuta eksperimento. Plie, ĉi tiuj partoprenantoj povas esti varbitaj por preskaŭ ajna celo (inkluzive de enketoj kaj amasaj kunlaboroj, kiel diskutis en ĉapitroj 3 kaj 5). Ĉi tiu facileco de reclutado signifas, ke esploristoj povas kuri sekvencojn de rilataj eksperimentoj rapide.
Antaŭ varbado de partoprenantoj de MTurk por viaj propraj eksperimentoj, estas kvar gravaj aferoj, kiujn vi bezonas scii. Unue multaj esploristoj havas nespektan skeptikon pri eksperimentoj engaĝantaj Turkojn. Ĉar ĉi tiu escepticismo ne estas specifa, ĝi estas malfacile kontraŭstari kun evidenteco. Tamen, post kelkaj jaroj da studoj uzantaj Turkojn, ni nun povas konkludi, ke ĉi tiu escepticismo ne precipe pravigas. Multaj studoj komparas la demografion de Turkistoj kun tiuj de aliaj loĝantaroj kaj multaj studoj komparante la rezultojn de eksperimentoj kun Turkers kun tiuj el aliaj populacioj. Donita ĉiun ĉi tiun verkon, mi opinias, ke la plej bona maniero por vi pensi pri tio estas, ke Turkers estas racia komforta specimeno, simile al studentoj sed iomete pli diversaj (Berinsky, Huber, and Lenz 2012) . Tiel, same kiel studentoj estas racia loĝantaro por iuj, sed ne ĉiuj, esplorado, Turkers estas racia loĝantaro por iuj, sed ne ĉiuj, esplorado. Se vi laboros kun Turkers, tiam ĝi sentas legi multajn ĉi tiujn komparajn studojn kaj kompreni iliajn nuancojn.
Due, esploristoj disvolvis plej bonajn praktikojn por pliigi la internan validecon de la eksperimentoj de MTurk, kaj vi devus lerni kaj sekvi ĉi tiujn plej bonajn praktikojn (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Ekzemple, esploristoj uzantaj Turkojn estas kuraĝigitaj uzi ekranojn por forigi (Berinsky, Margolis, and Sances 2014, 2016) partoprenantojn (Berinsky, Margolis, and Sances 2014, 2016) (sed ankaŭ vidu DJ Hauser and Schwarz (2015b) kaj DJ Hauser and Schwarz (2015a) ). Se vi ne forprenas senatentajn partoprenantojn, tiam ajna efiko de la traktado povas esti elĉerpita de la bruo, kiun ili prezentas, kaj praktike la nombro de atentaj partoprenantoj povas esti grava. En la eksperimento de Huber kaj kolegoj (2012) , ĉirkaŭ 30% de partoprenantoj malsukcesis la bazajn atentajn ekrankopiojn. Aliaj problemoj, kiuj kutime ŝprucas kiam Turkers estas uzataj estas ne-naivaj partoprenantoj (Chandler et al. 2015) kaj amuziĝo (Zhou and Fishbach 2016) .
Tria, rilate al iuj aliaj formoj de ciferecaj eksperimentoj, MTurk-eksperimentoj ne povas skalo; Stewart et al. (2015) taksas, ke en iu ajn tempo ekzistas nur ĉirkaŭ 7,000 homoj en MTurk.
Fine vi devus scii, ke MTurk estas komunumo kun ĝiaj propraj reguloj kaj normoj (Mason and Suri 2012) . De la sama maniero, ke vi provos ekscii pri la kulturo de lando, kie vi ekzamenos viajn eksperimentojn, vi devus provi ekscii pli pri la kulturo kaj normoj de Turkers (Salehi et al. 2015) . Kaj vi sciu, ke la Turkistoj parolos pri via eksperimento, se vi faros ion netaŭga aŭ neethika (Gray et al. 2016) .
MTurk estas nekredeble oportuna maniero por rekruti partoprenantojn al viaj eksperimentoj, ĉu ili estas laboreblaj, kiel ekzemple Huber, Hill, and Lenz (2012) aŭ pli similaj kampoj, kiel ekzemple Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , kaj Mao et al. (2016) .
Se vi pensas provi krei vian propran produkton, mi rekomendas, ke vi legas la konsilojn proponitajn de la grupo de filmoj en Harper and Konstan (2015) . Ŝlosila informo de ilia sperto estas, ke por ĉiu prospera projekto ekzistas multaj, multaj fiaskoj. Ekzemple, la grupo MovieLens lanĉis aliajn produktojn, kiel ekzemple GopherAnswers, kiuj estis kompletaj fiaskoj (Harper and Konstan 2015) . Alia ekzemplo de esploristo malsukcesante dum provo konstrui produkton estas la provo de Edward Castronova por konstrui interretan ludon nomitan Arden. Malgraŭ $ 250,000 en financado, la projekto estis flop (Baker 2008) . Projektoj kiel GopherAnswers kaj Arden estas bedaŭrinde multe pli komunaj ol projektoj kiel MovieLens.
Mi aŭdis la ideon de Pasteur's Quadrant diskutita ofte ĉe teknikaj kompanioj, kaj ĝi helpas organizi esploradojn ĉe Google (Spector, Norvig, and Petrov 2012) .
La studo de ligoj kaj kolegoj (2012) ankaŭ provas detekti la efikon de ĉi tiuj traktadoj sur la amikoj de tiuj, kiuj ilin ricevis. Pro la dezajno de la eksperimento, ĉi tiuj eksplodoj malfacilas detekti pure; interesataj legantoj devus vidi Bond et al. (2012) por pli profunda diskuto. Jones kaj kolegoj (2017) ankaŭ realigis tre similan eksperimenton dum la elekto de 2012. Ĉi tiuj eksperimentoj estas parto de longa tradicio de eksperimentoj en politika scienco pri penoj por instigi balotadon (Green and Gerber 2015) . Ĉi tiuj eksperimentoj ekspluatataj estas komuna, parte ĉar ili estas en la Kadranto de Pasteur. Tio estas, estas multaj homoj, kiuj estas instigitaj por pliigi balotadon kaj balotadon, eblas interesan konduton por provi pli ĝeneralajn teoriojn pri kondutoŝanĝo kaj socia influo.
Por konsiloj pri ekzercado de kampaj eksperimentoj kun kompanianoj kiel politikaj partioj, ONG kaj entreprenoj, vidu Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , kaj Gueron (2002) . Por pensoj pri kiel asocioj kun organizoj povas efiki esplorajn dezajnojn, vidu King et al. (2007) kaj Green, Calfano, and Aronow (2014) . Partnereco ankaŭ povas konduki al etikaj demandoj, kiel diskutis Humphreys (2015) kaj Nickerson and Hyde (2016) .
Se vi iros krei analizan planon antaŭ ol vi ekzamenos vian eksperimenton, mi sugestas, ke vi komencu legante raportadojn. La gvidlinioj de CONSORT (Consolidated Standard Reporting of Trials) estis disvolvitaj en medicino (Schulz et al. 2010) kaj modifitaj por socia esploro (Mayo-Wilson et al. 2013) . Rilata aro de gvidlinioj estis disvolvita de la redaktistoj de la Ĵurnalo de Eksperimenta Politika Scienco (Gerber et al. 2014) (vidu ankaŭ Mutz and Pemantle (2015) kaj Gerber et al. (2015) ). Fine, raportado de gvidlinioj estis disvolvita en psikologio (APA Working Group 2008) , kaj ankaŭ vidas Simmons, Nelson, and Simonsohn (2011) .
Se vi kreas analizan planon, vi devus konsideri antaŭregistri ĝin ĉar antaŭregordo pliigos la konfidon, kiun aliaj havas en viaj rezultoj. Plue, se vi laboras kun partnero, ĝi limigos la kapablon de via partnero ŝanĝi la analizon post vidi la rezultojn. Antaŭ-registriĝo fariĝas pli ofta en psikologio (Nosek and Lakens 2014) , politika scienco (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) kaj ekonomiko (Olken 2015) .
La konsiloj de dezajno specife por enretaj kampaj eksperimentoj ankaŭ prezentiĝas en Konstan and Chen (2007) kaj Chen and Konstan (2015) .
Kion mi vokis la armada strategio estas foje nomata programa esplorado ; vidu Wilson, Aronson, and Carlsmith (2010) .
Por pli da pri la muzikaj eksperimentoj, vidu Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , kaj Salganik (2007) . Por pli da venkintoj-ĉiuj merkatoj, vidu Frank and Cook (1996) . Por pli da senlima sorto kaj kapableco pli ĝenerale, vidu Mauboussin (2012) , Watts (2012) , kaj Frank (2016) .
Ekzistas alia aliro al forigo de partoprenaj pagoj, kiujn esploristoj uzu kun singardeco: konscripto. En multaj enretaj kampaj eksperimentoj partoprenas esence en eksperimentoj kaj neniam kompensitaj. Ekzemploj de ĉi tiu aliro inkluzivas la eksperimenton de Restivo kaj van de Rijt (2012) pri rekompencoj en la eksperimento de Vikipedio kaj Bond kaj kolego (2012) pri kuraĝigo de homoj voĉdoni. Ĉi tiuj eksperimentoj vere ne havas nulajn kostojn-pli ĝuste, ili havas nulajn kostojn por esploristoj . En tiaj eksperimentoj, eĉ se la kosto por ĉiu partoprenanto estas ekstreme malgranda, la entuta kosto povas esti sufiĉe granda. Esploristoj pri amasaj enretaj eksperimentoj ofte pravigas la gravecon de malgrandaj taksataj traktadoj, dirante, ke ĉi tiuj malgrandaj efektoj povas fariĝi gravaj, kiam ili aplikiĝas al multaj homoj. La ĝusta pensado aplikas la kostojn, kiujn esploristoj postulas al partoprenantoj. Se via eksperimento kaŭzas unu milionon da homoj malŝpari unu minuton, la eksperimento ne estas tre malutila por iu ajn aparta persono, sed en tuta ĝi malaperis preskaŭ du jarojn.
Alia aliro al kreado de nula variablo kosto al partoprenantoj estas uzi loterion, aliron kiu ankaŭ uzis en enketa esplorado (Halpern et al. 2011) . Por pli pri desegni Toomim et al. (2011) uzajn spertojn, vidu Toomim et al. (2011) . Por pli pri uzado de bots por krei nulajn kostajn eksperimentojn, vidi ( ??? ) .
La tri R's kiel origine proponita de Russell and Burch (1959) estas la jenaj:
"Anstataŭaĵo signifas la anstataŭo por konscia vivanta superaj animaloj de insentient materialo. Redukto signifas redukto en la nombroj de bestoj uzata por akiri informon de donita kvanto kaj precizeco. Bonmaniereco signifas neniun malkreskon en la efiko aŭ severeco de malhumana procedoj aplikitaj al tiuj animaloj kiuj ankoraŭ devas esti uzata. "
La tri R-a, kiujn mi proponas, ne anstataŭigas la etikajn principojn priskribitajn en ĉapitro 6. Prefere ili estas pli ellaborita versio unu el tiuj principoj-beneficento-specife en la fikso de homaj eksperimentoj.
Koncerne al la unua R ("anstataŭigo"), komparante la eksperimentan eksperimenton de emocioj (Kramer, Guillory, and Hancock 2014) kaj la emocia kontakta natura eksperimento (Lorenzo Coviello et al. 2014) ofertas iujn ĝeneralajn lecionojn pri la komercaj implikoj en movado de eksperimentoj al naturaj eksperimentoj (kaj aliaj aliroj kiel kongruaj provoj por alproksimigi eksperimentojn en ne-eksperimentaj datumoj; vidu ĉapitro 2). Krom la etikaj avantaĝoj, ŝanĝante de eksperimentaj al neperperimentaj studoj ankaŭ ebligas esploristojn studi traktadojn, kiujn ili logike ne kapablas disfaldi. Tamen ĉi tiuj etikaj kaj logistaj profitoj venas je kosto. Kun naturaj eksperimentoj, esploristoj havas malpli kontrolon pri aferoj kiel reclutado de partoprenantoj, hazardigo kaj la naturo de la traktado. Ekzemple, unu limigo de pluvokvanto kiel traktado estas, ke ĝi ambaŭ pliigas pozitivecon kaj malpliigas negativon. En la eksperimenta studo, tamen, Kramer kaj kolegoj povis ĝustigi pozitivecon kaj negativon sendepende. La aparta alproksimiĝo uzata de Lorenzo Coviello et al. (2014) estis plue ellaborita fare de L. Coviello, Fowler, and Franceschetti (2014) . Por enkonduko al instrumentaj variabloj, kiu estas la aliro uzata de Lorenzo Coviello et al. (2014) , vidu Angrist and Pischke (2009) (malpli formala) aŭ Angrist, Imbens, and Rubin (1996) (pli formala). Por skeptika taksado de instrumentaj variabloj, vidu Deaton (2010) , kaj por enkonduko al instrumentaj variabloj kun malfortaj instrumentoj (pluvo estas malforta instrumento), vidu Murray (2006) . Pli ĝenerale, bona enkonduko al naturaj eksperimentoj estas donita de Dunning (2012) , dum Rosenbaum (2002) , ( ??? ) , kaj Shadish, Cook, and Campbell (2001) proponas bonajn ideojn pri taksado de kaŭzaj efikoj sen eksperimentoj.
Koncerne al la dua R ("refinado"), ekzistas sciencaj kaj logistikaj komercoj kiam konsideras ŝanĝi la dezajnon de Emocia Kontagado de blokado de afiŝoj por plibonigi afiŝojn. Ekzemple, eble la teknika efektivigo de la Novaĵoj Feed faras ĝin multe pli facile fari eksperimenton, en kiu blokoj pli ol unu, en kiuj ili pliigas (notu, ke eksperimento engaĝanta blokadon de afiŝoj povus esti efektivigita kiel tavolo supre de la Novaĵaĵa sistemo sen neceso de ŝanĝoj de la suba sistemo). Sciencie, tamen, la teorio traktita de la eksperimento ne klare sugestis unu dezajnon super la alia. Bedaŭrinde, mi ne konscias pri grava antaŭa esplorado pri la relativaj valoroj de blokado kaj plifortigo de enhavo en la Novaĵoj Feed. Ankaŭ, mi ne vidis multan esploron pri rafinado de traktadoj por fari ilin malpli malutilaj; Unu escepto estas B. Jones and Feamster (2015) , kiu konsideras la kazon de mezuro de interreta cenzuras (temo kiun mi diskutas en ĉapitro 6 en rilato kun la studo Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Koncerne al la tria R ("redukto"), bonaj enkondukoj al tradicia potenca analizo estas donitaj de Cohen (1988) (libro) kaj Cohen (1992) (artikolo), dum Gelman and Carlin (2014) ofertas iomete malsaman perspektivon. Pre-kuracaj kovaroj povas esti inkluzivitaj en la dezajno kaj analizo-etapo de eksperimentoj; Ĉapitro 4 de Gerber and Green (2012) provizas bonan enkondukon al ambaŭ aliroj, kaj Casella (2008) provizas pli profundan traktadon. Teknikoj, kiuj uzas ĉi tiun antaŭ-kuracan informon en la hazardigo, estas kutime nomataj aŭ blokitaj eksperimentaj dezajnoj aŭ stratigitaj eksperimentaj dezajnoj (la terminologio ne estas uzata laŭ ĉiuj komunumoj); Ĉi tiuj teknikoj estas proksime rilatigitaj kun la stratigitaj samplingaj teknikoj diskutitaj en ĉapitro 3. Vidu Higgins, Sävje, and Sekhon (2016) por pli uzi ĉi tiujn dezajnojn en amasaj eksperimentoj. Antaŭprokraciaj kovaroj ankaŭ povas esti inkluditaj en la analizo-etapo. McKenzie (2012) esploras la diferencon en diferencoj al analizi kampojn en plej granda detalo. Vidu Carneiro, Lee, and Wilhelm (2016) por pli pri la komercaj interkonsentoj inter malsamaj aliroj por pliigi precizecon en taksoj de kuracaj efikoj. Fine, al la decidi ĉu provi inkluzivi antaŭ-traktadon kovarianojn ĉe la dezajno aŭ analizo-etapo (aŭ ambaŭ), ekzistas kelkaj faktoroj por konsideri. En scenejo, kie esploristoj volas montri, ke ili ne estas "fiŝkaptado" (Humphreys, Sierra, and Windt 2013) , uzantaj antaŭ-traktadoj en la dezajno-etapo povas esti helpema (Higgins, Sävje, and Sekhon 2016) . En situacioj, kie partoprenantoj alvenas sekvencie, precipe interretaj teritoriaj eksperimentoj, uzanta antaŭ-traktan informon en la dezajno-etapo povas esti malfacila logistike; vidu, ekzemple, Xie and Aurisset (2016) .
Ĝi valoras aldoni iom da intuicio pri kial diferenco-en-diferenca aliro povas esti multe pli efika ol diferenco-en-signifas unu. Multaj interretaj rezultoj havas tre altan variancon (vidu ekz., RA Lewis and Rao (2015) kaj Lamb et al. (2015) ) kaj estas relative stabilaj laŭlonge de la tempo. En ĉi tiu kazo, la ŝanĝ-interpunkcio havos substance pli malgrandan variancon, pliigante la potencon de la statistika provo. Unu kialo, ke ĉi tiu aliro ne estas pli ofte uzata, estas, ke antaŭ la cifereca aĝo, ne estis komune havi antaŭprokratajn rezultojn. Pli konkreta maniero por pensi pri tio estas imagi eksperimenton por mezuri ĉu specifa praktika rutino kaŭzas perdon de pezo. Se vi adoptas diferencon-en-duona aliro, via takso havos variablon ekde la variablo en pezoj de la loĝantaro. Se vi faras diferencon-en-diferenca alproksimiĝo, tamen, ke nature okazanta variado en pezoj estas forigita, kaj vi povas pli facile detekti diferencon kaŭzitan de la traktado.
Fine, mi konsideras aldoni kvara R: "repurpose". Tio estas, se esploristoj troviĝas kun pli eksperimentaj datumoj ol ili bezonas por pritrakti ilian originalan demandon, ili devas repurigi la datumojn por demandi novajn demandojn. Ekzemple, imagu, ke Kramer kaj kolegoj uzis diferencon-diferencajn taksilon kaj trovis sin kun pli da datumoj ol ili bezonis por trakti sian esploradon. Prefere ol ne uzado de la datumoj ĝis la plej granda parto, ili povus studi la grandecon de la efiko kiel funkcio de antaŭ-traktado emocia esprimo. Same kiel Schultz et al. (2007) trovis, ke la efiko de la traktado estis malsama por malpezaj kaj pezaj uzantoj, eble la efikoj de Novaĵoj Feed diferencis por homoj, kiuj jam inklinis afiŝi feliĉajn (aŭ malĝojajn) mesaĝojn. Repurposing povus konduki al "fiŝkaptado" (Humphreys, Sierra, and Windt 2013) kaj "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , sed ĉi tiuj estas ĉefe rilate kun kombinaĵo de sincera raportado (Simmons, Nelson, and Simonsohn 2011) , antaŭregistriĝo (Humphreys, Sierra, and Windt 2013) , kaj maŝinaj metodoj, kiuj provas eviti malkuraĝigon.