Tiu sekcio estas dizajnita por esti utiligita kiel referenco, prefere ol esti legita kiel rakonto.
Demandoj pri kaŭzeco en socia esploro estas ofte kompleksa kaj komplika. Dum fundamenta alproksimiĝo al kaŭzeco surbaze kaŭza grafikaĵoj, vidu Pearl (2009) , kaj por fundamenta aliro bazita sur eblaj rezultoj, vidu Imbens and Rubin (2015) (kaj la teknika apendico en tiu ĉapitro). Por komparo inter tiuj du aliroj, vidi Morgan and Winship (2014) . Por formala aliro al difinanta confounder, vidu VanderWeele and Shpitser (2013) .
En la ĉapitro, mi kreis kio ŝajnis kiel brilan linion inter nia kapablo fari kaŭza taksoj de eksperimenta kaj ne-eksperimento datumoj. Fakte, mi opinias ke la distingo estas blurrier. Ekzemple, ĉiuj akceptas ke fumado kaŭzas kanceron kvankam ni neniam faris randomigitaj kontrolitaj eksperimento kiu devigas homojn fumi. Por bonega libro longo traktadoj sur farante kaŭza taksoj de ne-eksperimentaj datumoj vidi Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , kaj Dunning (2012) .
Ĉapitroj 1 kaj 2 de Freedman, Pisani, and Purves (2007) proponas klaran enkondukon al la diferencoj inter la eksperimentoj, kontrolitaj eksperimentoj kaj randomigitaj kontrolitaj eksperimentoj.
Manzi (2012) disponigas fascina kaj legebla enkonduko en la filozofia kaj statistikaj fundamentojn de randomigitaj kontrolitaj eksperimentoj. Ĝi ankaŭ provizas interesan reala mondo ekzemploj de la potenco de experimentación en negoco.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) provizi bonajn enkondukoj al la statistikaj aspektoj de eksperimenta dezajno kaj analizo. Plui, estas bonega traktadoj de la uzo de eksperimentoj en multaj malsamaj kampoj: ekonomiko (Bardsley et al. 2009) , sociologio (Willer and Walker 2007; Jackson and Cox 2013) , psikologio (Aronson et al. 1989) , politika scienco (Morton and Williams 2010) , kaj socia politiko (Glennerster and Takavarasha 2013) .
La graveco de partoprenanto varbado (ekz, muestreo) estas ofte sub-estimita en eksperimenta esploro. Tamen, se la efiko de la traktado estas heterogenaj en la loĝantaro, tiam specimenigo estas kritika. Longford (1999) faras tiun punkton klare kiam li pledas por esploristoj pensas eksperimentoj kiel loĝantaro enketo kun hazarda specimenigo.
La dicotomía kiu mi prezentis inter laboratorio kaj kampo eksperimentoj estas iom simpligita. Fakte, aliaj investigadores proponis pli detala tipologías, precipe tiuj kiuj disigas la diversajn formojn de kampo eksperimentoj (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Plui, estas du aliaj tipoj de eksperimentoj faritaj fare sociaj sciencistoj kiuj ne persvadas bele en la laboratorio kaj kampo dicotomía: Enketo eksperimentoj kaj sociaj eksperimentoj. Enketo eksperimentoj eksperimentoj uzante la infrastrukturo de ekzistantaj enketoj kaj kompari respondojn al alternativaj versioj de la samaj demandoj (iu enketo eksperimentoj estas prezentitaj en ĉapitro 3); por pli sur enketo eksperimentoj vidi Mutz (2011) . Socia eksperimentoj eksperimentoj kie la traktado estas iuj sociaj politiko kiu povas nur esti realigita per registaro. Sociaj eksperimentoj estas proksime rilatita al plani pritakso. Por pli sur politiko eksperimentoj, vidu Orr (1998) , Glennerster and Takavarasha (2013) , kaj Heckman and Smith (1995) .
Pluraj paperoj komparas laboratorio kaj kampo eksperimentoj en la abstrakta (Falk and Heckman 2009; Cialdini 2009) kaj en terminoj de rezultoj de specifaj eksperimentoj en politika scienco (Coppock and Green 2015) , ekonomiko (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) kaj psikologio (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) proponas belan esploro dezajno por kompari rezultojn de laboratorio kaj kampo eksperimentoj.
Zorgojn pri partoprenantoj ŝanĝas ilian konduton ĉar ili scias ilin estas estanta proksime observitaj foje nomita peto efektoj, kaj ili estis studitaj en psikologio (Orne 1962) kaj ekonomiko (Zizzo 2009) . Kvankam plejparte rilata al laboratorio eksperimentoj, tiuj samaj temoj povas kaŭzi problemojn por kampo eksperimentojn tiel. Fakte, peto efektoj estas foje nomata Hawthorne efektoj, termino kiu venas de la kampo eksperimento, specife la fama lumigado eksperimentoj kiuj komencis en 1924 ĉe la Hawthorne Works de okcidenta Electric Company (Adair 1984; Levitt and List 2011) . Ambaŭ peto efikoj kaj Kratago efikoj estas proksime rilata al la ideo de reactivos mezurado diskutis en Ĉapitro 2 (vidu ankaŭ Webb et al. (1966) ).
La historio de kampo eksperimentoj estis priskribita en ekonomiko (Levitt and List 2009) , politika scienco (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psikologio (Shadish 2002) , kaj publika politiko (Shadish and Cook 2009) . Unu areo de socia scienco kie kampo eksperimentoj rapide iĝis elstara estas internacia evoluo. Por pozitiva revizio de tiu laboro ene ekonomiko vidos Banerjee and Duflo (2009) , kaj por kritika analizo vidi Deaton (2010) . Por revizio de ĉi tiu verko en politika scienco vidi Humphreys and Weinstein (2009) . Fine, la etikaj defioj implikita kun kampo eksperimentoj estis esplorita en politika scienco (Humphreys 2015; Desposato 2016b) kaj evoluo de ekonomio (Baele 2013) .
En la ĉapitro, mi sugestis ke antaŭ-traktado informo povas esti uzita por plibonigi la precizecon de estimita traktado efektoj, sed ekzistas iu debato ĉirkaŭ tiu aliro: Freedman (2008) , Lin (2013) , kaj Berk et al. (2013) ; vidu Bloniarz et al. (2016) por pli informo.
Mi elektis temigi tri konceptoj: valideco, heterogeneco de traktado efikoj kaj mekanismoj. Tiuj konceptoj havas malsamajn nomojn en malsamaj kampoj. Ekzemple, psikologoj emas movi preter simplaj eksperimentoj per temigado mediadores kaj moderistoj (Baron and Kenny 1986) . La ideo de mediadores estas kaptita de kio mi vokas mekanismoj, kaj la ideo de moderistoj estas kaptita de kion mi nomas ekstera valideco (ekz, estus la rezultoj de la eksperimento estu malsama se ĝi kuras en malsamaj situacioj) kaj heterogeneco de traktado efektoj ( ekz, estas la efikoj granda por iuj homoj ol aliaj personoj).
La eksperimento de Schultz et al. (2007) montras kiel sociaj teorioj povas esti uzita por desegni efikan intervenoj. Por pli ĝenerala argumento pri la rolo de teorio en desegni efikajn intervenojn, vidi Walton (2014) .
La konceptoj de interna kaj ekstera valideco estis unue enkondukita en Campbell (1957) . Vidu Shadish, Cook, and Campbell (2001) por pli detala historio kaj zorga rafinado de statistika konkludo valideco, interna valideco, konstrui valideco kaj ekstera valideco.
Por superrigardon de temoj rilataj al statistika konkludo valideco en eksperimentoj vidi Gerber and Green (2012) (por socia scienco perspektivo) kaj Imbens and Rubin (2015) (por statistika vidpunkto). Iuj temoj de statistika konkludo valideco kiuj ŝprucas specife en enreta kampo eksperimentoj inkludas demandojn kiel kompute efikaj metodoj por krei konfidon intervaloj dependa datumoj (Bakshy and Eckles 2013) .
Interna valideco povas esti malfacile certigi en kompleksa kampo eksperimentoj. Vidu, ekzemple, Gerber and Green (2000) , Imai (2005) , kaj Gerber and Green (2005) por diskuto pri la efektivigo de kompleksa kampo eksperimento pri balotado. Kohavi et al. (2012) kaj Kohavi et al. (2013) provizas enkondukon en la defioj de intervalo valideco en enreta kampo eksperimentoj.
Unu grava maltrankvilo kun interna valideco estas problemoj kun aleatorización. Unidirekta al potenciale detekti problemojn kun la aleatorización estas kompari la traktado kaj kontrolo grupoj sur observebla trajtoj. Tian komparon nomiĝas balanciĝo ĉeko. Vidu Hansen and Bowers (2008) por statistika aliro ekvilibrigi ĉekojn, kaj vidi Mutz and Pemantle (2015) por zorgojn pri ekvilibro ĉekojn. Ekzemple, uzante ekvilibron kontroli Allcott (2011) trovis ke ekzistas iu indico ke la aleatorización ne implementó korekte en tri el la eksperimentoj en iuj de la OPower eksperimentoj (vidu Tabelo 2; ejoj 2, 6, kaj 8). Por aliaj alproksimiĝoj, vidu Imbens and Rubin (2015) , ĉapitro 21.
Aliaj gravaj koncernoj rilataj al interna valideco estas: 1) unu-sided ne-plenumo, kie ne ĉiuj en la traktado grupo fakte ricevis la traktadon, 2) du vicigis ne-plenumo, kie ne ĉiuj en la traktado grupo ricevas la traktadon kaj iuj homoj en la kontrolgrupo ricevi la traktadon, 3) eluziĝo, kie rezultoj ne mezuros por iuj partoprenantoj, kaj 4) sintrudo, kie la traktado elverŝiĝas el homoj en la traktado kondiĉo por homoj en la kontrolo kondiĉo. Vidu Gerber and Green (2012) Ĉapitroj 5, 6, 7, kaj 8 por pli sur ĉiu de ĉi tiuj temoj.
Por pli sur konstrukcio valideco, vidu Westen and Rosenthal (2003) , kaj por pli sur konstrukcio valideco en grandaj datumoj fontoj, Lazer (2015) kaj Ĉapitro 2 de ĉi tiu libro.
Unu aspekto de ekstera valideco estas la fikso kie interveno estas provita. Allcott (2015) disponigas zorgema teoria kaj empiria traktado de ejo selektado emo. Tiu temo estas ankaŭ diskutis en Deaton (2010) . Krom esti reproduktita en multaj lokoj, la Home Energy Raporti interveno ankaŭ sendepende studitaj de multnombraj esploroj grupoj (ekz, Ayres, Raseman, and Shih (2013) ).
Por bonega superrigardo pri heterogeneco de traktado efektoj en kampo eksperimentoj, vidu Ĉapitro 12 de Gerber and Green (2012) . Por enkondukoj al heterogeneco de traktado efektoj en medicinaj provoj, vidu Kent and Hayward (2007) , Longford (1999) , kaj Kravitz, Duan, and Braslow (2004) . Heterogeneco de traktado efektoj ĝenerale temigi diferencoj bazita sur pre-trakto karakterizaĵoj. Se vi interesiĝas pri heterogeneco bazita sur post-traktado rezultoj, tiam pli kompleksa approachs bezonas kiel ĉefa tavoliĝo (Frangakis and Rubin 2002) ; vidu Page et al. (2015) por revizio.
Multaj esploristoj taksas la heterogenecon de traktado efektoj uzante lineara malprogreso, sed novaj metodoj fidi maŝino lernado, ekzemple Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , kaj Athey and Imbens (2016a) .
Ekzistas iu escepticismo sur trovoj de heterogeneco de efikoj pro multoblaj komparo problemojn kaj "fiŝkaptado". Ekzistas diversaj statistikaj aliroj kiuj povas helpi Adreso zorgojn pri multoblaj komparo (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Unu aliro al zorgojn pri "fiŝkaptado" estas antaŭ-registro, kiu estas ĉiufoje pli komunaj en psikologio (Nosek and Lakens 2014) , politika scienco (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) kaj ekonomiko (Olken 2015) .
En la studo de Costa and Kahn (2013) nur proksimume duono de la hejmoj en la eksperimento povis esti ligitaj al la demografia informo. Legantoj interesita en la detaloj kaj eblaj problemoj kun tiu analizo devus rilati al la origina papero.
Mekanismoj estas nekredeble grava, sed ili rezulti esti tre malfacila por studi. Esploro pri mekanismoj proksime rilatita al la studo de mediadores en psikologio (sed vidu ankaŭ VanderWeele (2009) por preciza komparo inter la du ideoj). Statistikaj aliroj al trovanta mekanismoj, kiel ekzemple la disvolvigita en Baron and Kenny (1986) , estas sufiĉe komuna. Bedaŭrinde, Ĝi rezultas ke tiuj proceduroj dependas iuj fortaj supozoj (Bullock, Green, and Ha 2010) kaj suferas kiam ekzistas multoblaj mekanismoj, kiel oni povus atendi en multaj situacioj (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) kaj Imai and Yamamoto (2013) proponas iuj plibonigitaj metodoj estadísticos. Plui, VanderWeele (2015) proponas libro-longa traktado kun kelkaj gravaj rezultoj, Inkluzivanta multampleksa aliro al sentemo analizo.
Alia alproksimiĝo temigas eksperimentoj kiuj provis manipuli la mekanismon rekte (ekzemple, donante maristoj vitamino C). Bedaŭrinde, en multaj sociaj sciencoj difinoj estas ofte multnombraj mekanismoj kaj estas malfacile desegni traktadoj kiuj ŝanĝas sen ŝanĝanta la aliaj. Kelkaj aliroj al eksperimente ŝanĝante mekanismoj estas priskribitaj en Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , kaj Pirlott and MacKinnon (2016) .
Fine, mekanismoj ankaŭ havas longan historion en la filozofio de scienco kiel priskribita de Hedström and Ylikoski (2010) .
Por pli sur la uzo de korespondado studoj kaj auditoría studojn por mezuri diskriminacio vidi Pager (2007) .
La plej ofta maniero por varbi partoprenantojn por eksperimentoj kiuj vi konstruas estas Amazon Mechanical Turk (MTurk). Ĉar MTurk imitas aspektojn de tradiciaj laboratorio eksperimentoj pagata personoj kompletigi taskojn kiujn ili ne farus senkoste-multaj esploristoj jam komencis uzi Turkers (la laboristoj sur MTurk) kiel partoprenantoj en homaj temoj eksperimentoj rezultis en rapida kaj malkara datenkolektado ol tradicia sur-kampuso laboratorio eksperimentoj (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
La plej granda forto de eksperimentoj kun partoprenantoj rekrutita el MTurk estas logistika: ili permesas al esploristoj varbi partoprenantojn rapide kaj drajvo. Dum laboratorio eksperimentoj povas preni semajnojn kuri kaj kampo eksperimentoj povas preni monatojn por preparo, eksperimentoj kun partoprenantoj rekrutita el MTurk povas kuri en tagoj. Ekzemple, Berinsky, Huber, and Lenz (2012) povis varbi 400 subjektoj en unu tago por partopreni en 8 minutoj eksperimento. Plui, tiuj partoprenantoj povas esti varbitaj por preskaŭ ajna celo (Inkluzivanta enketojn kaj maso kunlaborado, kiel diskutis en ĉapitroj 3 kaj 5). Tiu facileco de varbado signifas ke esploristoj povas kuri sekvencoj de rilataj eksperimentoj en rapida sinsekvo.
Antaŭ varbi partoprenantojn el MTurk por via propra eksperimentoj, ekzistas kvar gravaj aferoj scii. Unue, multaj esploristoj havas ne-specifajn escepticismo de eksperimentoj implikantaj Turkers. Ĉar tiu skeptiko ne specifaj, estas malfacile kontraŭi kun evidenteco. Tamen, post pluraj jaroj de studoj uzante Turkers, ni povas nun konkludi, ke tiu skeptiko ne speciale necesa. Ekzistis multaj studoj komparanta la demografio de Turkers al aliaj loĝantaroj kaj multaj studoj komparante rezultojn de eksperimentoj kun Turkers al la rezultoj de aliaj loĝantaroj. Donita ĉio ĉi verko, mi opinias ke la plej bona vojo por vi opinias pri ĝi estas ke Turkers estas racia komforto specimeno, tre kiel studentoj sed iomete pli diversaj (Berinsky, Huber, and Lenz 2012) . Tiel, kiel studentoj estas racia loĝantaro por kelkaj sed ne ĉiuj eksperimenta esplorado, Turkers estas racia loĝantaro por kelkaj sed ne ĉiuj esploroj. Se vi estas iranta labori kun Turkers, tiam ĝi havas sencon por legi multajn el tiuj kompara studoj kaj kompreni iliajn nuancojn.
Dua, esploristoj evoluigis plej oportunaj por kreskanta interna valideco de turko eksperimentojn, kaj vi devus scii pri kaj sekvu tiujn plej oportunaj (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Ekzemple, esploristoj uzante Turkers estas kuraĝigitaj uzi screeners forigi neglektema partoprenantoj (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (sed vidu ankaŭ DJ Hauser and Schwarz (2015b) kaj DJ Hauser and Schwarz (2015a) ). Se vi ne forigi neglektema partoprenantoj, tiam ajna efiko de la traktado povas esti lavita for de bruo enkondukita de neglektema partoprenantoj, kaj en praktiko la nombro de neglektema partoprenantoj povas esti substanca. En la eksperimento de Huber kaj kolegoj (2012) proksimume 30% da partoprenantoj ne bazaj atenton screeners. Alia problemo komuna kun Turkers estas ne- naiva partoprenantoj (Chandler et al. 2015) .
Tria, relativa al iuj aliaj formoj de ciferecaj eksperimentoj, MTurk eksperimentoj ne povas grimpi, Stewart et al. (2015) taksas, ke en ajna donita tempo estas nur ĉirkaŭ 7.000 personoj sur MTurk.
Fine, vi devas scii ke MTurk estas komunumo kun liaj propraj reguloj kaj normoj (Mason and Suri 2012) . En la sama vojo ke vi provus trovi ekstere pri la kulturo de lando kie vi tuj kuri via eksperimentoj, vi devus provi eltrovi pli pri la kulturo kaj normoj de Turkers (Salehi et al. 2015) . Kaj, vi devus scii ke la Turkers parolos pri via eksperimento, se vi faros ion netaŭga aŭ maletika (Gray et al. 2016) .
MTurk estas nekredeble oportuna maniero por varbi partoprenantojn por via eksperimentoj, ĉu ili estas laboratorio-kiel, kiel Huber, Hill, and Lenz (2012) , aŭ pli kampo-kiel, kiel Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , kaj Mao et al. (2016) .
Se vi estas pensanta provi krei vian propran produkto, mi rekomendas ke vi legu la konsilojn ofertas la MovieLens grupo en Harper and Konstan (2015) . Ŝlosila komprenon de ilia sperto estas ke por ĉiu sukcesa projekto estas multaj, multaj fiaskoj. Ekzemple, la MovieLens grupo lanĉis aliaj produktoj kiel GopherAnswers kiuj estis kompletaj fiaskoj (Harper and Konstan 2015) . Alia ekzemplo de esploristo malsukcesado dum provo konstrui produkto estas Edward Castronova provo konstrui reta ludo nomita Arden. Malgraŭ $ 250.000 en financado, la projekto estis fiasko (Baker 2008) . Projektoj kiel GopherAnswers kaj Arden estas bedaŭrinde multe pli komuna ol projektoj kiel MovieLens. Fine, kiam mi diris ke mi ne scias pri iu alia esploristoj kiuj sukcese konstruita produktoj por ripetita eksperimentado tie estas miaj kriterioj: 1) partoprenantoj uzos la produkto pro kio provizas ilin (ekz, ili ne estas pagitaj kaj ili ne volontuloj helpi scienco) kaj 2) la produkto estis uzita dum pli ol unu klara eksperimento (te, ne la sama eksperimento multoblaj tempoj kun malsamaj partoprenanto naĝejoj). Se vi scias de aliaj ekzemploj, bonvolu sciigi min.
Mi aŭdis la ideo de Pasteur Cuadrante diskutis ofte ĉe tech kompanioj, kaj ĝi helpas organizi esplorojn klopodoj ĉe Google (Spector, Norvig, and Petrov 2012) .
Kupono kaj kolegoj 'studo (2012) ankaŭ provas detekti la efikon de tiuj traktadoj sur la amikoj de tiuj kiuj akceptis ilin. Pro la dezajno de la eksperimento, tiuj spillovers estas malfacile detekti pure; interesitaj legantoj vidos Bond et al. (2012) por pli funda diskuto. Tiu eksperimento estas parto de longa tradicio de eksperimentoj en politika scienco de klopodoj instigi voĉdonantaj (Green and Gerber 2015) . Tiuj akiri-ekstere-la-voĉdono eksperimentoj estas komunaj en parto ĉar estas en Pasteur Quadrant. Tio estas, estas multaj personoj kiuj estas motivitaj por pliigi balotado kaj balotado povas esti interesa konduto testi pli ĝenerala teorioj pri konduto ŝanĝo kaj socia influo.
Aliaj esploristoj provizis konsilojn pri kurante kampo eksperimentoj kun partneraj organizaĵoj kiel politikaj partioj, neregistaraj organizoj kaj entreprenoj (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Aliaj proponis konsilojn pri kiel partnerecojn kun organizoj povas efiki esploro dezajnoj (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnereco povas ankaŭ konduki al etikaj demandoj (Humphreys 2015; Nickerson and Hyde 2016) .
Se vi estas iranta krei analizo planon antaŭ kurante via eksperimento, mi sugestas ke vi komencu per legado raportado gvidliniojn. La Consort (Consolidated Norma Raportado de Juĝoj) gvidlinioj estis evoluigitaj en medicino (Schulz et al. 2010) kaj modifita por sociaj esploroj (Mayo-Wilson et al. 2013) . Rilata aro de gvidlinioj estis disvolvita de la eldonistoj de la ĵurnalo de Eksperimenta Politika Scienco (Gerber et al. 2014) (vidu ankaŭ Mutz and Pemantle (2015) kaj Gerber et al. (2015) ). Fine, raportante gvidliniojn disvolvis en psikologio (Group 2008) , kaj vidu ankaŭ Simmons, Nelson, and Simonsohn (2011) .
Se vi kreas analizo plano vi devus konsideri antaŭ-registri ĝin ĉar antaŭ-registro pliigos la konfidon ke aliaj havas en viaj rezultoj. Plui, se vi laboras kun partnero, ĝi limigos vian partnero kapablon ŝanĝi la analizo post vidi la rezultojn. Pre-registro estas ĉiufoje pli komunaj en psikologio (Nosek and Lakens 2014) , politika scienco (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) kaj ekonomiko (Olken 2015) .
Dum kreante vian antaŭ- analizo plano estu avertita ke iuj esploristoj ankaŭ uzi malprogreso kaj rilataj aliroj al plibonigi la precizecon de la laŭtaksa kuracado efekto, kaj ekzistas iu debato ĉirkaŭ tiu aliro: Freedman (2008) , Lin (2013) , kaj Berk et al. (2013) ; vidu Bloniarz et al. (2016) por pli informo.
Dezajno konsiloj specife por enreta kampo eksperimentoj ankaŭ prezentita en Konstan and Chen (2007) kaj Chen and Konstan (2015) .
Por pli sur la MusicLab eksperimentoj, vidu Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , kaj Salganik (2007) . Por pli sur gajninto-prenas-ĉiuj merkatoj, vidu Frank and Cook (1996) . Por pli sur untangling sorto kaj lerteco pli ĝenerale, vidu Mauboussin (2012) , Watts (2012) kaj Frank (2016) .
Estas alia alproksimiĝo por forigi partoprenanton pagoj ke esploristoj devas uzi kun singardeco: deviga militservo. En multaj rete kampo eksperimentoj partoprenantoj esence redaktita en eksperimentoj kaj neniam kompensis. Ekzemploj de tiu aliro inkludas Restivo kaj van de Rijt la (2012) eksperimento sur rekompencojn en Vikipedio kaj Bond kaj kolego (2012) eksperimento sur instiganta homojn por voĉdoni. Tiuj eksperimentoj ne vere havas nulo variablo kosto, ili havas nulo variablo kosto por esploristoj. Kvankam la kosto de multaj el tiuj eksperimentoj estas ege malgranda por ĉiu partoprenanto, malgrandaj kostoj postulis enorma kvanto de partoprenantoj povas sumigi rapide. Esploristoj kurante amasa rete eksperimentoj ofte pravigi la gravecon de malgrandaj estimita traktado efikoj dirante ke tiuj malgrandaj efikoj povas iĝi grava kiam aplikita al multaj personoj. La ĝusta sama pensado koncernas kostoj kiujn esploristoj trudi sur partoprenantoj. Se via eksperimentoj kaŭzas miliono personoj malŝpari unu minuto, la eksperimento ne estas tre damaĝa al iu aparta persono, sed sume ĝi malŝparis preskaŭ du jaroj de tempo.
Alia alproksimiĝo al kreanta nulo variablo kosto pago al partoprenantoj estas uzi loterio, proksimigo kiu ankaŭ estis uzita en enketo esploro (Halpern et al. 2011) . Fine, por pli pri dizajnado plaĉa uzanto-travivaĵoj vidi Toomim et al. (2011) .
Jen la originalaj difinoj de la tri R, de Russell and Burch (1959) :
"Anstataŭaĵo signifas la anstataŭo por konscia vivanta superaj animaloj de insentient materialo. Redukto signifas redukto en la nombroj de bestoj uzata por akiri informon de donita kvanto kaj precizeco. Bonmaniereco signifas neniun malkreskon en la efiko aŭ severeco de malhumana procedoj aplikitaj al tiuj animaloj kiuj ankoraŭ devas esti uzata. "
La tri R ke mi proponas ne superregi la etikaj principoj priskribitaj en ĉapitro 6. Prefere, ili estas pli ellaborita versio unu el tiuj principoj-bonfaro-specife por la fikso de homaj eksperimentoj.
Kiam konsideranta Emocia kontaĝas, estas tri ne-etikaj temoj por memori al la interpreti ĉi tiu eksperimento. Unue, ĝi ne estas klara kiel la efektiva detaloj de la eksperimento konekti al la teoriaj asertoj; alivorte, estas demandoj pri konstrukcio valideco. Ne estas certe ke la pozitiva kaj negativa vorto grafoj estas vere bona indikilo de la emocia stato de partoprenantoj ĉar 1) ne estas certe ke la vortoj kiuj homoj afiŝi estas bona indikilo de ilia emocioj kaj 2) ne estas certe ke la aparta sento analizo tekniko kiun la esploristoj uzis povas fidinde dedukti emocioj (Beasley and Mason 2015; Panger 2016) . Alivorte, eble estas malbona mezuro de dekliva signalo. Dua, la dezajno kaj analizo de la eksperimento diras ni nenion pri kiu plej efikis (te, ne estas analizo de heterogeneco de traktado efikoj) kaj kion la mekanismo povus esti. En tiu kazo, la esploristoj havis multajn informojn pri partoprenantoj, sed estis esence traktita kiel widgets en la analizo. Tria, la efekto grandeco en tiu eksperimento estis tre malgranda; la diferenco inter la traktado kaj kontrolo kondiĉoj estas ĉirkaŭ 1 en 1000 vortoj. En sia papero, Kramer kaj kolegoj faras la kazon ke efiko de tiu grandeco estas grava ĉar centoj da milionoj da personoj konsenti liajn Novaĵoj Feed ĉiu tago. Alivorte, ili argumentas ke eĉ efikoj kiuj estas malgrandaj por ĉiu persono ili estas grandaj en agregaĵo. Eĉ se vi estus akcepti tiun argumenton, ĝi estas ankoraŭ certe se efikon de tiu grandeco estas grava pri la pli ĝenerala scienca demando pri emocia kontaĝas. Por pli sur la situacioj kie malgrandaj efektoj estas gravaj vidi Prentice and Miller (1992) .
Laŭ la unua R (Replacement), komparante la Emocia kontaĝas eksperimento (Kramer, Guillory, and Hancock 2014) kaj la emocia kontaĝo natura eksperimento (Coviello et al. 2014) ofertas kelkajn ĝeneralajn lecionojn pri la komerco-offs implikita kun movado de eksperimentoj por naturaj eksperimentoj (kaj aliaj aliroj kiel egalante tiu provo aproksimi eksperimentoj en ne-eksperimentaj datumoj, vidu Ĉapitro 2). Krom la etika profitoj, ŝanĝante de eksperimenta al ne-eksperimentaj studoj ankaŭ ebligas esploristoj studi traktadoj kiujn ili logísticamente nekapabla deploji. Tiuj etikaj kaj loĝistikaj avantaĝoj venas je kosto, tamen. Kun naturaj eksperimentoj esploristoj havas malpli kontrolo super aferoj kiel reclutamiento de partoprenantoj, aleatorización, kaj la naturo de la traktado. Ekzemple, unu limigon de pluvokvanto kiel traktado estas kiu ambaŭ pliigas pozitiveco kaj malgrandiĝas negatividad. En la eksperimenta studo, tamen, Kramer kaj kolegoj povis alĝustigi pozitiveco kaj negativeco sendepende.
La aparta alproksimiĝo uzita de Coviello et al. (2014) estis plue ellaborita en Coviello, Fowler, and Franceschetti (2014) . Por enkonduko al instrumentaj variabloj vidi Angrist and Pischke (2009) (malpli formala) aŭ Angrist, Imbens, and Rubin (1996) (pli formalan). Por skeptika takson de instrumentaj variabloj vidi Deaton (2010) , kaj por enkonduko al instrumentaj variabloj kun malforta instrumentoj (pluvo estas malforta instrumento), vidu Murray (2006) .
Pli ĝenerale, bona enkonduko al naturaj eksperimentoj estas Dunning (2012) , kaj Rosenbaum (2002) , Rosenbaum (2009) , kaj Shadish, Cook, and Campbell (2001) proponas bonajn ideojn pri taksanta kaŭza efektoj sen eksperimentoj.
Laŭ la dua R (Bonmaniereco), estas scienca kaj loĝistikaj komerco-offs kiam konsideranta ŝanĝanta la dezajno de Emocia kontaĝas de blokanta afiŝojn por relanĉo afiŝojn. Ekzemple, ĝi povas esti la kazo ke la teknika realigo de Novaĵoj Feed faras estas substance pli facile fari eksperimenton kun blokante afiŝojn anstataŭ eksperimenton kun akcelanta afiŝojn (rimarku ke eksperimento kun blokante afiŝojn eblus implementado kiel mantelo sur supro de Novaĵoj Feed sistemon sen ajna bezono de alteraciones de la suba sistemo). Science, tamen, la teorio adresis per la eksperimento ne klare sugestas unu dezajnon super la aliaj.
Bedaŭrinde, mi ne estas konscia de substanca antaŭan esploron pri la relativaj meritoj de blokado kaj relanĉo enhavo en la Novaĵoj Feed. Ankaŭ, Mi ne vidis multe esploro pri rafinanta traktadoj fari ilin malpli damaĝaj; unu escepto estas Jones and Feamster (2015) , kiu konsideras la kazon de mezurado de interreto cenzuras (temo mi diskutas en Ĉapitro 6 en rilato al la Encore studo (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Laŭ la tria R (Redukto), bona enkonduko al tradicia povo analizo estas Cohen (1988) . Pre-trakto covariates povas inkludi en la dezajno fazo kaj la analizo stadion de eksperimentoj; Ĉapitro 4 de Gerber and Green (2012) disponigas bonan enkondukon al ambaŭ aliroj, kaj Casella (2008) disponigas pli detala traktado. Teknikaj kiu uzas ĉi antaŭ- traktado informo en la aleatorización estas tipe nomitaj aŭ blokita eksperimentaj dezajnoj aŭ estratificadas eksperimentaj dezajnoj (la terminologio ne estas uzita konstante trans komunumoj); tiuj teknikoj estas profunde rilatita al la estratificadas muestreo teknikoj diskutitaj en ĉapitro 3. Vidu Higgins, Sävje, and Sekhon (2016) por pli sur uzanta tiuj dezajnoj en amasa eksperimentoj. Pre-trakto covariates povas ankaŭ esti inkluditaj en la analizo stadio. McKenzie (2012) esploras la diferencon-en-diferencoj alproksimiĝo al analizi kampo eksperimentoj pli detale. Vidu Carneiro, Lee, and Wilhelm (2016) por pli sur la komerco-offs inter malsamaj aliroj pliigi precizecon en taksoj de traktado efektoj. Fine, kiam decidanta ĉu por provi inkluzivas antaŭ-traktado covariates en la dezajno aŭ analizo stadio (aŭ ambaŭ), ekzistas kelkaj faktoroj konsideri. En fikso kie esploristoj volas montri ke ili ne estas "fiŝkaptado" (Humphreys, Sierra, and Windt 2013) , uzante antaŭ- traktado covariates en la dezajno etapo povas esti helpema (Higgins, Sävje, and Sekhon 2016) . En situacioj kie partoprenantoj alvenos sinsekve, precipe rete kampo eksperimentoj, uzante antaŭ- traktado informo en la dezajno etapo povas esti malfacila logísticamente, vidu ekzemple Xie and Aurisset (2016) .
Indas aldoni iom de intuicio pri kial diferenco-en-diferencoj povas esti tiel multe pli efika ol diferenco-en-rimedoj. Multaj rete rezultoj havas tre alta varianco (vidu ekz Lewis and Rao (2015) kaj Lamb et al. (2015) ) kaj estas relative stabilaj dum tempo. En tiu kazo, la ŝanĝo partituro devos substance pli malgranda varianco, pliigante la potenco de la statistika testo. Unu kialo ĉi proksimiĝis ne estas uzita pli ofte estas ke antaŭ la diĝita aĝo ne estis komune havi antaŭ-traktado rezultoj. Pli konkreta maniero pensi pri ĝi estas imagi eksperimenton por mezuri ĉu specifa ekzerco rutino kaŭzas pezo perdo. Se vi faros diferencon-en-rimedoj alproksimiĝo, via takso devos variabilidad kiu venas de la variabilidad en pezoj en la loĝantaro. Se vi faros diferencon-en-diferenco alproksimiĝo tamen ke nature okazanta variado en pezoj ricevas forigita kaj vi povas pli facile detekti diferenco kaŭzita de la kuracado.
Unu grava maniero por redukti la nombron da partoprenantoj en via eksperimento estas konduki potenco analizo, kiu Kramer kaj kolegoj povus esti farita surbaze de la efiko grandecoj observita de la natura eksperimento de Coviello et al. (2014) aŭ frua ne-eksperimenta esploro de Kramer (2012) (fakte ĉi tiuj estas agadoj ĉe la fino de ĉi tiu ĉapitro). Rimarki ke tiu uzo de potenco analizo estas iom malsama ol la tipaj. En la analoga epoko, esploristoj ĝenerale faris potenco analizo certigi ke ilia studo estis tro malgranda (te, sub-funkciigita). Nun, tamen, esploristoj devus fari potenco analizo certigi ke ilia studo ne tro granda (te, super-funkciigita).
Fine, mi konsideris aldoni kvaran R: repurpose. Tio estas, se esploristoj trovas sin kun pli eksperimentaj datumoj ol ili bezonas por trakti ilian originan esploradon demandon, oni devus repurpose la datumoj demandi novajn demandojn. Ekzemple, imagu ke Kramer kaj kolegoj uzis diferenco-en-diferencoj proksimumilo kaj trovis sin kun pli datumoj ol bezonis por trakti ilian esploradon demando. Prefere ol ne uzi la datumojn al la plej plena mezuro, ili povus esti studitaj la grandeco de la efekto kiel funkcio al antaŭ-traktado emocia esprimo. Kiel Schultz et al. (2007) trovis ke la efiko de la traktado estis malsamaj por malpezaj kaj pezaj uzantoj, eble la efektoj de Novaĵoj Feed estis malsamaj por personoj kiuj jam emis afiŝi feliĉa (aŭ malĝoja) mesaĝojn. Repurposing povus konduki al "fiŝkaptado" (Humphreys, Sierra, and Windt 2013) kaj "p-kodrompado" (Simmons, Nelson, and Simonsohn 2011) , sed tiuj estas plejparte direccionable per kombino de honesta raportado (Simmons, Nelson, and Simonsohn 2011) , antaŭ-registriĝo (Humphreys, Sierra, and Windt 2013) , kaj maŝina lerno metodoj kiu provas eviti super-konvenanta.