Kysymykset sosiaalisen tutkimuksen syy-yhteydestä ovat usein monimutkaisia ja monimutkaisia. Periaateperusteinen lähestymistapa kausaalipohjaisiin syy-yhteyksiin, ks. Pearl (2009) ja perustavaa laatua oleva lähestymistapa, joka perustuu potentiaalisiin tuloksiin, katso Imbens and Rubin (2015) . Näiden kahden lähestymistavan vertailua varten katso Morgan and Winship (2014) . Jotta muodollinen lähestymistapa sekoittimen määrittelemiseen on VanderWeele and Shpitser (2013) .
Tässä luvussa olen luonut, mikä tuntui kirkkaalta linjalta kykyämme tehdä syy-arvioita kokeellisista ja ei-kokeellisista tiedoista. Uskon kuitenkin, että todellisuudessa erotus on enemmän hämärtynyt. Esimerkiksi jokainen hyväksyy, että tupakointi aiheuttaa syövän, vaikka satunnaistettua kontrolloitua kokeilua, joka pakottaa ihmisiä tupakoimaan, on koskaan tehty. Erinomaiset kirjapituiset hoidot kausaalisten arvioiden tekemiseksi ei-kokeellisista tiedoista, katso Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) ja Dunning (2012) .
Freedman, Pisani, and Purves (2007) luvut 1 ja 2 tarjoavat selkeän esityksen kokeiden, kontrolloitujen kokeiden ja satunnaistettujen kontrolloitujen kokeiden eroista.
Manzi (2012) tarjoaa kiehtovan ja luettavan johdannon satunnaistettujen kontrolloitujen kokeiden filosofisiin ja tilastollisiin perusteluihin. Se tarjoaa myös mielenkiintoisia reaalimaailman esimerkkejä liiketoiminnan kokeiluvoimasta. Issenberg (2012) tarjoaa kiehtovan esittelytapahtuman käyttämiseen poliittisissa kampanjoissa.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 ja Athey and Imbens (2016b) tarjoavat hyviä Athey and Imbens (2016b) kokeellisen suunnittelun ja analyysin tilastollisiin näkökohtiin. Edelleen, on olemassa erinomaisia hoitoja käytön kokeiluja useilla eri aloilla: Economics (Bardsley et al. 2009) , sosiologian (Willer and Walker 2007; Jackson and Cox 2013) , psykologia (Aronson et al. 1989) , valtiotieteen (Morton and Williams 2010) ja sosiaalipolitiikka (Glennerster and Takavarasha 2013) .
Osallistujien rekrytoinnin merkitys (esim. Näytteenotto) on usein liian vähän arvostettu kokeellisessa tutkimuksessa. Kuitenkin, jos hoidon vaikutus on heterogeeninen väestössä, näytteenotto on kriittinen. Longford (1999) tekee tämän asian selvästi, kun hän kannattaa tutkijoiden miettimistä populaatiotutkimuksena satunnaisotannalla.
Olen ehdottanut, että laboratoriotutkimuksen ja kenttätutkimusten välillä on jatko, ja muut tutkijat ovat ehdottaneet yksityiskohtaisempia typologioita, erityisesti sellaisia, jotka erottavat kenttäkokeiden eri muodot (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Useita artikkeleita on verrattu abstraktisti (Falk and Heckman 2009; Cialdini 2009) ja tieteenalojen erityistutkimusten tulokset (Coppock and Green 2015) , taloustiede (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) sekä psykologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) tarjoavat miellyttävän tutkimussuunnittelun tulosten vertailemiseksi laboratorio- ja kenttätutkimuksista. Parigi, Santana, and Cook (2017) kuvaavat, miten verkkokentän kokeilut voivat yhdistää joitain laboratoriokokeiden ominaisuuksia.
Huolenaiheita osallistujista muuttaa käyttäytymistään, koska he tietävät, että heitä tarkkaillaan, kutsutaan joskus kysynnän vaikutuksiksi . Heitä on tutkittu psykologiassa (Orne 1962) ja taloustieteessä (Zizzo 2010) . Vaikka suurin osa liittyy laboratoriokokeisiin, nämä samat ongelmat voivat aiheuttaa ongelmia myös kenttätutkimuksissa. Itse asiassa kysynnän vaikutuksia kutsutaan myös Hawthorne -tehoksi , termi, joka tuottaa kuuluisat valaistuskokeet, jotka alkoivat vuonna 1924 Western Electric Companyn Hawthorne Worksissa (Adair 1984; Levitt and List 2011) . Sekä kysyntävaikutukset että Hawthorne-vaikutukset liittyvät läheisesti ajatukseen reaktiokyvystä, jota on käsitelty luvussa 2 (ks. Myös Webb et al. (1966) ).
Kenttäkokeilla on pitkä historia taloustieteissä (Levitt and List 2009) , poliittinen tiede (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologia (Shadish 2002) ja yleinen politiikka (Shadish and Cook 2009) . Yksi yhteiskuntatieteellisen alan alue, jossa kenttätutkimukset tulivat nopeasti näkyviin, on kansainvälinen kehitys. Jotta myönteinen tar- Banerjee and Duflo (2009) taloustieteellisestä toiminnasta voi katsoa Banerjee and Duflo (2009) , kriittisen arvioinnin voi katsoa Deaton (2010) . Jotta tätä työtä voitaisiin tarkastella poliittisessa tieteessä, katso Humphreys and Weinstein (2009) . Lopuksi kenttätutkimuksista aiheutuvia eettisiä haasteita on tutkittu poliittisen tieteen (Humphreys 2015; Desposato 2016b) ja kehitysyhteistyöpolitiikan (Baele 2013) .
Tässä osiossa ehdotin, että esikäsittelyn tietoja voidaan käyttää parantamaan arvioitujen hoitovaikutusten tarkkuutta, mutta tästä lähestymistavasta keskustellaan jonkin verran. katso Freedman (2008) , W. Lin (2013) , Berk et al. (2013) ja Bloniarz et al. (2016) saadaksesi lisätietoja.
Lopuksi yhteiskuntatieteilijät tekevät kaksi muuta kokeilua, jotka eivät sovi täsmällisesti lab-kentän ulottuvuuteen: tutkimuskokeisiin ja sosiaalisiin kokeiluihin. Kyselykokeet ovat kokeita, joissa käytetään olemassa olevien tutkimusten infrastruktuuria ja verrataan vastauksia vaihtoehtoisten versioiden samaan kysymyksiin (jotkin tutkimuskokeet esitetään luvussa 3); lisää tutkimuskokeista katso Mutz (2011) . Sosiaaliset kokeilut ovat kokeita, joissa hoito on sosiaalipolitiikkaa, jota vain hallitus voi toteuttaa. Sosiaaliset kokeet liittyvät läheisesti ohjelman arviointiin. Lisätietoja käytännön kokeista on Heckman and Smith (1995) , Orr (1998) ja @ glennerster_running_2013.
Olen päättänyt keskittyä kolmeen käsitteeseen: pätevyydestä, hoidon vaikutusten heterogeenisuudesta ja mekanismeista. Näillä käsitteillä on eri nimet eri aloilla. Esimerkiksi psykologit pyrkivät siirtymään yksinkertaisten kokeiden ulkopuolelle keskittymällä välittäjiin ja valvojiin (Baron and Kenny 1986) . Sovittelija-ajatus on vangittu kutsumalla mekanismeja, ja valvojien käsitys on vangittu kutsumalla ulkoista validiteettiä (esim. Olisiko kokeilun tulokset erilaiset, jos sitä ajettaisiin erilaisissa tilanteissa) ja hoidon vaikutusten heterogeenisyys ( esimerkiksi joidenkin ihmisten vaikutukset ovat suuremmat kuin muille).
Schultz et al. (2007) osoittaa, miten sosiaalisia teorioita voidaan käyttää tehokkaiden toimien suunnittelussa. Yleisempää argumenttia teorian roolista tehokkaiden toimien suunnittelussa, katso Walton (2014) .
Sisäisen ja ulkoisen pätevyyden käsitteet otettiin ensimmäisen kerran käyttöön Campbell (1957) . Katso Shadish, Cook, and Campbell (2001) tarkempaan historiaan ja tilastollisen päättelyn pätevyyden, sisäisen validiteetin, Shadish, Cook, and Campbell (2001) ja ulkoisen pätevyyden huolelliseen käsittelyyn.
Yleiskatsaus tilastollisten Imbens and Rubin (2015) validiteettiin liittyvistä kysymyksistä ks. Gerber and Green (2012) (yhteiskuntatieteellisestä näkökulmasta) ja Imbens and Rubin (2015) (tilastollisesta näkökulmasta). Jotkut tilastollisen päättymispätevyyden aiheet, jotka ilmenevät erityisesti verkkokentän kokeissa, ovat mm. Laskennallisesti tehokkaita menetelmiä luottamusvälien luomiseksi riippuvaisista tiedoista (Bakshy and Eckles 2013) .
Sisäistä pätevyyttä voi olla vaikea varmistaa monimutkaisilla kenttätutkimuksilla. Katso esim. Gerber and Green (2000) , Imai (2005) ja Gerber and Green (2005) keskustelemaan äänestyksen monimutkaisen kenttätutkimuksen toteuttamisesta. Kohavi et al. (2012) ja Kohavi et al. (2013) esitellään intervalliaikojen haasteisiin online-kenttätutkimuksissa.
Yksi tärkeä uhka sisäiselle validiteetille on epäonnistuneen satunnaistamisen mahdollisuus. Yksi mahdollinen tapa satunnaistamisen ongelmien havaitsemiseen on vertailujen ja verrokkiryhmien vertaaminen havaittavissa oleviin piirteisiin. Tällaista vertailua kutsutaan tasapainotarkastukseksi . Katso Hansen and Bowers (2008) tilastollisesta lähestymistavasta tasapainotarkastusten ja Mutz and Pemantle (2015) tasapainottamiseen tasapainotarkastuksista. Esimerkiksi käyttämällä tasapainotarkastusta Allcott (2011) löysi jonkin verran näyttöä siitä, että satunnaistamista ei toteutettu oikein kolmessa Opower-kokeessa (ks. Taulukko 2, kohdat 2, 6 ja 8). Muiden lähestymistapojen osalta katso Imbens and Rubin (2015) luku 21.
Muita keskeisiä sisäiseen pätevyyteen liittyviä huolenaiheita ovat: (1) yksipuolinen vaatimustenvastaisuus, jossa hoitohenkilökunnan kaikki eivät todellisuudessa saaneet hoitoa, (2) kaksipuolinen vaatimustenvastaisuus, jossa hoitoryhmässä ei ole hoitoa, ja jotkut hoitoryhmä saa hoitoa, (3) poistoa, jossa tulokset eivät ole mitattuja joillekin osallistujille ja (4) häiriöitä, joissa hoito kulkeutuu hoidossa olleilta ihmisiltä valvontatilanteessa oleville ihmisille. Katso Gerber and Green (2012) luvut 5, 6, 7 ja 8 lisäämistä näistä asioista.
Lisätietoja rakentamisen pätevyydestä, ks. Westen and Rosenthal (2003) , sekä lisää rakentamisen pätevyydestä suurissa tietolähteissä Lazer (2015) ja tämän kirjan luku 2.
Eräs ulkoisen pätevyyden osa on se, jossa interventiota testataan. Allcott (2015) tarjoaa tarkan teoreettisen ja empiirisen käsittelyn Allcott (2015) vääristymälle. Tätä kysymystä käsitellään myös Deaton (2010) . Toinen ulkoisen validiteetin näkökohta on se, ovatko saman toimenpiteen vaihtoehtoiset operaatiot samanlaiset vaikutukset. Tässä tapauksessa vertailu Schultz et al. (2007) ja Allcott (2011) osoittavat, että Opower-kokeilla oli pienempi arvioitu hoidettu vaikutus kuin Schultzin ja hänen kollegansa alkuperäiset kokeet (1,7% vs. 5%). Allcott (2011) arvioi, että seurantakokeet vaikuttivat pienempiin vaikutuksiin erilaisten hoitomuotojen vuoksi: käsinkirjoitettu hymiö osana yliopiston sponsoroimaa tutkimusta verrattuna painettuun hymiöön osana massatuotetta raportti sähköyhtiöstä.
Katso erinomaiset yleiskatsaukset kenttäkokeiden hoitovaikutusten heterogeenisuudesta, ks. Gerber and Green (2012) luvusta 12. Kravitz, Duan, and Braslow (2004) tutkimusten hoidon vaikutusten heterogeenisuuden esittelemiseksi ks. Kent and Hayward (2007) , Longford (1999) ja Kravitz, Duan, and Braslow (2004) . Hoidon vaikutusten heterogeenisyyden näkökulmat keskittyvät yleensä esikäsittelyominaisuuksiin perustuviin eroja. Jos olet kiinnostunut heterogeenisuudesta, joka perustuu hoidon jälkeisiin tuloksiin, tarvitaan monimutkaisempia lähestymistapoja, kuten pääasiallinen stratifiointi (Frangakis and Rubin 2002) . katso Page et al. (2015) tarkistettavaksi.
Monet tutkijat arvioivat hoitovaikutusten heterogeenisyyttä lineaarisella regressiolla, mutta uudemmat menetelmät perustuvat koneen oppimiseen; katso esim. Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) ja Athey and Imbens (2016a) .
Eri vaikutusten heterogeenisuuden havainnot ovat skeptisiä, koska useat vertailuhäiriöt ja "kalastus" johtuvat monista erilaisista tilastollisista lähestymistavoista, jotka voivat auttaa ratkaisemaan monien vertailujen huolenaiheet (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Yksi lähestymistapa "kalastukseen" liittyvistä huolenaiheista on esirekisteröinti, joka on yleistynyt psykologiassa (Nosek and Lakens 2014) , poliittinen tiede (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ja taloustiede (Olken 2015) .
Costa and Kahn (2013) vain noin puolet kokeilusta olevista kotitalouksista voitaisiin yhdistää väestötietoihin. Näihin yksityiskohtiin kiinnostuneiden lukijoiden tulisi viitata alkuperäiseen paperiin.
Mekanismit ovat uskomattoman tärkeitä, mutta ne osoittautuvat erittäin vaikeiksi tutkia. Mekanismien tutkimus liittyy läheisesti psykologian sovittelijoiden tutkimukseen (ks. Myös VanderWeele (2009) näiden kahden idean tarkkaan vertailuun). Tilastolliset lähestymistavat mekanismien löytämiseen, kuten Baron and Kenny (1986) kehitetty lähestymistapa ovat melko yleisiä. Valitettavasti käy ilmi, että nämä menettelyt riippuvat eräistä voimakkaista oletuksista (Bullock, Green, and Ha 2010) ja kärsivät silloin, kun on olemassa useita mekanismeja, joita voitaisiin odottaa monissa tilanteissa (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ja Imai and Yamamoto (2013) tarjoavat parempia tilastollisia menetelmiä. Lisäksi VanderWeele (2015) tarjoaa kirjapituisen hoidon, jossa on useita tärkeitä tuloksia, mukaan lukien kattava lähestymistapa herkkyysanalyysiin.
Erillinen lähestymistapa keskittyy kokeisiin, jotka yrittävät manipuloida mekanismia suoraan (esim. Antavat merimiehille C-vitamiinia). Valitettavasti monissa yhteiskuntatieteellisissä asetelmissa on usein useita mekanismeja, ja on vaikea suunnitella hoitoja, jotka muuttavat sitä muuttamatta muita. Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) sekä Pirlott and MacKinnon (2016) kuvaavat joitain lähestymistapoja kokeellisen muutoksen mekanismeihin.
Tutkijoiden, jotka suorittavat täysin factorial kokeita, on oltava huolissaan monista hypoteesitestauksista; katso lisätietoja Fink, McConnell, and Vollmer (2014) ja List, Shaikh, and Xu (2016) .
Lopuksi, mekanismeilla on myös pitkä historia tieteen filosofia, kuten Hedström and Ylikoski (2010) kuvaavat.
Lisätietoja kirjeenvaihdotutkimusten käytöstä ja tilintarkastustutkimuksista syrjinnän mittaamiseksi, katso Pager (2007) .
Yleisin tapa hankkia osallistujia kokeiluihin, joita rakastat on Amazon Mechanical Turk (MTurk). Koska MTurk jäljittelee perinteisten laboratoriokokeiden osa-alueita - maksaa ihmisille tehtäviä, joita he eivät tekisi vapaasti - monet tutkijat ovat jo alkaneet käyttää Turkersia (MTurk-työntekijöitä) kokeellisina osallistujina, mikä johtaa nopeampaan ja halvempaan tiedonkeruuseen kuin mitä voidaan saavuttaa (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Yleisesti ottaen MTurkilta rekrytoidut osallistujien suurimmat edut ovat logistisia. Laboratoriokokeiden kesto voi kestää viikkoja ja kenttäkokeiden kesto voi kestää kuukausia, jolloin MTurkilta rekrytoidut osanottajat voivat kokeilla päiviä. Esimerkiksi Berinsky, Huber, and Lenz (2012) pystyivät rekrytoimaan 400 henkilöä yhden päivän aikana osallistumaan 8 minuutin kokeeseen. Lisäksi näitä osallistujia voidaan rekrytoida käytännöllisesti katsoen mihin tahansa tarkoitukseen (mukaan lukien tutkimukset ja massayhteistyö, kuten luvut 3 ja 5). Tämä rekrytoinnin helppous tarkoittaa sitä, että tutkijat voivat suorittaa peräkkäisten peräkkäisten kokeiden sekvenssit.
Ennen kuin otat osallistujia MTurkilta omia kokeiluja varten, on neljä tärkeää asiaa, jotka sinun on tiedettävä. Ensinnäkin monilla tutkijoilla on epäspesifinen skeptismi kokeista, joihin Turkers osallistuu. Koska tämä skeptismi ei ole erityinen, on vaikea vastata näyttöön. Useiden vuosien tutkimusten jälkeen, joissa käytetään Turkersia, voimme kuitenkin päätellä, että tämä skeptismi ei ole erityisen perusteltua. On tehty lukuisia tutkimuksia, joissa verrattiin Turkersin väestötietoa muiden populaatioiden väestöryhmiin ja monia tutkimuksia, joissa verrattiin kokeiden tuloksia Turkersin ja muiden populaatioiden kanssa. Kun otetaan huomioon kaikki tämä työ, mielestäni paras tapa ajatella sitä on, että Turkers ovat järkevä kohtuullinen otos, aivan kuten opiskelijat, mutta hieman monimuotoisempi (Berinsky, Huber, and Lenz 2012) . Niinpä samoin kuin opiskelijat ovat kohtuullinen väestö joillekin, mutta ei kaikille, tutkimukselle, Turkers ovat kohtuullinen väestö joillekin, mutta ei kaikille, tutkimukselle. Jos aiot työskennellä Turkersin kanssa, on järkevää lukea monia näistä vertailevista tutkimuksista ja ymmärtää niiden vivahteita.
Toiseksi tutkijat ovat kehittäneet parhaita käytäntöjä MTurk-kokeiden sisäisen pätevyyden lisäämiseksi. Sinun tulisi oppia ja noudattaa näitä parhaita käytäntöjä (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Esimerkiksi turkkilaisia käyttäviä tutkijoita kannustetaan käyttämään seuloja poistamaan (Berinsky, Margolis, and Sances 2014, 2016) osallistujat (Berinsky, Margolis, and Sances 2014, 2016) (ks. Myös DJ Hauser and Schwarz (2015b) sekä DJ Hauser and Schwarz (2015a) ). Jos et poista huomaamattomia osallistujia, hoidon mahdolliset vaikutukset voidaan huuhtoa niiden aiheuttaman melun avulla ja käytännössä huomaamattomien osallistujien määrä voi olla huomattava. Huberin ja työtovereiden (2012) kokeessa noin 30% osallistujista epäonnistui perusseurantaan. Muita ongelmia, joita yleisesti esiintyy, kun Turkersia käytetään, ovat naisvastaisia osallistujia (Chandler et al. 2015) ja poistuminen (Zhou and Fishbach 2016) .
Kolmanneksi, suhteessa muihin digitaalisten kokeiden muotoihin, MTurk-kokeet eivät voi skaalata; Stewart et al. (2015) arvioi, että MTurkissa on vain noin 7000 henkilöä.
Lopuksi sinun pitäisi tietää, että MTurk on yhteisö, jolla on omat säännöt ja normit (Mason and Suri 2012) . Samoin kuin yrität selvittää maan kulttuuria, jossa aiotte kokeilla kokeiluja, sinun pitäisi yrittää selvittää Turkerien kulttuuria ja normeja (Salehi et al. 2015) . Ja sinun pitäisi tietää, että Turkers puhuvat kokeestasi, jos teet jotain sopimatonta tai epäeettistä (Gray et al. 2016) .
MTurk on uskomattoman kätevä tapa rekrytoida osallistujia kokeilutietoihin, olivatpa ne Lab-tyyppisiä, kuten Huber, Hill, and Lenz (2012) kaltaisia kaltaisia kaltaisia kenttiä, kuten Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) ja Mao et al. (2016) .
Jos aiot yrittää luoda omia tuotteita, suosittelen lukemaan MovieLens-ryhmän suosituksia Harper and Konstan (2015) . Keskeinen kokemus kokemuksesta on se, että jokaiselle onnistuneelle hankkeelle on monia, monia epäonnistumisia. Esimerkiksi MovieLens-ryhmä käynnisti muita tuotteita, kuten GopherAnswers, jotka olivat täydellisiä vikoja (Harper and Konstan 2015) . Toinen esimerkki tutkijasta, joka epäonnistui yrittäessään rakentaa tuotetta, on Edward Castronovan yritys rakentaa online-peli nimeltä Arden. Huolimatta 250 000 dollarin rahoituksesta projekti oli floppi (Baker 2008) . Projektit, kuten GopherAnswers ja Arden, ovat valitettavasti paljon yleisempää kuin ProjectLensin kaltaiset projektit.
Olen kuullut ajatuksen siitä, että Pasteur's Quadrant on usein keskusteltu teknologiayrityksissä, ja se auttaa järjestämään tutkimustoimintaa Googlessa (Spector, Norvig, and Petrov 2012) .
Bond ja kollegatutkimus (2012) yrittävät myös havaita näiden hoitojen vaikutuksen heidän vastaanottamansa ystäville. Kokeilun suunnittelusta johtuen näitä läikkyjä on vaikea havaita puhtaasti; kiinnostuneiden lukijoiden tulisi nähdä Bond et al. (2012) perusteellisempaan keskusteluun. Jones ja hänen kollegansa (2017) suorittivat myös hyvin samanlaisen kokeilun vuoden 2012 vaaleissa. Nämä kokeilut ovat osa pitkää perinne poliittisen tieteen kokeista, jotka kannustavat äänestykseen (Green and Gerber 2015) . Nämä out-the-vote-kokeilut ovat yleisiä, osittain siksi, että ne ovat Pasteur's Quadrantissa. Eli on monia ihmisiä, jotka ovat motivoituneita lisäämään äänestystä ja äänestäminen voi olla mielenkiintoinen käyttäytyminen testaamaan yleisempää teoriaa käyttäytymisestä ja yhteiskunnallisesta vaikutuksesta.
Neuvoja kenttäkokeiden käyttämisestä kumppaniorganisaatioiden, kuten poliittisten puolueiden, kansalaisjärjestöjen ja yritysten kanssa, ks. Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) ja Gueron (2002) . Ajatuksia siitä, miten kumppanuudet organisaatioiden kanssa voivat vaikuttaa tutkimussuunnitteluun, katso King et al. (2007) ja Green, Calfano, and Aronow (2014) . Kumppanuus voi myös johtaa eettisiin kysymyksiin, kuten Humphreys (2015) ja Nickerson and Hyde (2016) .
Jos aiot luoda analyysisuunnitelman ennen kokeilun suorittamista, suosittelen, että aloitat lukemalla raportointiohjeet. CONSORTin (konsolidoitu raportti kokeista) suuntaviivoja kehitettiin lääketieteessä (Schulz et al. 2010) ja muokattu sosiaaliseen tutkimukseen (Mayo-Wilson et al. 2013) . Mutz and Pemantle (2015) suuntaviivojen joukosta on kehitetty Journal of Experimental Political Science (Gerber et al. 2014) (ks. Myös Mutz and Pemantle (2015) ja Gerber et al. (2015) ). Lopuksi raportointiohjeita on kehitetty psykologiassa (APA Working Group 2008) ja myös Simmons, Nelson, and Simonsohn (2011) .
Jos luot analyysisuunnitelman, sinun on harkittava esirekisteröintiä, koska esirekisteröinti lisää luottamusta siihen, että muut ovat tuloksissasi. Lisäksi, jos työskentelet yhteistyökumppanin kanssa, se rajoittaa kumppanin kykyä muuttaa analyysi tulosten jälkeen. Esikirjoittaminen on yleistymässä psykologiassa (Nosek and Lakens 2014) , poliittisessa tiedeohjelmassa (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ja taloustiede (Olken 2015) .
Suunnittelukonsultointia erityisesti verkkokentän kokeille on esitetty myös Konstan and Chen (2007) sekä Chen and Konstan (2015) .
Mitä olen kutsunut armada-strategiaksi kutsutaan toisinaan ohjelmatutkimukseksi ; katso Wilson, Aronson, and Carlsmith (2010) .
Lisätietoja MusicLab-kokeilusta on Salganik Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) ja Salganik (2007) . Lisätietoja voittajien ottamisesta markkinoilta on Frank and Cook (1996) . Lisätietoa Mauboussin (2012) taitojen selvittämisestä, katso Mauboussin (2012) , Watts (2012) ja Frank (2016) .
On olemassa toinen lähestymistapa osallistujamaksujen poistamiseen, joita tutkijat käyttävät varoen: varustaminen. Monissa online-kenttätutkimuksissa osallistujat pohjimmiltaan laaditaan kokeiluiksi eikä niitä koskaan korvata. Esimerkkejä tästä lähestymistavasta ovat Restivo ja van de Rijtin (2012) kokeilu palkkioista Wikipedia ja Bond ja kollegamme (2012) kokeilu kannustaakseen ihmisiä äänestämään. Näillä kokeilla ei todellakaan ole nollaa muuttuvia kustannuksia, vaan niillä ei ole vaihtuvia kustannuksia tutkijoille . Tällaisissa kokeissa, vaikka kustannukset kullekin osallistujalle ovat erittäin pienet, kokonaiskustannukset voivat olla melko suuria. Massiivisten online-kokeiden suorittavat tutkijat usein perustelevat pienten arvioitujen hoitovaikutusten merkitystä sanomalla, että nämä pienet vaikutukset voivat tulla tärkeiksi, kun heitä sovelletaan monilla ihmisillä. Tämä sama ajattelu koskee kustannuksia, joita tutkijat asettavat osallistujille. Jos koe aiheuttaa miljoona ihmistä tuhlaamaan minuutti, kokeilu ei ole kovin haitallista tietylle henkilölle, mutta kokonaisuudessaan se on hukannut lähes kaksi vuotta.
Toinen lähestymistapa osallistujille maksettavien muuttuvien kustannusmaksujen luomiseen on käyttää arpajaista, jota on käytetty myös tutkimustutkimuksessa (Halpern et al. 2011) . Lisätietoja miellyttävän käyttäjäkokemuksen suunnittelusta on Toomim et al. (2011) . Jos haluat lisätietoja robottien luomisesta muuttuvien muuttujakokojen luomiseksi, katso ( ??? ) .
Kolme R: tä, kuten Russell and Burch (1959) ehdotti alunperin, ovat seuraavat:
"Vaihto tarkoittaa substituutio tajuissaan elävät suurempia eläimiä insentient materiaalia. Vähentäminen tarkoittaa väheneminen eläinten lukumäärä käyttää tietojen saamiseksi tietyn määrän ja tarkkuutta. Tarkentaminen tarkoitetaan vähenemisen tai esiintyvyyden epäinhimillistä menettelyjä sovelletaan niihin eläimiin, jotka vielä käyttää. "
Ehdottamani kolme R: tä eivät syrjäytä 6 luvussa kuvattuja eettisiä periaatteita. Sen sijaan ne ovat kehittyneempi versio, joka on yksi niistä periaatteista - hyöty, erityisesti ihmiskokeiden asettaminen.
Ensimmäisen R: n ("korvaaminen") suhteen vertaamalla emotionaalisen tartuntatutkimuksen (Kramer, Guillory, and Hancock 2014) ja emotionaalisen tartunnan luonnollinen koe (Lorenzo Coviello et al. 2014) siirryttäessä kokeista luonnollisiin kokeiluihin (ja muihin lähestymistapoihin, kuten sovittamiseen pyrkimyksestä lähentää kokeita ei-kokeellisissa tiedoissa, katso luku 2). Eettisten hyötyjen lisäksi siirtyminen kokeellisista ei-kokeellisiin tutkimuksiin mahdollistaa myös tutkijoiden tutkimisen hoidoista, joita he eivät logistisesti pysty käyttämään. Nämä eettiset ja logistiset hyödyt ovat kuitenkin kustannuksia. Luonnollisilla kokeilla tutkijoilla on vähemmän hallintaa esimerkiksi osallistujien rekrytoinnissa, satunnaistamisessa ja hoidon luonteessa. Esimerkiksi yhden sademäärän rajoittaminen hoidoksi on se, että se sekä lisää positiivisuutta että vähentää negatiivisuutta. Kokeellisessa tutkimuksessa Kramer ja kollegat kykenivät kuitenkin säätämään positiivisuutta ja negatiivisuutta itsenäisesti. Lorenzo Coviello et al. (2014) kehitettiin edelleen L. Coviello, Fowler, and Franceschetti (2014) . Johdanto instrumentaalisille muuttujille, joka on Lorenzo Coviello et al. (2014) , ks. Angrist and Pischke (2009) (vähemmän muodollinen) tai Angrist, Imbens, and Rubin (1996) (muodollisempi). Instrumentaalisten muuttujien epäilevän arvioinnin osalta ks. Deaton (2010) ja johdannossa instrumentaalisiin muuttujiin heikoilla instrumenteilla (sade on heikko instrumentti), katso Murray (2006) . Yleisemmässä Shadish, Cook, and Campbell (2001) Dunning (2012) antaa hyvän johdannon luonnollisiin kokeisiin, kun taas Rosenbaum (2002) , ( ??? ) ja Shadish, Cook, and Campbell (2001) tarjoavat hyviä ideoita kausaalisten vaikutusten arvioimiseksi ilman kokeiluja.
Toisen R: n ("hienosäätö") osalta on olemassa tieteellisiä ja logistisia kompromisseja, kun harkitaan Emotionaalisen tartunnan suunnittelun muuttamista estämällä virkoja virikkeiden lisäämiseksi. Esimerkiksi saattaa olla, että uutispalvelun tekninen toteutus tekee huomattavasti helpompaa tehdä kokeilua, jossa viestit estetään sen sijaan, että niitä kannustetaan (huomaa, että kokeilu, johon liittyy virkoja, voidaan estää uutiskirjoitusjärjestelmän yläpuolella kerroksena ilman mitään taustalla olevan järjestelmän muutoksia). Tieteellisesti kuitenkin kokeessa käsitelty teoria ei osoittanut selvästi yhtä mallia toistensa suhteen. Valitettavasti en ole tietoinen merkittävistä aikaisemmista tutkimuksista, jotka koskevat uutisruokinnan sisällön estämisen ja tehostamisen suhteellisia ansioita. Myöskään en ole nähnyt paljon tutkimusta jalostuskäsittelyistä, jotta ne olisivat vähemmän haitallisia. Yksi poikkeus on B. Jones and Feamster (2015) , joka käsittelee Internetin sensuurin mittaamista (kohta käsitellään luvussa 6 suhteessa Encore-tutkimukseen (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Kolmannen R: n ("vähennys") osalta perinteiset tehoanalyysit esitetään Cohen (1988) (kirja) ja Cohen (1992) (artikkeli), kun taas Gelman and Carlin (2014) tarjoavat hieman erilaisen näkökulman. Esikäsittelysovariateja voidaan sisällyttää kokeiden suunnitteluun ja analysointiin; Gerber and Green (2012) luvussa 4 esitetään hyvä lähestymistapa molempiin lähestymistapoihin, ja Casella (2008) tarjoaa syvällisemmän käsittelyn. Tekniikoita, jotka käyttävät tätä esikäsittelytietoa satunnaistamisessa, kutsutaan tyypillisesti joko estetyiksi kokeellisiksi malliksi tai kerrostuneiksi kokeellisiksi malliksi (terminologiaa ei käytetä johdonmukaisesti koko yhteisössä); nämä tekniikat liittyvät läheisesti osassa 3 Higgins, Sävje, and Sekhon (2016) kerrostuneisiin näytteenottotekniikoihin. Katso Higgins, Sävje, and Sekhon (2016) lisää näiden mallien käyttämisestä massiivisissa kokeissa. Esikäsittelysovariateja voidaan myös sisällyttää analyysivaiheeseen. McKenzie (2012) tutkii ero-ero-lähestymistapaa kenttäkokeiden analysointiin yksityiskohtaisemmin. Ks. Carneiro, Lee, and Wilhelm (2016) saadakseen lisätietoja erilaisten lähestymistapojen välisistä kompromisseista tarkkuuden lisäämiseksi hoidon vaikutusten arvioinnissa. Lopuksi päätettäessä, onko yritettävä sisällyttää esikäsittelysovariateja suunnittelu- tai analyysiasteeseen (tai molempiin), on otettava huomioon muutamia tekijöitä. Ympäristössä, jossa tutkijat haluavat osoittaa, että he eivät ole "kalastusta" (Humphreys, Sierra, and Windt 2013) , voi olla hyödyllistä käyttää esikäsittelyvaiheita (suunnitteluvaiheessa) (Higgins, Sävje, and Sekhon 2016) . Tilanteissa, joissa osallistujat saapuvat peräkkäin, erityisesti verkkokentän kokeiluissa, esikäsittelytietojen käyttö suunnitteluvaiheessa voi olla logistista vaikeaa; katso esim. Xie and Aurisset (2016) .
On syytä lisätä hieman intuitiota siitä, miksi erilainen-ero lähestymistapa voi olla niin tehokkaampi kuin ero-in-väline. Monilla online-tuloksilla on hyvin suuri vaihtelu (ks. Esim. RA Lewis and Rao (2015) ja Lamb et al. (2015) ) ja ovat suhteellisen vakaina ajan myötä. Tällöin muutospisteellä on huomattavasti pienempi varianssi, mikä lisää tilastollisen testin voimaa. Eräs syy siihen, että tätä lähestymistapaa ei käytetä useammin, on se, että ennen digitaaliaikaa ei ollut yleistä saada esikäsittelytapahtumia. Konkreettisempi tapa ajatella tätä on kuvitella kokeilu, jolla mitataan, aiheuttaako jokin tietty harjoitusriski laihtuminen. Jos otat käyttöön ero-in-keinon lähestymistavan, arviosi vaihtelee vaihtelevalla painoluokituksella väestössä. Jos kuitenkin käytät ero-ero-lähestymistapaa, luonnollisesti esiintyvä painon vaihtelu poistetaan ja voit helposti tunnistaa hoidon aiheuttaman eron.
Lopuksi pohdin lisäämällä neljäs R: "repurpose". Eli jos tutkijat löytävät kokeellisempia tietoja kuin he tarvitsevat käsittelemään alkuperäistä tutkimuskysymystään, heidän pitäisi palauttaa tiedot uusien kysymysten esittämiseen. Kuvittele esimerkiksi, että Kramer ja hänen kollegansa olivat käyttäneet eroero-estimaattoria ja löysivät enemmän tietoja kuin he tarvitsivat tutkimaan kysymystään. Sen sijaan, että tietoja ei käytetä täysimittaisesti, he olisivat voineet tutkia vaikutuksen kokoa esikäsittelyn tunneilmaisun funktiona. Aivan kuten Schultz et al. (2007) todettiin, että hoidon vaikutus oli erilainen kevyille ja raskaille käyttäjille. Ehkä uutislähteen vaikutukset olisivat erilaisia ihmisille, jotka jo pyrkivät lähettämään onnellisia (tai surullisia) viestejä. Repurposing voi johtaa "kalastukseen" (Humphreys, Sierra, and Windt 2013) ja "p-hakkerointi" (Simmons, Nelson, and Simonsohn 2011) , mutta ne ovat suurelta osin osoitettavissa rehellisen raportoinnin yhdistelmällä (Simmons, Nelson, and Simonsohn 2011) , esirekisteröinti (Humphreys, Sierra, and Windt 2013) sekä konekieliset oppimismenetelmät, joilla yritetään välttää liiallista asennusta.