Muita kommentteja

Tämä osio on suunniteltu käytettäväksi referenssinä, pikemmin kuin luettavaksi kerronnan.

  • Johdanto (kohta 4.1)

Kysymyksiä syy yhteiskuntatutkimuksen ovat usein monimutkaisia ​​ja monivaiheinen. Jotta perustava lähestymistapa syy perustuu syy kaavioita, katso Pearl (2009) , ja perustavana lähestymistapaa, joka perustuu mahdollisten tulosten katso Imbens and Rubin (2015) (ja tekninen liite tässä luvussa). Jotta vertailu näiden kahden lähestymistavan, katso Morgan and Winship (2014) . Muodollista lähestymistapaa määritellään sekoitin, katso VanderWeele and Shpitser (2013) .

Luvussa, olen luonut tuntui kirkas viiva kykymme tehdä syy arvioiden kokeellisen ja ei-kokeilun tiedot. Todellisuudessa uskon, että ero on blurrier. Esimerkiksi kaikki ymmärtävät, että tupakointi aiheuttaa syöpää, vaikka emme ole koskaan tehneet satunnaistettu kontrolloitu koe, joka pakottaa ihmiset tupakoida. Saat erinomaisen kirjan pituus hoitoja tekemään syy arvioiden kuin kokeelliset tiedot katso Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , ja Dunning (2012) .

Luvut 1 ja 2 Freedman, Pisani, and Purves (2007) tarjoavat selkeän kulkeutumisen erot kokeissa ohjattu kokeita, ja satunnaistettu kontrolloitu kokeissa.

Manzi (2012) tarjoaa kiehtovan ja luettavissa tuominen filosofisten ja tilastollisen perustuksista satunnaistettu kontrolloitu kokeissa. Se tarjoaa myös mielenkiintoisia tosielämän esimerkkejä valtaa kokeiluihin liiketoimintaa.

  • Mitä kokeita? (Kohta 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) antaa hyvän esittelyt tilastollisiin näkökohtiin kokeellisen suunnittelu ja analyysi. Edelleen, on olemassa erinomaisia ​​hoitoja käytön kokeiluja useilla eri aloilla: talous (Bardsley et al. 2009) , sosiologia (Willer and Walker 2007; Jackson and Cox 2013) , psykologia (Aronson et al. 1989) , valtiotieteen (Morton and Williams 2010) , ja sosiaalipolitiikka (Glennerster and Takavarasha 2013) .

Tärkeys osallistujan rekrytointi (esim näytteenotto) on usein aliarvostettu kokeellisen tutkimuksen. Jos hoidon vaikutuksesta on heterogeeninen populaatiossa, niin näytteenotto on kriittinen. Longford (1999) tekee tässä vaiheessa selvästi, kun hän suosittelee tutkijoille ajatella kokeita kuin väestön kyselyn sattumanvaraista näytteenotto.

  • Kaksi ulottuvuutta kokeita: lab-kenttä ja analoginen-digitaali (kohta 4.3)

Kahtiajako että esittelin välillä lab ja kenttäkokeiden on vähän yksinkertaistettu. Itse asiassa muut tutkijat ovat ehdottaneet tarkempia typologioita, erityisesti niitä, jotka erottavat eri muodot kenttäkokeiden (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Lisäksi on olemassa kaksi muuta kokeet suoritettiin yhteiskuntatieteilijät, jotka eivät sovi siististi lab ja alan kahtiajako: tutkimus kokeita ja sosiaalisia kokeiluja. Survey kokeet, joissa käytettiin infrastruktuuria nykyisissä tutkimuksissa ja vertaa vastauksia vaihtoehtoisia versioita samoja kysymyksiä (jotkut kyselyn kokeiluja on esitetty luvussa 3); enemmän kyselyihin kokeita nähdä Mutz (2011) . Sosiaalinen kokeilut ovat kokeita, joissa hoito on joitakin sosiaalipolitiikka jotka voidaan toteuttaa hallituksen. Sosiaalinen kokeilut liittyvät läheisesti ohjelman arviointia. Lisää tietoja politiikkakokeisiin, katso Orr (1998) , Glennerster and Takavarasha (2013) , ja Heckman and Smith (1995) .

Monissa asiakirjoissa verranneet lab ja kenttäkokeissa abstraktilla (Falk and Heckman 2009; Cialdini 2009) ja suhteen tulosten erityisiä kokeita valtiotieteen (Coppock and Green 2015) , taloustiede (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) ja psykologia (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) tarjoaa mukavan tutkimuksen suunnittelu verrattaessa tuloksia lab ja alan kokeissa.

Huoli osallistujat muuttamalla käyttäytymistään, koska he tietävät, niitä seurataan tarkasti kutsutaan joskus kysyntää vaikutuksia, ja ne on tutkittu psykologian (Orne 1962) ja taloustieteen (Zizzo 2009) . Vaikka useimmiten liittyy laboratoriokokeissa, nämä samat asiat voivat aiheuttaa ongelmia kenttäkokeisiin samoin. Itse asiassa kysyntä vaikutuksia kutsutaan joskus myös Hawthorne vaikutuksia, termi, joka juontuu kenttäkoe, erityisesti kuuluisan valaistuksen kokeiluja, joka alkoi vuonna 1924 Hawthorne Works Länsi Electric Company (Adair 1984; Levitt and List 2011) . Sekä kysyntä vaikutukset ja Hawthorn vaikutukset liittyvät läheisesti ajatukseen reaktiivisen mittauksen luvussa 2 (katso myös Webb et al. (1966) ).

Historia kenttäkokeissa on kuvattu taloustieteen (Levitt and List 2009) , valtiotieteiden (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psykologia (Shadish 2002) , ja yleisen järjestyksen (Shadish and Cook 2009) . Yksi alue yhteiskuntatieteissä missä kenttäkokeissa tuli nopeasti merkittävä on kansainvälinen kehitys. Positiivisen arvioi tätä työtä taloustiede nähdä Banerjee and Duflo (2009) , ja arvioida kriittisesti nähdä Deaton (2010) . Katsausta varten tämän työn valtiotieteen nähdä Humphreys and Weinstein (2009) . Lopuksi eettiset haasteet mukana kenttäkokeissa on tutkittu valtiotieteestä (Humphreys 2015; Desposato 2016b) ja kehitystaloustieteen (Baele 2013) .

Luvussa, ehdotin, että esikäsittely tietoa voidaan käyttää parantamaan tarkkuutta arvioidaan hoidon vaikutuksia, mutta on jonkin verran keskustelua tästä lähestymistavasta: Freedman (2008) , Lin (2013) , ja Berk et al. (2013) ; katso Bloniarz et al. (2016) lisätietoja.

  • Moving pidemmälle yksinkertaisia ​​kokeita (kohta 4.4)

Olen päättänyt keskittyä kolmeen käsitteeseen: voimassaolo, heterogeenisuus hoidon vaikutuksia, ja mekanismeja. Nämä käsitteet on eri nimet eri aloilla. Esimerkiksi psykologit taipumus siirtyä yksinkertaisia ​​kokeita keskittymällä välittäjien ja valvojat (Baron and Kenny 1986) . Ajatus välittäjien on vangiksi mitä kutsun mekanismeja, ja ajatus moderaattorit vangiksi nimitän ulkoinen pätevyys (esim olisiko kokeilun tuloksista erilainen, jos se ajettiin eri tilanteissa) ja heterogeenisuus hoidon vaikutuksia ( esim ovat vaikutukset suuremmat joillekin ihmisille kuin muut ihmiset).

Kokeilu on Schultz et al. (2007) osoittaa, kuinka sosiaalinen teorioita voidaan suunnitella tehokkaita keinoja. Saat hieman yleisempi argumentti roolista teorian suunnittelussa tehokkaat interventiot, katso Walton (2014) .

  • Pätevyyttä (kohta 4.4.1)

Käsitteet sisäisten ja ulkoisten voimassaolo otettiin ensimmäisen kerran käyttöön vuonna Campbell (1957) . Katso Shadish, Cook, and Campbell (2001) Tarkempi historia ja huolellinen laatiminen tilastollisen päätelmän pätevyyttä, sisäinen pätevyys, rakentaa pätevyys, ja ulkoinen pätevyys.

Yleiskatsaus on kysymyksiä, jotka liittyvät tilastollisten päätelmän pätevyyttä kokeissa katso Gerber and Green (2012) (varten yhteiskuntatieteissä näkökulma) ja Imbens and Rubin (2015) (varten tilastollinen näkökulmasta). Joitakin kysymyksiä Tilastotietojen päätelmän pätevyyteen, jotka syntyvät nimenomaan verkossa kenttäkokeissa muun muassa sellaisia ​​seikkoja kuin laskennallisesti tehokkaita menetelmiä luoda luottamusvälit kanssa riippuvainen data (Bakshy and Eckles 2013) .

Sisäinen voimassaoloaikaa voi olla vaikea varmistaa monimutkaisissa kenttäkokeissa. Katso esimerkiksi, Gerber and Green (2000) , Imai (2005) , ja Gerber and Green (2005) varten keskustelua toteuttamisesta monimutkaista kenttäkokeen Äänestystapoja. Kohavi et al. (2012) ja Kohavi et al. (2013) tarjoavat kulkeutumisen haasteita välin voimassaolon online kenttäkokeissa.

Yksi suuri huolenaihe sisäisten voimassaoloaika on ongelmia satunnaistamista. Yksi tapa mahdollisesti tunnistaa ongelmia satunnaistaminen on verrata hoitoa ja kontrolliryhmissä havaittaviin piirteisiin. Tällainen vertailu on nimeltään tasapaino tarkistaa. Katso Hansen and Bowers (2008) varten tilastollista lähestymistapaa tasapainottaa tarkastuksia, ja nähdä Mutz and Pemantle (2015) varten huolta tasapainosta tarkastuksia. Esimerkiksi käyttämällä tasapaino tarkistaa Allcott (2011) havaitsivat, että on olemassa jonkin verran näyttöä siitä, että hajauttaminen ei toteutettu oikein kolmessa kokeissa joidenkin OPower kokeita (katso taulukko 2; sivustoja 2, 6, ja 8). Muiden lähestymistapoja, katso Imbens and Rubin (2015) , luku 21.

Muita merkittäviä huolenaiheita liittyy sisäisiin voimassaoloajat ovat: 1) yksipuolinen noudattamatta jättämisestä, jossa kaikki eivät hoitoryhmässä todellisuudessa saanut hoitoa, 2) kaksi puolinen noudattamatta jättämisestä, jossa kaikki eivät hoitoryhmässä saa hoitoa ja jotkut ihmiset kontrolliryhmässä saavat hoitoa, 3) poistuman, jos tuloksia ei mitata joillekin osallistujille, ja 4) häiriöt, jossa hoito leviää ihmisiltä hoidettaessa kunnossa ihmisille valvonnassa kunnossa. Katso Gerber and Green (2012) luvuissa 5, 6, 7, ja 8 enemmän kaikista näistä asioista.

Lisää tietoja konstruktio pätevyyttä, katso Westen and Rosenthal (2003) , ja enemmän konstruktio pätevyyttä iso tietolähteitä, Lazer (2015) ja luvun 2 tämän kirjan.

Yksi osa ulkoisen voimassaolo on missä intervention testataan. Allcott (2015) tarjoaa huolellista teoreettinen ja empiirinen hoito sijoituspaikan valinta bias. Tätä kysymystä on käsitelty myös Deaton (2010) . Sen lisäksi, että toistettu monia sivustoja, Home Energy Report interventio on myös itsenäisesti tutkittu useiden tutkimusryhmien (esim Ayres, Raseman, and Shih (2013) ).

  • Heterogeenisyys hoidon vaikutusten (kohta 4.4.2)

Saat erinomaisen yleiskuvan heterogeenisuus hoidon vaikutuksia kenttäkokeissa luvussa 12 Gerber and Green (2012) . Jotta esittelyt heterogeenisuus hoidon vaikutuksia lääketieteen tutkimuksissa, katso Kent and Hayward (2007) , Longford (1999) , ja Kravitz, Duan, and Braslow (2004) . Heterogeenisyys hoidon vaikutuksista keskitytään yleensä eroihin perustuva esikäsittelyä ominaisuudet. Jos olet kiinnostunut heterogeenisyys perustuu jälkeiseen hoitotuloksia, monimutkaisempia approachs tarvitaan kuten pääoma kerrostuminen (Frangakis and Rubin 2002) ; katso Page et al. (2015) tarkistamista.

Monet tutkijat arvioivat, heterogeenisyys hoidon vaikutuksista käyttäen lineaarista regressiota, mutta uudempia menetelmiä luottaa koneoppimisen, esimerkiksi Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ja Athey and Imbens (2016a) .

On olemassa jonkin verran epäilyjä havainnoista heterogeenisuus vaikutusten takia monivertailu ongelmista ja "kalastus". On olemassa erilaisia ​​tilastollisia lähestymistapoja, jotka voivat auttaa osoite huolia monivertailu (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Eräs lähestymistapa huoli "kalastus" on esirekisteröinti, joka on yhä yleisempää psykologia (Nosek and Lakens 2014) , valtiotieteiden (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ja taloustiede (Olken 2015) .

Tutkimuksessa Costa and Kahn (2013) vain noin puolet kotitalouksista kokeessa pystyttiin sidoksissa väestötietoja. Lukijat kiinnostunut yksityiskohtia ja mahdollisia ongelmia tämän analyysin pitäisi viitata alkuperäiseen paperille.

  • Mekanismit (jakso 4.4.3)

Mekanismit ovat erittäin tärkeitä, mutta ne osoittautuvat hyvin vaikea tutkia. Tutkimus noin mekanismit liittyvät läheisesti tutkimuksen välittäjien psykologian (katso kuitenkin myös VanderWeele (2009) täsmällisen vertailla keskenään ajatuksia). Tilastollinen lähestymistapoja löytää mekanismeja, kuten lähestymistapa kehitetty Baron and Kenny (1986) , ovat melko yleisiä. Valitettavasti näyttää siltä, ​​että nämä menettelyt ovat riippuvaisia ​​vahvoja oletuksia (Bullock, Green, and Ha 2010) ja kärsiä, jos on olemassa useita mekanismeja, kuten voisi olettaa monissa tilanteissa (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ja Imai and Yamamoto (2013) tarjoavat joitakin parempia tilastollisia menetelmiä. Edelleen, VanderWeele (2015) tarjoaa arvo-pituus hoidon useita tärkeitä tuloksia, kuten kokonaisvaltainen lähestymistapa herkkyysanalyysi.

Erillinen lähestymistavassa keskitytään kokeita, jotka yrittävät manipuloida mekanismin suoraan (esim, jolloin merimiehet C-vitamiini). Valitettavasti monissa yhteiskuntatieteissä asetukset on usein useita mekanismeja ja on vaikea suunnitella hoitoja että muuttaa yhden muuttamatta muita. Jotkut lähestymistavat kokeellisesti muuttamalla mekanismeja kuvataan Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , ja Pirlott and MacKinnon (2016) .

Lopuksi mekanismit on myös pitkä historia tieteenfilosofiasta kuten on kuvannut Hedström and Ylikoski (2010) .

  • Olemassa olevien ympäristöjen (jakso 4.5.1.1)

Lisätietoja käytöstä kirjeenvaihdon tutkimusten ja tarkastus tutkimuksia syrjinnän mittaamiseksi nähdä Pager (2007) .

  • Rakenna oma kokeilu (jakso 4.5.1.2)

Yleisin tapa rekrytoida osallistujia kokeita, jotka voit rakentaa on Amazon Mechanical Turk (MTurk). Koska MTurk jäljittelee näkökohtia perinteisen laboratoriokokeissa maksavien ihmisiä tehtävien suorittamiseen että he eivät tee ilmaiseksi-monet tutkijat ovat jo alkaneet käyttää Turkers (työntekijöitä on MTurk) osallistujiksi ihmisillä kokeiden tuloksena nopeammin ja halvemmalla tiedonkeruun kuin perinteiset kampuksella laboratoriokokeisiin (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Suurin vahvuus kokeiluja osallistujien rekrytoidaan MTurk ovat logistiset: ne mahdollistavat tutkijat rekrytoida osallistujille nopeasti ja tarpeen mukaan. Kun taas laboratoriokokeissa voi kestää viikkoja juosta ja kenttäkokeiden voi kestää kuukausia perustamiseen, kokeiluja osallistujat rekrytoitiin MTurk voidaan ajaa päivinä. Esimerkiksi Berinsky, Huber, and Lenz (2012) pystyivät rekrytoimaan 400 aiheita yhdessä päivässä osallistua 8 minuutin kokeilu. Lisäksi nämä osallistujat voidaan rekrytoitiin lähes mihin tahansa tarkoitukseen (myös tutkimusten ja massa yhteistyö, jota käsitellään luvuissa 3 ja 5). Tämä helppous rekrytointi merkitsee sitä, että tutkijat voivat käyttää sekvenssit liittyvien kokeiden peräkkäin.

Ennen rekrytointi osallistujaa MTurk oman kokeissa on neljä tärkeitä asioita tietää. Ensinnäkin monet tutkijat ovat ei-spesifistä epäilyä kokeista, joissa Turkers. Koska kriittisyys ei ole erityisiä, on vaikea torjua todisteita. Kuitenkin, kun usean vuoden tutkimusten avulla Turkers, voimme nyt todeta, että kriittisyys ei ole erityisen tarpeellista. On ollut monia tutkimuksia vertaamalla väestötiedot Turkers muihin ihmisryhmiin ja monet tutkimukset verrataan Koetulokset Turkers tuloksia muista väestö. Koska kaikki tämä työ, uskon, että paras tapa, jolla voit miettiä sitä, että Turkers ovat kohtuullisen mukavuutta näyte, aivan kuten opiskelijoiden mutta hieman monipuolisempi (Berinsky, Huber, and Lenz 2012) . Koska siis opiskelijat ovat kohtuullisen väestö joillekin mutta eivät kaikki kokeellinen tutkimus, Turkers ovat kohtuullisen väestö joillekin mutta eivät kaikki tutkimukseen. Jos aiot työskennellä Turkers, niin on järkevää lukea monet näistä vertailevia tutkimuksia ja ymmärtää niiden vivahteita.

Toiseksi, tutkijat ovat kehittäneet parhaita käytäntöjä lisäämällä sisäistä voimassaolon Turk kokeissa, ja sinun pitäisi oppia ja noudata näitä parhaita käytäntöjä (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Esimerkiksi tutkijat käyttävät Turkers kannustetaan käyttämään seulat poistaa inattentive osallistujille (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (katso kuitenkin myös DJ Hauser and Schwarz (2015b) ja DJ Hauser and Schwarz (2015a) ). Jos et poista tarkkaamaton osallistujia, niin mitään vaikutusta hoidon voidaan pestä pois melua tuotu välinpitämätön osallistujaa, ja käytännössä määrä välinpitämätön osallistujat voivat olla huomattavia. Kokeessa Huberin ja työtovereiden (2012) noin 30% osallistujista epäonnistui perus huomiota seulat. Toinen ongelma yhteistä Turkers on ei-naiivi osallistujat (Chandler et al. 2015) .

Kolmanneksi suhteessa joihinkin muihin digitaalisen kokeita, MTurk kokeita ei voi skaalata; Stewart et al. (2015) arvioi, että kulloinkin on vain noin 7000 ihmistä MTurk.

Lopuksi, sinun pitäisi tietää, että MTurk on yhteisö, jolla on oma sääntöjä ja normeja (Mason and Suri 2012) . Samalla tavalla kuin yrittäisi selvittää kulttuurin maassa, jossa olit menossa ajaa kokeiluja, sinun pitäisi yrittää selvittää lisää kulttuurin ja normien Turkers (Salehi et al. 2015) . Ja sinun pitäisi tietää, että Turkers tulemme puhumaan kokeilun jos teet jotain sopimatonta tai epäeettistä (Gray et al. 2016) .

MTurk on uskomattoman kätevä tapa rekrytoida osallistujia kokeiluihin, ovatko ne lab kaltaisia, kuten Huber, Hill, and Lenz (2012) , tai useampi kenttä kaltaisia, kuten Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ja Mao et al. (2016) .

  • Rakenna oma tuote (jakso 4.5.1.3)

Jos olet ajatellut yrittää luoda oma tuote, suosittelen että luet neuvoja tarjoamia movielens ryhmä Harper and Konstan (2015) . Keskeinen oivallus niiden kokemus on, että jokaisen onnistuneen projektin on monia, monia epäonnistumisia. Esimerkiksi movielens ryhmä käynnisti muiden tuotteiden kuten GopherAnswers jotka olivat täydellisiä epäonnistumisia (Harper and Konstan 2015) . Toinen esimerkki tutkija ei ole yrittäessään rakentaa tuote on Edward Castronova pyrkimys rakentaa online peli nimeltä Arden. Huolimatta $ 250,000 rahoituksen, projekti oli floppi (Baker 2008) . Projektit kuten GopherAnswers ja Arden ovat valitettavasti paljon yleisempiä kuin projekteja kuten movielens. Lopuksi, kun sanoin, että en tiennyt muita tutkijoita, jotka oli onnistuneesti rakennettu tuotteita toistuvaan kokeiluihin tässä ovat minun kriteerit: 1) osallistujat käyttää tuotetta sen vuoksi, mitä se antaa heille (esimerkiksi ne eivät ole maksettu, ja ne eivät ole vapaaehtoiset auttavat tiede) ja 2) tuote on käytetty useampaa kuin yhtä erillistä koetta (eli ei sama koe useita kertoja eri osallistuja altaat). Jos tiedät muita esimerkkejä, kerro minulle.

  • Partner kanssa tehokas (4.5.2)

Olen kuullut ajatuksen Pasteurin Quadrant keskusteltu ahkerasti teknologian yrityksiä, ja se auttaa järjestämään tutkimustyötä Google (Spector, Norvig, and Petrov 2012) .

Bond ja kollegoiden tutkimus (2012) myös yrittää tunnistaa vaikutus näiden hoitojen ystäviä saaneista niitä. Koska suunnittelu kokeen, nämä leviämisestä on vaikea havaita siististi; kiinnostuneet lukijat pitäisi nähdä Bond et al. (2012) perusteellisempaa keskustelua. Tämä kokeilu on osa pitkää perinnettä kokeiluja valtiotieteen pyrkimyksiin kannustaa äänestykset (Green and Gerber 2015) . These get-out-the-ääni kokeet ovat yhteisiä osittain koska ne ovat Pasteurin Quadrant. Eli on olemassa paljon ihmisiä, jotka ovat motivoituneita lisätä äänestykseen ja äänestys voi olla mielenkiintoinen käyttäytyminen testata yleisempää teorioita käyttäytymisen muutos ja yhteiskunnallinen vaikuttaminen.

Muut tutkijat ovat antaneet neuvoja käynnissä kenttäkokeiden kumppaniorganisaatioiden kuten puolueiden, kansalaisjärjestöjen ja yritysten (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Toiset ovat tarjonneet neuvoja siitä, miten kumppanuuksia organisaatiot voivat vaikuttaa tutkimuksen malleja (Green, Calfano, and Aronow 2014; King et al. 2007) . Kumppanuus voi johtaa myös eettiset kysymykset (Humphreys 2015; Nickerson and Hyde 2016) .

  • -suunnitteluapuamme (Kohta 4.6)

Jos aiot luoda analyysisuunnitelma ennen käynnissä kokeilu, ehdotan, että aloitat lukemalla raportointiohjeistoa. CONSORT (Consolidated Standard ilmoittaminen Trials) ohjeet kehitettiin lääketieteessä (Schulz et al. 2010) ja muutettu sosiaalisen tutkimuksen (Mayo-Wilson et al. 2013) . Tähän liittyvä ohjeisto on kehitetty toimittajat Journal of Experimental Political Science (Gerber et al. 2014) (katso myös Mutz and Pemantle (2015) ja Gerber et al. (2015) ). Lopuksi, raportointia suuntaviivoja on kehitetty psykologiaa (Group 2008) , ja katso myös Simmons, Nelson, and Simonsohn (2011) .

Jos luot analyysisuunnitelma kannattaa harkita esirekisteröit koska esirekisteröinti lisää luottamusta siihen, että muut ovat omassa tuloksia. Edelleen, jos olet työskennellyt kumppanin, se rajoittaa kumppanin kykyä muuttaa analyysin nähtyään tulokset. Esirekisteröinti yleistyy psykologian (Nosek and Lakens 2014) , valtiotieteiden (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ja taloustiede (Olken 2015) .

Luotaessa ennalta analyysisuunnitelma sinun pitäisi tietää, että jotkut tutkijat käyttävät myös regressio ja niihin liittyviä lähestymistapoja parantaa tarkkuutta arvioidun hoidon vaikutus, ja on jonkin verran keskustelua tästä lähestymistavasta: Freedman (2008) , Lin (2013) , ja Berk et al. (2013) ; katso Bloniarz et al. (2016) lisätietoja.

-suunnitteluapuamme Nimenomaan verkossa kenttäkokeisiin on myös esitetty Konstan and Chen (2007) ja Chen and Konstan (2015) .

  • Luo nolla muuttuva hintatiedot (4.6.1)

Lisää tietoja MusicLab kokeissa, katso Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , ja Salganik (2007) . Lisää tietoja voittaja saa kaikilla markkinoilla, katso Frank and Cook (1996) . Lisää tietoja selvittäminen onnea ja taitoa yleisemmin katso Mauboussin (2012) , Watts (2012) , ja Frank (2016) .

On toinenkin tapa poistaa osallistujan maksut tutkijoiden tulisi käyttää varoen: asevelvollisuus. Monissa verkossa kenttäkokeet osallistujat ovat periaatteessa laadittu osaksi kokeita ja koskaan kompensoida. Esimerkkejä tästä lähestymistavasta ovat Restivo ja van de Rijt n (2012) kokeen palkintoja Wikipediasta ja Bond ja kollegansa (2012) koe kannustamaan ihmisiä äänestämään. Nämä kokeet eivät todellakaan ole nolla muuttuvia kustannuksia, heillä on nolla muuttuvia kustannuksia tutkijoille. Vaikka kustannukset monet näistä kokeista on erittäin pieni kullekin osallistujalle, pieni johtuvien valtava määrä osallistujia voi lisätä nopeasti. Tutkijat käynnissä massiivinen online-kokeita usein perustella huomioon pienten arvioitu hoidon vaikutuksia sanomalla, että nämä pienet vaikutukset voivat tulla tärkeä, kun sitä sovelletaan monia ihmisiä. Täsmälleen sama ajattelu pätee kustannuksia, tutkijat asettavat osallistujia. Jos kokeissa aiheuttaa miljoona ihmistä tuhlata yhden minuutin, kokeilu ei ole kovin haitallista mitään erityistä henkilöä, mutta yhteenlaskettuna se on hukkaan lähes kahden vuoden ajan.

Toinen tapa luoda nolla muuttuvia kustannuksia maksu osallistujille on käyttää arpajaiset, lähestymistapa, joka on myös käytetty kyselytutkimuksen (Halpern et al. 2011) . Lopuksi lisää noin suunnittelussa nautittavaa käyttäjäystävällinen kokemuksia katso Toomim et al. (2011) .

  • Korvaa, Tarkenna, ja vähentää (4.6.2)

Tässä ovat alkuperäisiä nuo kolme R, mistä Russell and Burch (1959) :

"Vaihto tarkoittaa substituutio tajuissaan elävät suurempia eläimiä insentient materiaalia. Vähentäminen tarkoittaa väheneminen eläinten lukumäärä käyttää tietojen saamiseksi tietyn määrän ja tarkkuutta. Tarkentaminen tarkoitetaan vähenemisen tai esiintyvyyden epäinhimillistä menettelyjä sovelletaan niihin eläimiin, jotka vielä käyttää. "

Kolme R: n että ehdotan eivät ohita eettiset periaatteet luvussa 6. Pikemminkin ne ovat pidemmälle viety versio yksi niistä periaatteista-hyvään-nimenomaan asetus ihmisen kokeiluja.

Harkittaessa Emotional Contagion on kolme ei-eettisiin kysymyksiin pitää mielessä tulkittaessa tässä kokeessa. Ensinnäkään ei ole selvää, miten todelliset yksityiskohdat kokeen yhteyden teoreettinen saatavia; toisin sanoen, on olemassa kysymyksiä konstruktio pätevyyttä. Ei ole selvää, että positiivinen ja negatiivinen sana laskee todella hyvä indikaattori emotionaalinen tila osallistujien koska 1) ei ole selvää, että sanat, jotka ihmiset post ovat hyvä indikaattori tunteita ja 2) ei ole selvää, että erityisesti ilmapiiri analyysimenetelmä että tutkijat käyttivät pystyy luotettavasti päätellä tunteita (Beasley and Mason 2015; Panger 2016) . Toisin sanoen, saattaa olla huono mitta vääristynyt signaali. Toiseksi, suunnittelu ja analyysi kokeen kerro mitään, joka oli eniten vaikutti (eli ei ole analysoitu heterogeenisuus hoidon vaikutukset) ja mikä mekanismi voisi olla. Tällöin tutkijat oli paljon tietoa osallistujista, mutta ne olivat pääosin käsitelty vekottimet analyysissä. Kolmanneksi vaikutus koko tässä kokeessa oli hyvin pieni; erotus hoitoa ja valvontaa olosuhteissa on noin 1 in 1000 sanaa. Niiden paperi, Kramer ja työtovereiden tehdä tapauksessa, että vaikutus tämän koko on tärkeää, koska sadat miljoonat ihmiset saavat heidän News Feed joka päivä. Toisin sanoen ne väittävät, että vaikka vaikutukset, jotka ovat pieniä jokaiselle henkilölle ne ovat suuria yhteenlaskettuina. Vaikka olit hyväksyä tätä väitettä, se ei ole vielä selvää, jos vaikutus tämän koko on tärkeä koskien yleisempää tieteellinen kysymys emotionaalinen tartunnan. Saat tilanteisiin, joissa pienet vaikutukset ovat tärkeitä nähdä Prentice and Miller (1992) .

Mitä ensimmäisessä R (Replacement), verrataan Emotional Contagion kokeessa (Kramer, Guillory, and Hancock 2014) ja emotionaalisen contagion luonnollinen kokeessa (Coviello et al. 2014) tarjoaa joitakin yleisiä oppitunteja kompromissit mukana liikkuvat kokeita luonnollinen kokeiluja (ja muut lähestymistavat, kuten matching että pyrkimys lähentää kokeiluja kuin kokeelliset tiedot, katso luku 2). Sen lisäksi, että eettiset hyödyt, siirtyminen kokeellinen ulkopuolisiin kokeellisissa tutkimuksissa mahdollistaa myös tutkijoille mahdollisuus tutkia hoitoja, jotka ovat logistisesti pysty käyttöön. Nämä eettiset ja logistiset edut tulla kalliiksi kuitenkin. Jossa luonnollinen kokeiluja tutkijat ovat vähemmän valvoa asioita, kuten rekrytointi osallistujat, satunnaistaminen, ja hoidon luonne. Esimerkiksi yksi rajoitus sademäärä kuin kohtelu on, että se sekä lisää positiivisuutta ja vähentää negatiivisuus. Kokeellisessa tutkimuksessa kuitenkin Kramer ja kollegat voisivat muunnella positiivisuuden ja negatiivisuuden itsenäisesti.

Erityisesti käyttämä lähestymistapa Coviello et al. (2014) kehiteltiin edelleen Coviello, Fowler, and Franceschetti (2014) . Esittely on instrumentaalinen muuttujat nähdä Angrist and Pischke (2009) (vähemmän muodollisia) tai Angrist, Imbens, and Rubin (1996) (enemmän muodollista). Saat skeptinen arviointi instrumentaalista muuttujien katso Deaton (2010) , ja johdatus instrumentaali muuttujien heikko välineiden (sade on heikko väline), katso Murray (2006) .

Yleisemmin hyvä johdatus luonnon kokeita on Dunning (2012) , ja Rosenbaum (2002) , Rosenbaum (2009) , ja Shadish, Cook, and Campbell (2001) tarjoavat hyviä ideoita arvioimalla syy vaikutuksia ilman kokeita.

Mitä tulee toisen R (Refinement), on olemassa tieteellisiä ja logistisia kompromissit harkittaessa muuttamalla suunnittelu Emotional Tartunta lukkiutuminen viestit lisäämiseksi virkaa. Esimerkiksi, se voi olla, että teknistä toteutusta News Feed tekee olennaisesti helpompi tehdä kokeilun estämällä viestit sijaan kokeilun lisäämiseen virkaa (huomaa, että kokeilun esto viestit voitaisiin toteuttaa kerroksena yläosassa News Feed järjestelmä ilman tarvetta muutoksiin taustalla olevan järjestelmän). Tieteellisesti kuitenkin teoriaa käsitellään kokeilulla ei osoittavat selvästi yhden mallin yli muiden.

Valitettavasti en ole tietoinen merkittävää ennen tutkimusta siitä suhteelliset edut estää ja parantaa sisällön News Feed. Lisäksi en ole nähnyt paljon tutkimusta siitä puhdistuskäsittelyjen tehdä niistä vähemmän haitallisia; Ainoa poikkeus on Jones and Feamster (2015) , joka katsoo tehtäessä mittaamalla Internetin sensuuri (aihe Pohdin luvussa 6 suhde Encore tutkimuksen (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Mitä tulee kolmannen R (Reduction), hyvä johdatus perinteiseen vallan analyysi on Cohen (1988) . Esikäsittely covariates voidaan sisällyttää suunnitteluvaiheessa ja analyysin vaiheessa kokeet; Luku 4 Gerber and Green (2012) tarjoaa hyvän johdannon sekä lähestymistapoja, ja Casella (2008) tarjoaa syvällisempää käsittelyä. Tekniikat, jotka käyttävät tätä esikäsittely tiedot satunnaistamista kutsutaan tyypillisesti joko tukossa kokeellisia malleja tai kerrostuneen koeasetelmia (terminologia ei käytetä johdonmukaisesti yhteisöt); nämä tekniikat ovat syvästi liittyvät Osituksen tekniikoita käsitellään luvussa 3. Katso Higgins, Sävje, and Sekhon (2016) lisää käyttämisestä nämä mallit massiiviset kokeet. Esikäsittely covariates voidaan myös sisällyttää analyysiin vaiheessa. McKenzie (2012) tutkii ero-in-eroja lähestymistapa analysointiin kenttäkokeissa yksityiskohtaisemmin. Katso Carneiro, Lee, and Wilhelm (2016) varten enemmän kompromisseja eri lähestymistapoja lisätä tarkkuutta arvioiden hoidon vaikutuksia. Lopulta päättäessään yrittää sisällyttää esikäsittelyyn covariates suunnittelu- tai analyysin vaiheessa (tai molemmat), on olemassa muutamia tekijöitä, harkitsemaan. Olosuhteissa, joissa tutkijat haluavat osoittaa, että ne eivät ole "kalastus" (Humphreys, Sierra, and Windt 2013) , käyttäen esikäsittely covariates suunnitteluvaiheessa voi olla hyötyä (Higgins, Sävje, and Sekhon 2016) . Tilanteissa, joissa osallistujat saapuvat peräkkäin, erityisesti verkossa kenttäkokeet, käyttäen esikäsittelyä tiedot suunnitteluvaiheessa voi olla vaikea logistisesti, katso esimerkiksi Xie and Aurisset (2016) .

On syytä lisätä hieman intuition miksi ero-in-erot voivat olla niin paljon tehokkaampi kuin ero-in-keinoin. Monet online tulokset ovat erittäin korkea varianssi (katso esim Lewis and Rao (2015) ja Lamb et al. (2015) ) ja ovat ajallisesti suhteellisen vakaita. Tässä tapauksessa muutos pisteet on oleellisesti pienempi varianssi, tehon lisääminen tilastollisen testin. Yksi syy tähän lähestyi ei käytetä useammin on, että ennen digitaaliajan se ei ollut tavallista, että on ennalta hoitotuloksia. Konkreettisempi tapa ajatella sitä on kuvitella kokeilu mitata onko tietty käyttää rutiininomaisesti aiheuttaa laihtumista. Jos et ero-in-välineet lähestymistapa, arviosi on vaihtelua, joka on peräisin vaihtelusta painot väestöstä. Jos et ero-in-ero lähestymistapa kuitenkin, että luonnossa esiintyvä vaihtelu painoja saa poistetaan ja voit helpommin havaita eron aiheuttama hoito.

Yksi tärkeä keino vähentää osallistujien kokeilun on tehdä vallan analyysi, joka Kramer ja kollegat voinut tehdä perustuen vaikutuksesta koot havaita luonnon kokeilun Coviello et al. (2014) tai aiemmin ei-kokeellisen tutkimuksen Kramer (2012) (itse asiassa nämä ovat toimia lopussa tässä kappaleessa). Huomaa, että tämä käyttö vallan analyysi on vähän erilainen kuin tyypillinen. Vuonna analoginen iässä, tutkijat yleensä teki valta analyysi varmistaa, että niiden tutkimus ei ollut liian pieni (eli alle-powered). Nyt kuitenkin, tutkijat pitäisi tehdä vallan analyysi varmistaa, että niiden tutkimus ei ole liian suuri (yli-powered).

Lopuksi pidetään lisäämällä neljännen R: repurpose. Eli jos tutkijat löytävät itsensä enemmän kokeellista tietoa kuin he tarvitsevat puuttua alkuperäiseen tutkimukseen kysymykseen, ne pitäisi repurpose data esittää uusia kysymyksiä. Oletetaan esimerkiksi, että Kramer ja kollegat olivat käyttäneet ero-in-eroja estimaattori ja löysi itsensä enemmän tietoja kuin tarvitaan yhteisiä tutkimus- kysymykseen. Sen sijaan ei käytä tietoja niin hyvin kuin he olisivat voineet tutkia koko vaikutuksen funktiona esikäsitellään tunteiden ilmaisua. Aivan kuten Schultz et al. (2007) havaitsi, että hoidon vaikutuksesta oli erilainen kevyen ja raskaan käyttäjiä, ehkä vaikutukset News Feed olivat erilaisia ​​ihmisiä, jotka jo yleensä lähettää happy (tai surullinen) viestejä. Repurposing voisi johtaa "kalastus" (Humphreys, Sierra, and Windt 2013) ja "p-hakkerointi" (Simmons, Nelson, and Simonsohn 2011) , mutta nämä ovat pitkälti osoitettavissa yhdistelmä rehellinen raportointi (Simmons, Nelson, and Simonsohn 2011) , esirekisteröinti (Humphreys, Sierra, and Windt 2013) , ja koneoppimisen menetelmiä, jotka yrittävät välttää yli istuva.