Daugiau komentarų

Šiame skyriuje yra skirtas būti naudojamas kaip nuoroda, o ne būti suprantama kaip aprašomoji.

  • Įvadas (4.1 skyrius)

Turite klausimų apie priežastingumo socialinių tyrimų dažnai yra sudėtingos ir painus. Dėl esminio požiūrio į priežastingumo remiantis priežastinius grafikus žr Pearl (2009) , o pamatinis metodas pagrįstas galimų rezultatų, matyti Imbens and Rubin (2015) (ir techninį priedą šiame skyriuje). Dėl palyginti tarp šių dviejų požiūrių žr Morgan and Winship (2014) . Dėl formalaus požiūrio į apibrėžiant confounder žr VanderWeele and Shpitser (2013) .

Skyriuje, aš sukūriau tai, kas atrodė ryškios linijos tarp mūsų gebėjimą priimti priežastinius sąmatas iš eksperimentinių ir ne eksperimento duomenis. Iš tikrųjų, aš manau, kad skirtumas yra blurrier. Pavyzdžiui, visi sutinka, kad rūkymas sukelia vėžį, nors mes niekada padaryti atsitiktinių imčių kontroliuojamą eksperimentą, verčiantį žmones rūkyti. Dėl puikių knyga ilgio gydymo dėl priėmimo priežastinius sąmatas iš ne eksperimentinių duomenų matyti Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , ir Dunning (2012) .

1 ir 2 skyriai Freedman, Pisani, and Purves (2007) pasiūlyti aiškią įvadas į tarp eksperimentų, kontroliuojamų eksperimentų skirtumų, ir atsitiktinių imčių kontroliuojamų eksperimentų.

Manzi (2012) pateikia patrauklių ir skaitymo įvadas į filosofijos ir statistikos pagrindus randomizuotų kontroliuojamų eksperimentų. Ji taip pat suteikia įdomių realaus pasaulio pavyzdžius eksperimentų versle galia.

  • Kokie eksperimentai? (4.2 skyrius)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) suteikia geras pristatymas į statistikos aspektus eksperimentinio projektavimo ir analizės. Be to, yra puikūs apdorojimai eksperimentų naudoti daugelyje skirtingų sričių: ekonomika (Bardsley et al. 2009) , Sociologija (Willer and Walker 2007; Jackson and Cox 2013) , psichologija (Aronson et al. 1989) , Politologija (Morton and Williams 2010) ir socialinė politika (Glennerster and Takavarasha 2013) .

Dalyvio įdarbinimo (pavyzdžiui, mėginių ėmimo) svarba dažnai yra nepakankamai vertinama eksperimentinių tyrimų. Tačiau, jei gydymo poveikis yra heterogeninė gyventojų, tada atranka yra labai svarbus. Longford (1999) daro šį tašką aiškiai, kai jis palaiko mokslininkų galvoja eksperimentus kaip gyventojų apklausa su Nesėkmę atranka.

  • Du matmenys eksperimentus: Lab lauko ir analoginis-skaitmeninis (4.3 skyrius)

Dichotomija, kad aš pateikti tarp laboratorijos ir lauko eksperimentų yra šiek tiek supaprastinta. Iš tiesų, kiti tyrėjai pasiūlė išsamesnes tipologijos, ypač tuos, kurie atskirti įvairių formų lauko eksperimentų (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Be to, yra dvi kitos rūšys socialinių mokslininkų atliktų eksperimentų, kurie netelpa tvarkingai į laboratoriją ir lauko dichotomija. Tyrimo eksperimentus ir socialinių eksperimentų tyrimo eksperimentai eksperimentai su esamų tyrimų infrastruktūrą ir palyginkite atsakymus į alternatyvių versijų patys klausimai (kai apklausa eksperimentai pateikiami 3 skyrius); daugiau apie tyrimo eksperimentus pamatyti Mutz (2011) . Socialinių eksperimentai eksperimentų, kai gydymas yra kai socialinė politika, kuri gali būti įgyvendinama tik vyriausybė. Socialiniai eksperimentai yra glaudžiai susiję su programos vertinimas. Daugiau apie politikos eksperimentų žr Orr (1998) , Glennerster and Takavarasha (2013) , ir Heckman and Smith (1995) .

Iš biuletenių skaičius yra palyginti laboratorinių ir lauko bandymų abstrakčiai (Falk and Heckman 2009; Cialdini 2009) ir išdavų konkrečių eksperimentų politologijos (Coppock and Green 2015) , ekonomikos (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) ir psichologija (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) siūlo gražią tyrimų dizainas, lyginant rezultatus laboratorijos ir lauko eksperimentų.

Susirūpinimas dalyvių elgsenai keisti, nes jie žino, kad jie yra atidžiai stebimi kartais vadinama paklausos poveikis, ir jie buvo tiriamas psichologijos (Orne 1962) ir ekonomika (Zizzo 2009) . Nors daugiausia susijęs su laboratoriniais eksperimentais, tie patys klausimai gali sukelti problemų lauko eksperimentų taip pat. Tiesą sakant, iki pareikalavimo poveikis taip pat kartais vadinamas Hawthorne poveikį, terminą, kurios gaunamos iš lauko eksperimento, ypač garsiąją apšvietimo eksperimentai, kuri prasidėjo 1924 metais tuo Hawthorne Works Vakarų Electric Company " (Adair 1984; Levitt and List 2011) . Abu paklausos efektai ir Hawthorn poveikis yra glaudžiai susijęs su reaktyviosios matavimo aptarta 2 skyriuje idėja (taip pat žr Webb et al. (1966) ).

Iš lauko eksperimentų istorija buvo aprašyta ekonomika (Levitt and List 2009) , Politologija (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psichologija (Shadish 2002) , ir viešoji politika (Shadish and Cook 2009) . Viena iš sričių, socialinių mokslų, kur lauko bandymai greitai tapo garsių yra tarptautinės plėtros. Teigiamą peržiūrą šio darbo per ekonomikos pamatyti Banerjee and Duflo (2009) , ir kritiškai įvertinti pamatyti Deaton (2010) . Dėl šio darbo politologijos Apžvalgoje Humphreys and Weinstein (2009) . Galiausiai, etikos iššūkius, susijusius su lauko eksperimentų buvo ištirta politologijos (Humphreys 2015; Desposato 2016b) ir ekonomikos plėtros (Baele 2013) .

Skyriuje, aš pasiūliau, kad prieš gydymą informacija gali būti naudojama siekiant pagerinti numatomą gydymo poveikį tikslumą, tačiau yra tam tikrų diskusijos apie šio metodo: Freedman (2008) , Lin (2013) , ir Berk et al. (2013) ; matyti Bloniarz et al. (2016) dėl išsamesnės informacijos.

  • Peržengiant paprastų eksperimentų (4.4 skyrius)

Aš pasirinko sutelkti dėmesį į tris sąvokas: galiojimas, heterogeniškumo gydymo poveikių ir mechanizmus. Šios sąvokos turi skirtingus pavadinimus įvairiose srityse. Pavyzdžiui, psichologai linkę peržengti paprastų eksperimentų, sutelkiant dėmesį į tarpininkų ir moderatorių (Baron and Kenny 1986) . Iš tarpininkų idėja perimta tai, ką aš vadinu mechanizmus, o moderatoriai idėja perimta tai, ką aš vadinu išorės galiojimas (pvz, būtų eksperimento rezultatai būtų kitoks, jei jis buvo paleisti įvairiose situacijose) ir heterogeniškumas gydymo poveikių ( pvz, yra poveikis didesnis už kai kurių žmonių, nei kitų žmonių).

Eksperimento Schultz et al. (2007) rodo, kaip socialinės teorijos gali būti naudojamas kuriant veiksmingas intervencijų. Bendresnę argumentas apie teorijos vaidmenį kuriant efektyvias intervencijas, pamatyti Walton (2014) .

  • Galiojimas (4.4.1 skyrius)

Iš vidaus ir išorės galiojimo sąvokos pirmą kartą buvo įvesta Campbell (1957) . Žiūrėti Shadish, Cook, and Campbell (2001) išsamesnio istorijos ir kruopščiai parengti statistinės sudarymo galiojimo, vidaus galiojimo statyti galiojimo ir išorinį pagrįstumą.

Dėl klausimų, susijusių su statistikos sudarymo galiojimo eksperimentuose apžvalga pamatyti Gerber and Green (2012) (už socialinių mokslų perspektyvą) ir Imbens and Rubin (2015) (už statistinės perspektyvą). Kai kurie statistikos sudarymo galiojimo klausimai, kurie kyla būtent internetinių lauko eksperimentų apima tokius klausimus kaip skaičiavimais efektyvių metodų kūrimo pasikliovimo intervalus su priklausomais duomenų (Bakshy and Eckles 2013) .

Vidaus galiojimas gali būti sunku užtikrinti sudėtingų eksperimentų. Žiūrėti, pavyzdžiui, Gerber and Green (2000) , Imai (2005) , ir Gerber and Green (2005) diskusijoms apie sudėtingą lauko eksperimento apie balsavimo įgyvendinimą. Kohavi et al. (2012) ir Kohavi et al. (2013) pateikia įvežimo į intervalo galiojimo iššūkius interneto lauko eksperimentams.

Vienas iš pagrindinių susirūpinimą vidaus galiojimo yra problemų su tikimybių. Vienas iš būdų potencialiai aptikti problemų su tikimybių yra palyginti gydymo ir kontrolės grupes stebimais bruožų. Šis palyginti natūra yra vadinamas balansas patikrinimas. Žiūrėti Hansen and Bowers (2008) dėl statistinio metodo subalansuoti patikrinimus, ir pamatyti Mutz and Pemantle (2015) dėl susirūpinimo balanso patikrinimus. Pavyzdžiui, naudojant pusiausvyros patikrinti Allcott (2011) nustatė, kad yra tam tikrų įrodymų, kad tikimybių nebuvo įgyvendinta teisingai trijose iš eksperimentų kai OPower eksperimentų (žr 2 lentelę; svetainėse 2, 6 ir 8). Dėl kitų metodų, matyti Imbens and Rubin (2015) 21 skirsnis.

Kitos pagrindinės problemos, susijusios su vidiniu galiojimo yra: 1) vienpusė nesilaikymas, kur ne kiekvienas gydymo grupėje faktiškai gautą gydymą, 2) Dvipusis nesilaikymas, kur ne kiekvienas gydymo grupėje gauna gydymą ir kai žmonių kontrolinės grupės gydytis, 3) dilimui, kur rezultatai nėra vertinami kai kuriems dalyviams, ir 4) trikdžių, kurių apdorojimo išsiliejimo per iš žmonių gydymo sąlyga žmonių valdymo būklę. Žiūrėti Gerber and Green (2012) 5 6 7 ir 8 daugiau apie kiekvieną iš šių klausimų skyriai,,,.

Daugiau apie konstrukto galiojimo žr Westen and Rosenthal (2003) , o daugiau konstrukto galiojimo dideliuose duomenų šaltinių, Lazer (2015) ir šios knygos 2 skyriuje.

Vienas iš išorės galiojimo aspektas yra nustatymas, kai intervencija yra išbandytas. Allcott (2015) suteikia kruopščiai teorinį ir empirinį gydymą svetainė atrankos šališkumo. Šis klausimas taip pat aptarta Deaton (2010) . Be to, kad pakartotas daugelyje vietų, Home Energetika ataskaita intervencija taip pat buvo savarankiškai studijavo keli mokslinių tyrimų grupių (pvz, Ayres, Raseman, and Shih (2013) ).

  • Heterogeniškumas gydymo poveikių (4.4.2 skyrius)

Dėl puikios apžvalga heterogeniškumo gydymo poveikio lauko eksperimentų, žr 12 skyrių Gerber and Green (2012) . Dėl introdukcijos į heterogeniškumo gydymo poveikių medicinos tyrimų žr Kent and Hayward (2007) , Longford (1999) , ir Kravitz, Duan, and Braslow (2004) . Heterogeniškumas gydymo poveikių paprastai sutelkti dėmesį į skirtumus, remiantis iš anksto valymo savybėmis. Jei jus domina heterogeniškumo remiantis po gydymo rezultatams, tada daugiau sudėtingų approachs reikia, kaip antai pagrindinė stratifikacijos (Frangakis and Rubin 2002) ; matyti Page et al. (2015) atlikti peržiūrą.

Daugelis mokslininkų įvertinti gydymo poveikį, naudojant tiesinę regresiją heterogeniškumas, bet naujesni metodai remiasi mašina mokymo, pavyzdžiui, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , ir Athey and Imbens (2016a) .

Yra kai skepticizmas išvadų heterogeniškumo poveikį, nes keliose palyginimo problemų ir "žvejyba." Yra statistinių metodų, kurie gali padėti spręsti problemas, apie daugialypę palyginti įvairių (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Vienas požiūris į susirūpinimą "Žvejyba" yra išankstinė registracija, kuri tampa vis labiau paplitęs psichologija (Nosek and Lakens 2014) , Politologija (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ir ekonomika (Olken 2015) .

Atsižvelgiant į tyrimo Costa and Kahn (2013) tik apie pusę iš eksperimento namų galėjo būti susijęs su demografinę informaciją. Skaitytojai domisi detalių ir galimų problemų su šios analizės turėtų kreiptis į pradinį popieriaus.

  • Mechanizmai (4.4.3 skyrius)

Mechanizmai yra neįtikėtinai svarbus, tačiau jie savo ruožtu esąs labai sunku mokytis. Tyrimai apie mechanizmus glaudžiai susijusi su tarpininkų tyrimo psichologija (bet taip pat žr VanderWeele (2009) už tiksliai palyginti dviejų idėjų). Statistinių metodų ieškant mechanizmų, pavyzdžiui, požiūris sukurta Baron and Kenny (1986) , yra gana dažnos. Deja, paaiškėja, kad tos procedūros priklauso nuo kai kurių stiprių prielaidomis (Bullock, Green, and Ha 2010) ir kenčia, kai yra daug mechanizmų, kaip būtų galima tikėtis daugelyje situacijų (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ir Imai and Yamamoto (2013) siūlome keletą patobulintus statistinius metodus. Be to, VanderWeele (2015) siūlo knyga ilgio gydyti daugelio svarbių rezultatų, įskaitant visapusišką požiūrį į jautrumo analizę numerį.

Atskiras sutelkia dėmesį į eksperimentus, kurie bando manipuliuoti mechanizmas tiesiogiai (pavyzdžiui, suteikiant buriuotojai vitaminas C). Deja, daugelyje socialinių mokslų nustatymus dažnai yra daug mechanizmų ir sunku sukurti gydymo, kad pakeisti vieną nekeičiant kitiems. Kai požiūriai į eksperimentiškai keičiant mechanizmai aprašyti Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , ir Pirlott and MacKinnon (2016) .

Galiausiai, mechanizmai taip pat turi ilgą istoriją mokslo filosofija, kaip aprašyta Hedström and Ylikoski (2010) .

  • Naudojant aplinką (4.5.1.1 skyrius)

Daugiau apie susirašinėjimo tyrimų ir audito tyrimų naudojimas siekiant įvertinti diskriminacijos pamatyti Pager (2007) .

  • Sukurkite savo eksperimentą (4.5.1.2 skyrius)

Labiausiai paplitęs būdas įdarbinti dalyvius eksperimentus, kad jums sukurti Amazon Mechaninė turkas (MTurk). Kadangi MTurk imituoja aspektai tradicinės laboratorijos eksperimentais apmokamas žmones atlikti užduotis, kad jie negali padaryti nemokamai-Daugelis tyrinėtojų jau pradėjo naudoti Turkers (kad ant MTurk darbuotojų), kaip dalyvių žmogaus organizmui eksperimentų todėl greičiau ir pigiau duomenų rinkimo nei tradicinis on-campus laboratoriniai eksperimentai (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

Didžiausias stiprumas eksperimentų su dalyvių įdarbinti iš MTurk yra logistinė: jie leidžia mokslininkams įdarbinti dalyvius greitai ir kiek reikia. Kadangi lab eksperimentai gali užtrukti savaites paleisti ir lauko bandymai gali užtrukti mėnesius steigti, eksperimentai su dalyvių įdarbinti iš MTurk gali būti paleisti dienomis. Pavyzdžiui, Berinsky, Huber, and Lenz (2012) galėjome įdarbinti 400 dalykų per vieną dieną dalyvauti 8-ąją eksperimentą. Be to, šie dalyviai gali būti įdarbinti praktiškai bet kokiems tikslams (įskaitant tyrimų ir masinio bendradarbiavimo, kaip aptarta 3 ir 5 skyriuose). Tai įdarbinimo paprastumas reiškia, kad mokslininkai gali veikti sekas susijusių eksperimentų su nedidelėmis pertraukomis.

Prieš įdarbindami dalyvių iš MTurk už savo eksperimentus, yra keturi svarbiausi dalykai, kuriuos reikia žinoti. Pirma, daugelis mokslininkai turi nespecifinis skepticizmas eksperimentų su Turkers. Kadangi šis skepticizmas nėra specifinė, sunku kovoti su įrodymais. Tačiau po kelių metų studijų naudojant Turkers, dabar mes galime daryti išvadą, kad šis skepticizmas nėra ypač būtina. Būta daug tyrimų lyginant Turkers demografija kitiems gyventojams ir daug tyrimų, lyginant rezultatus eksperimentų su Turkers prie rezultatų iš kitų gyventojų. Atsižvelgiant į visą šį darbą, manau, kad geriausias būdas jums galvoti apie tai, kad Turkers yra protingas patogumui pavyzdys, panašiai kaip studentams, bet šiek tiek daugiau įvairovės (Berinsky, Huber, and Lenz 2012) . Taigi, kaip ir studentai yra protingas populiacija kai kuriuos, bet ne visi eksperimentiniai tyrimai, Turkers yra pagrįstas gyventojų kai bet ne visi tyrimai. Jei ketinate dirbti su Turkers, tada prasminga skaityti daugelis šių lyginamųjų tyrimų ir suprasti savo niuansų.

Antra, mokslininkai sukūrė geriausią praktiką didinti vidaus galiojimą Turk eksperimentus, ir jūs turėtumėte išmokti ir atlikite šiuos geriausia praktika (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Pavyzdžiui, tyrėjai, naudojantys Turkers yra skatinami naudotis sietai pašalinti neatidus dalyvius (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (taip pat žr DJ Hauser and Schwarz (2015b) ir DJ Hauser and Schwarz (2015a) ). Jei neturite pašalinti neatidus dalyvius, tada bet koks gydymo poveikis gali būti išplauta triukšmo, įvežamų iš neatidus dalyvių ir praktiškai iš neatidus Dalyvių skaičius gali būti labai didelis. Atsižvelgiant į Huber ir kolegomis eksperimento (2012) apie 30% dalyvių nepavyko pagrindines dėmesį sietai. Kitas bendras su Turkers problema yra ne naivus dalyviai (Chandler et al. 2015) .

Trečia, lyginant su kai kurių kitų formų skaitmeninių eksperimentų, MTurk eksperimentai negali mastu; Stewart et al. (2015) nustatė, kad bet kuriuo metu yra tik apie 7000 žmonių MTurk.

Galiausiai, jūs turėtumėte žinoti, kad MTurk yra bendruomenė, su savo taisyklėmis ir normomis (Mason and Suri 2012) . Tokiu pačiu būdu, kad jums būtų pabandyti išsiaiškinti, apie šalį, kur jūs ketinate paleisti savo eksperimentus kultūros, jūs turėtumėte pabandyti sužinoti daugiau apie kultūros ir normų Turkers (Salehi et al. 2015) . Ir, turėtumėte žinoti, kad Turkers bus kalbėti apie savo eksperimentą, jei jūs ką nors netinkamo ar neetišką (Gray et al. 2016) .

MTurk yra neįtikėtinai patogus būdas įdarbinti dalyvius į savo eksperimentus, ar jie yra fotolaboratorijos kaip, pavyzdžiui, Huber, Hill, and Lenz (2012) , arba daugiau lauko, kaip, pavyzdžiui, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ir Mao et al. (2016) .

  • Sukurkite savo produktą (4.5.1.3 skyrius)

Jei galvojate bando sukurti savo produktą, aš rekomenduoju, kad jūs perskaitėte patarimus siūlomų pagal MovieLens grupės Harper and Konstan (2015) . Pagrindinis įžvalga iš savo patirties yra tai, kad už kiekvieną sėkmingą projektą yra daug, daug nesėkmių. Pavyzdžiui, MovieLens grupė pradėjo kitų produktų, tokių kaip GopherAnswers, kad buvo pilnas nesėkmių (Harper and Konstan 2015) . Kitas mokslininkas žlungančios bandant sukurti produktą pavyzdys yra Edward Castronova bandymas sukurti žaidimą internete vadinamas Arden. Nepaisant 250.000 $ finansavimą, projektas buvo šnipštas (Baker 2008) . Tokie projektai kaip GopherAnswers ir Arden, deja, daug daugiau bendro, nei projektų, pavyzdžiui, MovieLens. Galiausiai, kai man pasakė, kad aš nežinau, bet kitų tyrėjų, kad buvo sėkmingai pastatyta produktus daugkartiniam eksperimentavimo čia yra mano kriterijai: 1) dalyviai naudoti produktą dėl to, ką ji suteikia joms (pvz, jie nėra mokama, ir jie nėra savanoriai padeda mokslas) ir 2) produktas buvo naudojamas daugiau nei vieną atskirą eksperimentą (ty, ne tame pačiame eksperimente naudojamų kelis kartus su skirtingais dalyvių baseinai). Jei žinote kitų pavyzdžių, prašome let me know.

  • Bendradarbiaukite su galinga (4.5.2 skyrius)

Girdėjau, kad Pasteur anketa Quadrant aptarė dažnai ne technologijų įmonių idėją, ir tai padeda organizuoti mokslinių tyrimų pastangas Google (Spector, Norvig, and Petrov 2012) .

Obligacijų ir kolegų tyrimas (2012) taip pat bandoma aptikti šių gydymo poveikį tiems, kurie juos gavo draugais. Dėl eksperimento dizainas, šie šalutiniai poveikiai yra sunku aptikti švariai; suinteresuoti skaitytojai turėtų pamatyti Bond et al. (2012) ir išsamiau aptarti. Šis eksperimentas yra dalis tradicija eksperimentų politologijos apie pastangas skatinti balsuoti (Green and Gerber 2015) . Šie vakaronė "out-the-balsas eksperimentai yra paplitusi dalies, nes jie Pasteur anketa Quadrant. Tai reiškia, kad yra daug žmonių, kurie yra motyvuoti padidinti balsavimą ir balsavimo sistema gali būti įdomi elgesys išbandyti bendresnius teorijas apie elgesio pokyčius ir socialinės įtakos.

Kiti mokslininkai teikė konsultacijas apie darbą lauko eksperimentus su organizacijomis partnerėmis, pavyzdžiui, politinių partijų, nevyriausybinių organizacijų ir verslo įmonių (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Kiti pasiūlė patarimų apie tai, kaip partnerystė su organizacijomis gali turėti įtakos tyrimų projektus (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnerystė taip pat gali sukelti etinių klausimų (Humphreys 2015; Nickerson and Hyde 2016) .

  • Dizainas patarimai (4.6 skyrius)

Jei ketinate sukurti analizės planą prieš pradedant eksperimentą, aš siūlau, kad jūs pradėti skaityti ataskaitų teikimo gaires. Consort (Konsoliduota Standartinė Pranešimas apie bandymus) normatyvus sukūrė medicinoje (Schulz et al. 2010) ir modifikuoti socialinės tyrimų (Mayo-Wilson et al. 2013) . Susijusi gairės buvo sukurta iš Eksperimentinės Politikos mokslų leidinyje redaktoriams (Gerber et al. 2014) (taip pat žr Mutz and Pemantle (2015) ir Gerber et al. (2015) ). Galiausiai, ataskaitų teikimo gairės buvo parengtos psichologija (Group 2008) , o taip pat žr Simmons, Nelson, and Simonsohn (2011) .

Jei kuriate analizė planą jūs turėtumėte apsvarstyti iš anksto užsiregistruoti, nes išankstinė registracija padidins pasitikėjimą, kad kiti turi savo rezultatus. Be to, jei jūs dirbate su partneriu, ji apriboja savo partnerio gebėjimą keisti analizę pamačius rezultatus. Išankstinė registracija vis dažniau psichologijos (Nosek and Lakens 2014) , Politologija (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ir ekonomika (Olken 2015) .

Kurdamas savo iš anksto analizės planą turėtumėte žinoti, kad kai kurie mokslininkai taip pat naudoti regresiją ir susijusių metodų pagerinti numatomą gydymo poveikį tikslumas, ir yra kai diskusijos apie šio metodo: Freedman (2008) , Lin (2013) , ir Berk et al. (2013) ; matyti Bloniarz et al. (2016) dėl išsamesnės informacijos.

Dizainas patarimai specialiai interneto lauko eksperimentų taip pat pateikiami Konstan and Chen (2007) ir Chen and Konstan (2015) .

  • Sukurti nulis kintamosios sąnaudos duomenis (4.6.1 skyrius)

Daugiau apie MusicLab eksperimentų žr Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , ir Salganik (2007) . Daugiau apie nugalėtojas imk visose rinkose žr Frank and Cook (1996) . Daugiau apie untangling sėkmės ir įgūdžių apskritai žr Mauboussin (2012) , Watts (2012) ir Frank (2016) .

Yra ir kitas požiūris į panaikinant dalyvio mokėjimus, kad mokslininkai turėtų naudoti atsargiai: šauktinių. Daugelyje internetinių lauko eksperimentų dalyviai iš esmės yra pašauktas į eksperimentus ir niekada kompensuoti. Pavyzdžiai šiuo požiūriu yra Restivo ir van de Rijt anketa (2012) eksperimentą apdovanojimus Wikipedia ir obligacijų ir kolegos (2012) eksperimentą skatinti žmones balsuoti. Šie eksperimentai tikrai ne nulis kintamą kainą, jie turi nulinį kintama kaina mokslininkams. Nors daugelis šių eksperimentų kaina yra labai maža kiekvienam dalyviui, mažos išlaidos paskirta didžiulė dalyvių skaičius gali pridėti greitai. Mokslininkai veikia masinis interneto eksperimentai dažnai pateisinti mažais apytikrius gydymo poveikių svarbą, sakydamas, kad šie maži poveikiai gali tapti svarbus, kai taikomas daugeliui žmonių. Lygiai toks pats mąstymas taikomas išlaidų, kad mokslininkai užkraunami dalyviams. Jei jūsų eksperimentai sukelia vienas milijonas žmonių švaistyti vieną minutę, eksperimentas nėra labai kenksmingas bet kurio konkretaus asmens, bet bendra ji veltui beveik dvejus metus laiko.

Kitas požiūris sukurti nulinės kintamosios sąnaudos mokėjimą dalyvių yra naudoti loterijoje, bet ir požiūrį, kad taip pat buvo naudojamas apklausos tyrimų (Halpern et al. 2011) . Galiausiai, daugiau apie projektavimo malonus user-patirtis pamatyti Toomim et al. (2011) .

  • Pakeiskite, Patikslinkite, ir sumažinti (4.6.2 skyrius)

Čia yra pradiniai apibrėžimai iš trijų R, iš Russell and Burch (1959) :

"Pakeitimas reiškia, kad sąmoningas gyvenančių didesnių gyvūnų Negyvas medžiagų pakaitalų. Mažinimas reiškia sumažinimą, naudotų gauti informaciją apie tam tikrą sumą ir tikslumo gyvūnų skaičių. Tobulinimas reiškia bet kokį dažnis ar sunkumas taikomų šiems gyvūnams, kurios dar turi būti naudojamas nežmoniškomis procedūrų sumažėjimą. "

Trijų R, kad siūlau ne nepaisyti aprašyta 6 skyriuje etikos principus Atvirkščiai, jie yra išsamesnis versija vienas iš šių principų, labdara-specialiai žmogaus eksperimentų nustatymas.

Svarstant Emocinis užkratas, yra trys ne etiniai klausimai, kuriuos reikia nepamiršti aiškindami šį eksperimentą. Pirma, neaišku, kaip faktiniai duomenys eksperimento prisijungti prie teorinių teiginių; Kitaip tariant, kyla klausimų apie konstrukto galiojimo. Neaišku, kad teigiamas ir neigiamas žodis skaičiuoja iš tikrųjų yra geras rodiklis emocinę būseną dalyvių, nes 1) nėra aišku, kad žodžiai, kad žmonės rašyti yra geras rodiklis savo emocijas ir 2) nėra aišku, kad konkretus nuotaikos analizės metodas kuris naudojamas mokslininkai gali patikimai išvadą emocijas (Beasley and Mason 2015; Panger 2016) . Kitaip tariant, gali būti blogas priemonė tendencingu signalo. Antra, projektavimas ir analizė eksperimento mums nieko nepasako apie tai, kas buvo labiausiai paveikta (ty, nėra heterogeniškumo gydymo poveikių analizė) ir ką mechanizmas gali būti. Šiuo atveju, mokslininkai turėjo daug informacijos apie dalyvių, bet jie buvo iš esmės laikomas niekučiai analizės. Trečia, poveikis dydis Šiame eksperimente buvo labai mažas; tarp gydymo ir kontrolės sąlygas skirtumas yra maždaug 1 iš 1000 žodžių. Jų popieriaus, Kramer ir kolegos, kad bylą, kad tokio dydžio poveikis yra svarbus, nes šimtai milijonų žmonių susipažinti su jų News Feed kiekvieną dieną. Kitaip tariant, jie teigia, kad net poveikį, kuris yra mažas, kiekvienam asmeniui jie yra dideli kartu. Net jei buvo sutikti su šiuo argumentu, ji vis dar nėra aišku, jei tokio dydžio poveikis yra svarbus dėl daugiau bendro mokslinio klausimą apie emocinio užkrato. Daugiau apie situacijas, kai maži poveikiai yra svarbūs pamatyti Prentice and Miller (1992) .

Kalbant apie pirmą R (pakeitimas), palyginti emocinio užkrato eksperimentą (Kramer, Guillory, and Hancock 2014) ir emocinis užkrato natūralų eksperimentą (Coviello et al. 2014) siūlo keletą bendrąsias pamokas apie kompromisus, dalyvaujančių su pereinant nuo eksperimentai fiziniams eksperimentams (ir kitų metodų, pavyzdžiui, atitikimo, kurie bando derinant eksperimentus ne eksperimentinius duomenis, matyti 2 skyrių). Be etinių naudą, pereinant nuo Eksperimentinės ir ne eksperimentinius tyrimus taip pat leidžia mokslininkams studijuoti gydymo, kad jie yra logistiniu negali panaudoti. Šie etikos ir logistikos nauda turi savo kainą, tačiau. Su gamtos eksperimentų mokslininkai turi mažiau kontroliuoti tokius dalykus kaip įdarbinimo dalyvių, tikimybių, o gydymo pobūdį. Pavyzdžiui, vienas apribojimas kritulių kaip gydymo yra tai, kad tiek padidina pozityvumo ir sumažina negatyvumo. Eksperimentinėje studijoje, tačiau Kramer ir jo kolegos galėjo reguliuoti pozityvumo ir negatyvumo savarankiškai.

Ypač požiūris naudojamas Coviello et al. (2014) buvo toliau tobulinama Coviello, Fowler, and Franceschetti (2014) . Dėl įvadas į instrumentinių kintamųjų pamatyti Angrist and Pischke (2009) (mažiau formalus) arba Angrist, Imbens, and Rubin (1996) (daugiau formalus). Dėl skeptiško vertinimo instrumentinių kintamųjų pamatyti Deaton (2010) , ir įvadas į instrumentinių kintamųjų su silpna priemonių (lietus yra silpnas priemonė), žr Murray (2006) .

Apskritai, geras įvadas į gamtos eksperimentams yra Dunning (2012) , ir Rosenbaum (2002) , Rosenbaum (2009) , ir Shadish, Cook, and Campbell (2001) pasiūlyti gerų idėjų apie įvertinti priežastinius efektus be eksperimentų.

Kalbant apie antrąjį R (patikslinimą), yra mokslo ir logistikos kompromisai svarstant pakeitimo emocinio užkrato dizainas blokuoti pranešimus išplėstas pranešimus. Pavyzdžiui, tai gali būti atvejis, kad techninis įgyvendinimas Naujienų todėl yra žymiai lengviau padaryti eksperimentą su blokavimo pranešimus, o ne eksperimentas su didinimo pranešimus (atminkite, kad eksperimentas su blokavimo pranešimus būtų galima įgyvendinti kaip sluoksnis ant viršuje naujienų sistema be jokio pakitimų pagrindinės sistemos) poreikį. Moksliškai Tačiau teorija spręsti eksperimento nebuvo aiškiai rodo vieną dizainą ant kito.

Deja, aš nesu žino gerokai iš anksto tyrimų apie santykinius privalumus blokuoja ir skatinti turinį Naujienų. Be to, aš nemačiau daug tyrimų apie tobulinant gydymo, kad jie mažiau kenksmingas; Vienintelė išimtis yra Jones and Feamster (2015) , kuris mano, kad matavimo interneto cenzūros atvejis (tema aš aptarti 6 skyriuje santykį su Encore tyrimo (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Kalbant apie trečią R (mažinimas), geras įvadas į tradicinės energijos analizės Cohen (1988) . Pirminio apdorojimo kintami dydžiai gali būti įtraukti į projektavimo etape ir analizės etape eksperimentus; 4 skyrius Gerber and Green (2012) suteikia gerą įvadą į abiejų metodų ir Casella (2008) pateikia išsamesnį gydymą. Metodus, kurie naudoja šią anksto valymo informaciją tikimybių paprastai vadinama arba užblokuotas eksperimentinius projektus ar sluoksninės eksperimentinius projektus (terminologija nėra naudojamas nuosekliai bendruomenėmis); Šie metodai yra labai susiję su sluoksniuotu atrankos metodus aptartų 3 skyrius Žr Higgins, Sävje, and Sekhon (2016) Daugiau apie naudojant šiuos dizaino masyvi eksperimentams. Pirminio apdorojimo kintami dydžiai taip pat gali būti įtraukti į analizę etape. McKenzie (2012) tyrinėja skirtumas-in-skirtumus požiūrį į analizuojant lauko eksperimentus išsamiau. Žiūrėti Carneiro, Lee, and Wilhelm (2016) Daugiau apie kompromisus tarp įvairių metodų, kaip padidinti tikslumą sąmatos gydymo poveikių. Galiausiai, kai sprendžiama, ar bandyti įtraukti pirminio apdorojimo kintamųjų projektavimo ar analizės etape (arba abu), yra keletas veiksnių apsvarstyti. Pradėti ten, kur mokslininkai nori parodyti, kad jie nėra "žvejybos" (Humphreys, Sierra, and Windt 2013) , naudojant iš anksto gydymo kintamųjų projektavimo stadijoje gali būti naudinga (Higgins, Sävje, and Sekhon 2016) . Tais atvejais, kai dalyviai atvyksta iš eilės, ypač prisijungę lauko bandymai, naudojant iš anksto valymo informaciją projektavimo stadijoje gali būti sunku logistikos žr pvz Xie and Aurisset (2016) .

Verta pridedant intuicija tiek apie tai, kodėl skirtumas-in-skirtumai gali būti tiek daug efektyvesnis nei skirtumas-in-priemonėmis. Daugelis interneto rezultatai turi labai aukštą dispersija (žr pvz, Lewis and Rao (2015) ir Lamb et al. (2015) ) ir yra gana stabili laikui bėgant. Šiuo atveju, pokytis rezultatas turės gerokai mažesnę dispersiją, didinant statistiniu testu galią. Viena iš priežasčių, tai kreipėsi yra nenaudojamas daugiau dažnai yra tai, kad prieš skaitmeniniame amžiuje tai buvo ne įprasta, kad iš anksto gydymo rezultatus. Daugiau konkretus būdas galvoti apie tai įsivaizduoti eksperimentą matuoti ar konkreti vykdant kasdieninį sukelia svorio kritimą. Jei skirtumas-in-būdu požiūrį, jūsų sąmata turės kintamumą, kuris ateina iš kintamumas svoriais gyventojų. Jei skirtumas-in-skirtumo požiūrį, tačiau, kad natūraliai svyravimas svoriais bus pašalinta, ir jūs galite lengviau aptikti skirtumą, kurį sukelia gydymas.

Vienas svarbus būdas sumažinti dalyvių eksperimente skaičius yra atlikti elektros analizę, kuri Kramer ir jo kolegos galėjo padaryti remiantis poveikio dydžių pastebėtus iš natūralaus eksperimentą Coviello et al. (2014) arba anksčiau ne eksperimentinis tyrimas pagal Kramer (2012) (iš tikrųjų tai yra veikla šio skyriaus pabaigoje). Atkreipkite dėmesį, kad šis elektros analizės naudojimas yra šiek tiek kitoks, nei tipiškas. Analogas amžiaus, mokslininkai paprastai darė maitinimo analizę įsitikinti, kad jų tyrimas buvo ne per mažas (ty, pagal varomas). Tačiau dabar mokslininkai turėtų daryti galios analizė įsitikinti, kad jų tyrimas yra ne per didelis (ty, per varomas).

Galiausiai, mano nuomone pridedant ketvirtasis R pakartotinai panaudoti. Tai yra, jei mokslininkai atsiduria daugiau eksperimentinių duomenų, nei jie turi spręsti savo autentišką tiriamąjį klausimą, jie turėtų pakartotinai panaudoti duomenis paklausti naujus klausimus. Pavyzdžiui, įsivaizduokite, kad Kramer ir jo kolegos buvo naudojamas skirtumas-in-skirtumus prognozės ir atsidūrė daugiau duomenų nei reikia spręsti savo mokslinių tyrimų klausimas. Užuot nenaudojate duomenis į kiek jie galėjo studijavo poveikio dydį kaip funkcija paruošiamojo apdorojimo emocinę išraišką. Lygiai taip pat Schultz et al. (2007) nustatė, kad gydymo poveikis buvo skirtingas lengvųjų ir sunkiųjų vartotojams, galbūt iš Naujienų poveikis buvo skirtingas žmonių, kurie jau linkusios rašyti laimingas (ar liūdnas) pranešimus. Repurposing gali sukelti "Žvejyba" (Humphreys, Sierra, and Windt 2013) ir "P-įsilaužimo" (Simmons, Nelson, and Simonsohn 2011) , tačiau tai daugiausia adresavimo su sąžiningas ataskaitas kartu (Simmons, Nelson, and Simonsohn 2011) , išankstinė registracija (Humphreys, Sierra, and Windt 2013) , o mašina mokymosi metodai, kurie bando išvengti per didelio montavimo.