Klausimai apie priežastingumą socialiniuose tyrimuose dažnai yra sudėtingi ir sudėtingi. Žr. " Pearl (2009) Ir Imbens and Rubin (2015) požiūrį, pagrįstą galimais rezultatais, žr. " Imbens and Rubin (2015) . Norėdami palyginti šiuos du metodus, žr. " Morgan and Winship (2014) . Formalaus požiūrio į sumaišymo apibrėžimą žr. VanderWeele and Shpitser (2013) .
Šiame skyriuje sukūriau tai, kas atrodė ryškia linija tarp mūsų gebėjimo pagrįsti eksperimentinius ir neeksperimentinius duomenis. Tačiau manau, kad iš tikrųjų šis skirtumas yra labiau neaiškus. Pavyzdžiui, visi pripažįsta, kad rūkymas sukelia vėžį, nors niekada nebuvo atliktas atsitiktinių imčių kontroliuojamas eksperimentas, kuris verčia žmones rūkyti. Dėl puikios knygos trukmės gydant priežastinius apskaičiavimus iš ne eksperimentinių duomenų žr. Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) ir Dunning (2012) .
Freedman, Pisani, and Purves (2007) 1 ir 2 skyriuose pateikiamas aiškus skirtumas tarp eksperimentų, kontroliuojamų eksperimentų ir atsitiktinių imčių kontroliuojamų eksperimentų.
Manzi (2012) pateikia patrauklių ir suprantamų įvadų į atsitiktinių imčių kontroliuojamų eksperimentų filosofinius ir statistinius pagrindus. Jame taip pat pateikiami įdomūs realaus pasaulio eksperimentavimo verslo versle pavyzdžiai. Issenberg (2012) pateikia įdomų įvadą apie eksperimentų naudojimą politinėse kampanijose.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 ir Athey and Imbens (2016b) pateikia gerus eksperimentinio projektavimo ir analizės aspektus. Be to, yra puikus būdas eksperimentams naudoti daugelyje skirtingų sričių: ekonomika (Bardsley et al. 2009) , sociologija (Willer and Walker 2007; Jackson and Cox 2013) , psichologija (Aronson et al. 1989) , politologija (Morton and Williams 2010) ir socialine politika (Glennerster and Takavarasha 2013) .
Dalyvių įdarbinimo svarba (pvz., Atranka) dažnai nepakankamai vertinama atliekant eksperimentinius tyrimus. Tačiau, jei gydymo poveikis yra heterogeniškas populiacijoje, mėginių ėmimas yra labai svarbus. Longford (1999) aiškiai nurodo šį klausimą, kai jis remia tyrėjus, kurie galvoja apie eksperimentus kaip gyventojų apklausą, kuria imamas atsitiktinai.
Aš pasiūliau, kad egzistuoja kontinuumas tarp laboratorijos ir lauko eksperimentų, o kiti tyrėjai pasiūlė išsamesnes tipologijas, ypač tas, kurios atskiria įvairias lauko eksperimentų formas (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Daugelyje straipsnių laboratorijos ir lauko eksperimentai buvo lyginami abstrakčiai (Falk and Heckman 2009; Cialdini 2009) ir konkrečių eksperimentų politiniame moksle (Coppock and Green 2015) , ekonomikos (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) ir psichologija (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) Siūlo puikų tyrimų planą, lyginant laboratorinių ir lauko eksperimentų rezultatus. Parigi, Santana, and Cook (2017) Aprašoma, kaip internetiniai lauko eksperimentai gali sujungti keletą laboratorinių ir lauko bandymų charakteristikų.
Susirūpinimas dėl dalyvių, keičiančių savo elgesį, nes jie žino, kad jie yra atidžiai stebimi, kartais vadinami paklausos efektais , jie buvo mokomi psichologijoje (Orne 1962) ir ekonomikoje (Zizzo 2010) . Nors dažniausiai tai susiję su laboratoriniais bandymais, šie patys klausimai gali sukelti ir lauko eksperimentų problemų. Iš tiesų, paklausos poveikis kartais vadinamas ir Hawthorne efektu , terminu, kuris gauna garsius apšvietimo eksperimentus, prasidėjusius 1924 m. "Western Electric Company" Hawthorne darbuose (Adair 1984; Levitt and List 2011) . Tiek paklausos poveikis, tiek Hawthorne poveikis yra glaudžiai susiję su reakcijos matavimo idėja, aptarta 2 skyriuje (taip pat žr. Webb et al. (1966) ).
Laukiniai eksperimentai turi ilgą istoriją ekonomikoje (Levitt and List 2009) , politiniame moksle (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) ; psichologija (Shadish 2002) ; viešoji politika (Shadish and Cook 2009) . Viena socialinių mokslų sritis, kurioje greitai išaugo lauko eksperimentai, yra tarptautinė plėtra. Teigiamą šio darbo peržiūrą ekonomikoje žr. Banerjee and Duflo (2009) , o kritišką vertinimą žr. Deaton (2010) . Peržiūrint šį darbą politiniame mokslui žr. Humphreys and Weinstein (2009) . Galiausiai (Humphreys 2015; Desposato 2016b) iššūkiai, kylantys iš lauko eksperimentų, buvo išnagrinėti politinio mokslo kontekste (Humphreys 2015; Desposato 2016b) ir plėtros ekonomika (Baele 2013) .
Šiame skyriuje aš siūlau, kad informacija apie išankstinį gydymą galėtų būti naudojama siekiant pagerinti įvertinto gydymo efekto tikslumą, tačiau yra keletas diskusijų apie šį požiūrį; žr. Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , ir Bloniarz et al. (2016) Daugiau informacijos.
Galiausiai yra ir kitų tipų eksperimentai, kuriuos atlieka socialiniai mokslininkai ir kurie netinka gerai laboratorijos srityje: apklausos eksperimentai ir socialiniai eksperimentai. Apklausos eksperimentai yra bandymai, kuriuose naudojama esamų apklausų infrastruktūra, ir palyginami atsakymai į alternatyvius tų pačių klausimų variantus (kai kurie tyrimo eksperimentai pateikti 3 skyriuje); Daugiau informacijos apie tyrimo eksperimentus rasite " Mutz (2011) . Socialiniai eksperimentai yra eksperimentai, kai gydymas yra kokia nors socialinė politika, kurią gali įgyvendinti tik vyriausybė. Socialiniai eksperimentai glaudžiai susiję su programos vertinimu. Daugiau apie politikos eksperimentus žr. Heckman and Smith (1995) , Orr (1998) ir @ glennerster_running_2013.
Aš nusprendžiau sutelkti dėmesį į tris sąvokas: pagrįstumą, gydymo efektų heterogeniškumą ir mechanizmus. Šios sąvokos skirtinguose pavadinimuose yra skirtingos. Pavyzdžiui, psichologai linkę pereiti prie paprastų eksperimentų, daugiausia dėmesio skirdami tarpininkams ir moderatoriams (Baron and Kenny 1986) . Mediatorių idėja yra užfiksuota to, ką vadinu mechanizmais, o moderatoriaus idėja yra užfiksuota tuo, ką vadinu išoriniu pagrįstumu (pvz., Ar eksperimento rezultatai būtų skirtingi, jei jis būtų vykdomas skirtingose situacijose) ir gydymo efektų heterogeniškumas ( pvz., kai kuriems žmonėms didesnis poveikis nei kitiems).
Schultz et al. (2007) Eksperimentas Schultz et al. (2007) parodo, kaip socialinės teorijos gali būti naudojamos kuriant veiksmingas intervencijas. Daugiau bendrų argumentų apie teorijos vaidmenį kuriant veiksmingas intervencijas žr. Walton (2014) .
Vidinio ir išorinio galiojimo sąvokas pirmą kartą pateikė Campbell (1957) . Žr. " Shadish, Cook, and Campbell (2001) kuriame pateikiama išsamesnė istorija ir kruopštus statistinių išvadų pagrįstumo, vidinio galiojimo, konstrukcijos galiojimo ir išorinio galiojimo išaiškinimas.
Vertinant statistikos išvadų galiojimo eksperimentuose klausimus, žr. Gerber and Green (2012) (socialinių mokslų perspektyva) ir Imbens and Rubin (2015) (statistiniu požiūriu). Kai kurie statistinių išvadų pagrįstumo klausimai, būdingi internetinių eksperimentų metu, apima tokias problemas kaip skaičiavimo efektyvūs metodai pasikliautinų intervalų su priklausomiems duomenims kurti (Bakshy and Eckles 2013) .
Sudėtinguose lauko eksperimentuose sudėtinga užtikrinti vidinį galiojimą. Pavyzdžiui, žr. Gerber and Green (2000) , Imai (2005) ir Gerber and Green (2005) diskusijoms apie sudėtingo lauko eksperimento apie balsavimą įgyvendinimą. Kohavi et al. (2012) ir Kohavi et al. (2013) Pateikiama internetinių lauko bandymų intervalo galiojimo problema.
Viena didžiausių grėsmių vidaus galiojimui yra galimybė nesėkmingai atsitiktinai atrinkti. Vienas galimas būdas aptikti atsitiktinės atrankos problemas yra palyginti gydymo ir kontrolės grupes su pastebimais požymiais. Toks palyginimas vadinamas balanso patikrinimu . Žr. Hansen and Bowers (2008) Dėl statistinio balansų tikrinimo metodo ir " Mutz and Pemantle (2015) Dėl susirūpinimo dėl balanso patikrų. Pavyzdžiui, naudodamas balanso patikrinimą, Allcott (2011) keletą įrodymų, kad atsitiktinės atrankos rezultatai nebuvo tinkamai įgyvendinami trijuose "Opower" eksperimentuose (žr. 2 lentelę; 2, 6 ir 8 svetaines). Kitų požiūrių žr. Imbens and Rubin (2015) 21 skyriuje.
Kiti pagrindiniai klausimai, susiję su vidiniu galiojimu, yra šie: 1) vienkartinis neatitikimas, kai gydymo grupėje ne visi gydytojai buvo gydomi; 2) dvipusis neatitikimas, kai gydymo grupėje ne visi gydytojai gauna gydymą, o kai kurie žmonės kontrolinė grupė gauna gydymą, (3) dilgčiojimą, kai rezultatai kai kuriems dalyviams nėra matuojami ir (4) trikdžiai, kai gydymas iš žmonių, kuriems gydymo būklė išsiskiria, yra kontroliuojamas žmonėms. Daugiau apie kiekvieną iš šių klausimų žr. Gerber and Green (2012) 5, 6, 7 ir 8 skyriuose.
Norėdami sužinoti daugiau apie konstrukcijos pagrįstumą, žr. Westen and Rosenthal (2003) ir daugiau apie konstrukcijos pagrįstumą dideliuose duomenų šaltiniuose, " Lazer (2015) ir šios knygos 2 skyriuje.
Vienas iš išorinio galiojimo aspektų yra nustatymas, kuriuo bandoma atlikti intervenciją. Allcott (2015) Yra kruopštus teorinis ir empirinis požiūris į svetainių atranką. Šią problemą taip pat aptarė Deaton (2010) . Kitas išorinio galiojimo aspektas yra tas, ar to paties įsikišimo alternatyvūs veiksmai turės panašų poveikį. Šiuo atveju palyginus Schultz et al. (2007) Ir Allcott (2011) Rodo, kad "Opower" eksperimentai buvo mažesni, vertinant poveikį, nei pradiniai Schultz ir jo kolegos eksperimentai (1,7%, palyginti su 5%). Allcott (2011) Spektaklis teigė, kad tolesni eksperimentai turėjo mažesnį poveikį dėl skirtingo požiūrio į gydymo būdus: ranka Allcott (2011) kaip universiteto remiamo tyrimo dalį, palyginti su išspausdintu šypsokiu kaip masinės gamybos elektros energetikos įmonės ataskaita.
Gerai apžvalgai apie gydymo efektų heterogeniškumą lauko eksperimentuose skaitykite Gerber and Green (2012) 12 skyrių. Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) pateikia gydymo efektų heterogeniškumą medicininiuose tyrimuose. Gydymo efektų heterogeniškumo svarstymai dažniausiai skiriasi skirtumais, kurie grindžiami ikimokyklinio gydymo savybėmis. Jei jus domina heterogeniškumas, pagrįstas rezultatais po gydymo, tada reikia sudėtingesnių metodų, tokių kaip pagrindinis stratifikavimas (Frangakis and Rubin 2002) ; žr. Page et al. (2015) Peržiūrai.
Daugelis tyrėjų įvertina gydymo efektų heterogeniškumą naudodamiesi linijine regresija, tačiau naujesni metodai remiasi mašinų mokymu; žr., pavyzdžiui, " Green and Kern (2012) , " Imai and Ratkovic (2013) , Taddy et al. (2016) , " Athey and Imbens (2016a) .
Yra keletas skepticizmo apie poveikio heterogeniškumo rezultatus dėl daugybės palyginimo problemų ir "žvejybos". Yra daugybė statistinių metodų, kurie gali padėti spręsti susirūpinimą dėl kelių lyginamųjų (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Vienas iš būdų susirūpinti "žvejyba" yra išankstinė registracija, kuri vis labiau paplitusi psichologijoje (Nosek and Lakens 2014) , politikos mokslų (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , ir ekonomika (Olken 2015) .
" Costa and Kahn (2013) tyrime Costa and Kahn (2013) Tik apie pusę eksperimento namų ūkių galima susieti su demografine informacija. Skaitytojai, suinteresuoti šia informacija, turėtų būti susiję su originaliu dokumentu.
Mechanizmai yra nepaprastai svarbūs, tačiau jie pasirodo labai sunku mokytis. Tyrimas apie mechanizmus yra glaudžiai susijęs su psichologijos tarpininkų tyrimu (bet taip pat žr. VanderWeele (2009) kad būtų galima tiksliai palyginti šias dvi idėjas). Stacionarūs mechanizmų, pavyzdžiui, Baron and Kenny (1986) Sukurtas metodas, yra gana įprasti. Deja, paaiškėja, kad šios procedūros priklauso nuo kai kurių tvirtų prielaidų (Bullock, Green, and Ha 2010) ir patiria daugybę mechanizmų, kuriuos galima tikėtis daugelyje situacijų (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) ir " Imai and Yamamoto (2013) Siūlo keletą patobulintų statistinių metodų. Be to, " VanderWeele (2015) Siūlo daugybę svarbių rezultatų, įskaitant visapusišką požiūrį į jautrumo analizę.
Atskirame požiūriu daugiausia dėmesio skiriama eksperimentams, kuriais siekiama tiesiogiai manipuliuoti mechanizmu (pvz., Suteikti buriuotojams vitaminą C). Deja, daugelyje socialinių mokslų nustatymų dažnai yra keli mechanizmai, todėl sunku sukurti gydymą, kuris pakeistų vieną, nekeičiant kitų. Kai kuriuos požiūrius į eksperimento keitimo mechanizmus apibūdina Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , Pirlott and MacKinnon (2016) .
Mokslininkai, atliekantys visiškai faktorinius eksperimentus, turės būti susirūpinę dėl kelių hipotezių testavimo; Daugiau informacijos rasite Fink, McConnell, and Vollmer (2014) ir List, Shaikh, and Xu (2016) .
Galiausiai mechanizmai taip pat turi ilgą istoriją mokslo filosofijoje, kaip aprašyta Hedström and Ylikoski (2010) .
Daugiau apie korespondencijos tyrimų ir audito tyrimų naudojimą diskriminacijos vertinimui, žr. " Pager (2007) .
Dažniausias būdas įdarbinti dalyvius eksperimentams, kuriuos kuriate, yra "Amazon Mechanical Turk" (MTurk). Kadangi MTurk imituoja tradicinių laboratorinių eksperimentų aspektus, mokantiems žmones atlikti užduotis, kurių jie nemokamai atliks, daugelis tyrėjų jau pradėjo naudoti "Turkers" (MTurk darbuotojus) kaip eksperimentinius dalyvius, todėl duomenų rinkimas greičiau ir pigiau nei galima pasiekti. (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Apskritai, didžiausi dalyvių, įdarbintų iš "MTurk", naudojimo pranašumai yra logistiniai. Kadangi laboratoriniai tyrimai gali užtrukti kelias savaites, o eksperimentai lauke gali užtrukti kelias mėnesius, eksperimentai su dalyviais, įdarbinti iš MTurk, gali būti vykdomi keliomis dienomis. Pavyzdžiui, Berinsky, Huber, and Lenz (2012) sugebėjo įdarbinti 400 dalykų per vieną dieną dalyvauti 8 minučių eksperimente. Be to, šie dalyviai gali būti įdarbinti praktiškai bet kokiam tikslui (įskaitant apklausas ir masinį bendradarbiavimą, kaip aptarta 3 ir 5 skyriuose). Šis įdarbinimo paprastumas reiškia, kad mokslininkai greitai gali atlikti gretimų eksperimentų sekas.
Prieš įdarbindami MTurk dalyvius savo eksperimentams, yra keturi svarbūs dalykai, kuriuos reikia žinoti. Pirma, daugelis mokslininkų turi nespecifinį eksperimentų su Turkeriais skepticizmą. Kadangi šis skepticizmas nėra konkretus, tai sunku prieštarauti įrodymams. Tačiau po keleto metų trukusių Turkersių studijų galime padaryti išvadą, kad šis skepticizmas nėra ypač pagrįstas. Buvo atlikta daug tyrimų, kuriuose buvo palyginta turkers demografija su kitų populiacijų demografiniais duomenimis, ir daugybė tyrimų, kuriuose buvo lyginami eksperimentai su turkereis su kitomis populiacijomis. Atsižvelgdamas į visą šį darbą, manau, kad geriausias būdas jums galvoti apie tai, kad Turkeriai yra tinkamas mėginys, panašus į studentus, bet šiek tiek daugiau įvairesnių (Berinsky, Huber, and Lenz 2012) . Taigi, kaip ir moksleiviai yra pagrįsta populiacija kai kuriems, bet ne visiems, moksliniams tyrimams, turkrai yra pagrįsta populiacija kai kuriems, bet ne visiems, moksliniams tyrimams. Jei ketinate dirbti su Turkeriais, tada prasminga perskaityti daugelį šių lyginamųjų studijų ir suprasti jų niuansus.
Antra, mokslininkai sukūrė geriausią MTurk eksperimentų pagrįstumo praktiką, todėl turėtumėte sužinoti apie šias geriausias praktikas (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Pavyzdžiui, mokslininkai, naudojantys "Turkers", yra raginami naudoti (Berinsky, Margolis, and Sances 2014, 2016) dalyvius (Berinsky, Margolis, and Sances 2014, 2016) (bet taip pat žr. DJ Hauser and Schwarz (2015b) ir DJ Hauser and Schwarz (2015a) ). Jei nenorite pašalinti neatsargių dalyvių, bet koks gydymo poveikis gali būti nutekintas dėl triukšmo, kurį jie įvedė, ir praktiškai neįvyksiančių dalyvių skaičius gali būti didelis. Huberio ir jo kolegų eksperimente (2012) Apie 30% dalyvių nesulaukė pagrindinio dėmesio. Kitos problemos, kurios dažnai kyla, kai naudojami "Turkeriai", yra naivūs dalyviai (Chandler et al. 2015) Ir trintis (Zhou and Fishbach 2016) .
Trečia, palyginti su kitomis skaitmeninių eksperimentų formomis, MTurk eksperimentai negali būti matuojami; Stewart et al. (2015) Apskaičiuota, kad bet kuriuo metu MTurk mieste yra tik apie 7000 žmonių.
Galiausiai turėtumėte žinoti, kad MTurk yra bendruomenė, turinti savo taisykles ir normas (Mason and Suri 2012) . Taip pat, kaip bandysite sužinoti apie šalies, kurioje ketinate atlikti savo eksperimentus, kultūrą, turėtumėte pabandyti daugiau sužinoti apie turkų kultūrą ir normas (Salehi et al. 2015) . Ir jūs turėtumėte žinoti, kad turkere bus kalbama apie jūsų eksperimentą, jei padarysite kažką netinkamo ar neetiško (Gray et al. 2016) .
"MTurk" yra neįtikėtinai patogus būdas įdarbinti dalyvius į jūsų eksperimentus, nesvarbu, ar jie yra labo tipo, pavyzdžiui, " Huber, Hill, and Lenz (2012) , Ar daugiau panašūs į lauką, pvz., " Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , ir Mao et al. (2016) .
Jei ketinate bandyti sukurti savo produktą, rekomenduoju perskaityti "MovieLens" grupės pasiūlymus " Harper and Konstan (2015) . Pagrindinė patirtis yra tai, kad kiekvienam sėkmingam projektui yra daugybė daugybės nesėkmių. Pavyzdžiui, "MovieLens" grupė išleido kitus produktus, tokius kaip "GopherAnswers", kurie buvo visiškas nesėkmes (Harper and Konstan 2015) . Kitas mokslininko, kuris bando sukurti produktą, nesėkmės pavyzdys yra Edwardas Castronovos bandymas sukurti internetinį "Arden" žaidimą. Nepaisant 250 000 dolerių finansavimo, projektas buvo flopas (Baker 2008) . Deja, tokie projektai kaip "GopherAnswers" ir "Arden" yra daug dažniau nei tokie projektai kaip "MovieLens".
Aš girdėjau, kad "Patteur Quadrant" idėja dažnai buvo aptariama technologijų įmonėse ir padeda organizuoti "Google" mokslinių tyrimų (Spector, Norvig, and Petrov 2012) tyrimus.
Bondo ir kolegų tyrimas (2012) taip pat bando aptikti šių gydymo poveikį jų gavėjų draugams. Dėl eksperimento plano šias išsiliejimas yra sunkiai aptikti švariai; suinteresuoti skaitytojai turėtų pamatyti Bond et al. (2012) Išsamesnės diskusijos. 2012 m. Rinkimuose Jonesas ir jo kolegos (2017) Taip pat atliko labai panašų eksperimentą. Šie eksperimentai yra ilgos tradicijos eksperimentams politiniame moksle dalis pastangų skatinti balsavimą (Green and Gerber 2015) . Šie eksperimentai "išeiti į balsą" yra dažni, iš dalies todėl, kad jie yra "Pasteuro" kvadrantoje. Tai reiškia, kad yra daug žmonių, kurie yra motyvuoti padidinti balsavimą ir balsuoti gali būti įdomus elgesys, siekiant išbandyti daugiau bendrų teorijų apie elgesio pokyčius ir socialinę įtaką.
Žiūrėkite Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) Ir Gueron (2002) . JA List (2011) , Gueron (2002) apie lauko eksperimentus su partnerių organizacijomis, pvz., Politinėmis partijomis, nevyriausybinėmis organizacijomis ir įmonėmis. Dėl minčių apie tai, kaip partnerystė su organizacijomis gali turėti įtakos mokslinių tyrimų projektams, žr. King et al. (2007) ir " Green, Calfano, and Aronow (2014) . Kaip tai aptarė Humphreys (2015) Ir Nickerson and Hyde (2016) Partnerystė taip pat gali sukelti etinius klausimus.
Jei prieš atlikdami savo eksperimentą ketinate sukurti analizės planą, siūlau jums pradėti skaityti ataskaitų teikimo gaires. Konsortui (konsoliduotas standartinis bandymų ataskaitų teikimas) gairės buvo parengtos medicinoje (Schulz et al. 2010) ir pakeistos socialiniams tyrimams (Mayo-Wilson et al. 2013) . Politikos mokslų eksperimento žurnalo (Gerber et al. 2014) redaktorių parengtas susijęs gairių rinkinys (taip pat žr. Mutz and Pemantle (2015) ir Gerber et al. (2015) ). Galiausiai ataskaitos gairės buvo parengtos psichologijoje (APA Working Group 2008) , taip pat žr. Simmons, Nelson, and Simonsohn (2011) .
Jei sukursite analizės planą, turėtumėte apsvarstyti galimybę iš anksto užsiregistruoti, nes išankstinė registracija padidins kitų rezultatų patikimumą. Be to, jei dirbate su partneriu, tai apriboja jūsų partnerio sugebėjimą pakeisti analizę, kai pamatysite rezultatus. Išankstinė registracija vis dažniau pasireiškia psichologijos (Nosek and Lakens 2014) , politologijos (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) ir ekonomikos (Olken 2015) .
Dizaino patarimai, specialiai skirti internetiniams eksperimentams lauke, taip pat pateikiami " Konstan and Chen (2007) bei " Chen and Konstan (2015) .
Ką aš vadinu Armada strategija kartais vadina programine tyrimu ; žr. Wilson, Aronson, and Carlsmith (2010) .
Norėdami sužinoti daugiau apie " Salganik, Dodds, and Watts (2006) eksperimentus, žr. Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) ir Salganik (2007) . Norėdami sužinoti daugiau apie "nugalėtojų" rinkas, žr. Frank and Cook (1996) . Norėdami gauti daugiau informacijos apie sėkmės ir įgūdžių atskleidimą, žr. Mauboussin (2012) , Watts (2012) ir Frank (2016) .
Yra ir kitas požiūris pašalinti dalyvio mokėjimus, kuriuos mokslininkai turėtų naudoti atsargiai: įdarbinimas. Daugelyje internetinių eksperimentų dalyviai iš esmės rengiami eksperimentais ir niekada negaunami. Tokio požiūrio pavyzdžiai yra "Restivo" ir "van de Rijt" (2012) Eksperimentas dėl atlygių "Wikipedia" ir "Bond" ir kolegos (2012) Eksperimentas, skatinantis žmones balsuoti. Šie eksperimentai iš tikrųjų neturi nulinės kintamosios vertės, o mokslininkai turi nulines kintamas išlaidas. Tokiuose eksperimentuose, net jei išlaidos kiekvienam dalyviui yra labai mažos, bendros išlaidos gali būti gana didelės. Mokslininkai, atliekantys didžiulius internetinius eksperimentus, dažnai pateisina mažų numatomų gydymo efektų svarbą sakydami, kad šis nedidelis poveikis gali tapti svarbus daugeliui žmonių. Tikslus tas pats mąstymas taikomas išlaidoms, kurias mokslininkai įpareigoja dalyviams. Jei jūsų eksperimentas sukelia milijoną žmonių atliekų per minutę, eksperimentas nėra labai kenksmingas tam tikram asmeniui, tačiau kartu jis iššvaistė beveik dvejus metus.
Kitas būdas sudaryti nulinius kintamųjų sąnaudų mokėjimus dalyviams yra loterija, tai metodas, kuris taip pat buvo naudojamas tyrimo tyrimams (Halpern et al. 2011) . Daugiau informacijos apie malonių naudotojų patirtį rasite Toomim et al. (2011) . Daugiau informacijos apie robotų naudojimą norint sukurti nulinius kintamųjų sąnaudų eksperimentus žr. ( ??? ) .
Trys R, kaip iš pradžių pasiūlė Russell and Burch (1959) yra tokie:
"Pakeitimas reiškia, kad sąmoningas gyvenančių didesnių gyvūnų Negyvas medžiagų pakaitalų. Mažinimas reiškia sumažinimą, naudotų gauti informaciją apie tam tikrą sumą ir tikslumo gyvūnų skaičių. Tobulinimas reiškia bet kokį dažnis ar sunkumas taikomų šiems gyvūnams, kurios dar turi būti naudojamas nežmoniškomis procedūrų sumažėjimą. "
Tie trys pasiūlymai, kuriuos aš siūlau, nepažeidžia etikos principų, aprašytų 6 skyriuje. Greičiau jie yra labiau išplėstinis variantas, kuris yra vienas iš šių principų - labdaringumas, būtent žmogiškųjų eksperimentų nustatymas.
Remiantis pirmuoju R ("pakeitimas"), palyginus emocinį kontakto eksperimentą (Kramer, Guillory, and Hancock 2014) ir emocinį natūralųjį eksperimentą (Lorenzo Coviello et al. 2014) pateikiama keletas bendrų pamokų apie kompromisus perėjimas nuo eksperimentų prie natūralių eksperimentų (ir kiti metodai, tokie kaip atitikimas, mėginantys aproksimuoti eksperimentus ne eksperimentiniais duomenimis; žr. 2 skyrių). Be etinės naudos, perėjimas nuo eksperimentinių prie neeksperimentinių tyrimų taip pat leidžia mokslininkams tyrinėti gydymo būdus, kuriuos logistikos požiūriu jie negali diegti. Vis dėlto šios etikos ir logistikos pranašumai kainuoja. Natūraliais eksperimentais mokslininkai mažiau kontroliuoja tokius dalykus kaip dalyvių įdarbinimas, atsitiktinumas ir gydymo pobūdis. Pavyzdžiui, vienas kritulių, kaip gydymo, apribojimas yra tai, kad jis abu padidina teigiamą vertę ir sumažina neigiamumą. Tačiau eksperimentiniame tyrime Kramer ir jo kolegos galėjo savarankiškai pakoreguoti teigiamą ir neigiamą. Konkretus metodas, naudojamas Lorenzo Coviello et al. (2014) Buvo toliau tobulinamos L. Coviello, Fowler, and Franceschetti (2014) . Įvadas į instrumentinius kintamuosius, kuris yra Lorenzo Coviello et al. (2014) Naudojamas požiūris Lorenzo Coviello et al. (2014) , žr. Angrist and Pischke (2009) (mažiau formalus) arba Angrist, Imbens, and Rubin (1996) (formalesnis). Skeptiškai vertinant instrumentinius kintamuosius, žr. Deaton (2010) ir įvadas į instrumentinius kintamuosius su silpnomis priemonėmis (lietus yra silpnas instrumentas), žr. Murray (2006) . Apskritai geras įvadas į natūralius eksperimentus yra pateiktas Dunning (2012) , o Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) pateikia geras idėjas apie priezastinio poveikio įvertinimą be eksperimentų.
Kalbant apie antrąjį R ("patobulinimų"), yra svarstomi moksliniai ir logistiniai kompromisai, kai svarstoma, kaip pakeisti emocijų užkrečiamojo dizainą nuo blokuojamų įrašų iki postų padidinimo. Pavyzdžiui, gali būti, kad techninis naujienų kanalo įgyvendinimas leidžia žymiai palengvinti eksperimentą, kai įrašai yra blokuojami, o ne tie, kuriuose jie yra sustiprinti (atkreipkite dėmesį į tai, kad gali būti įgyvendintas eksperimentas, susijęs su pranešimų blokavimu kaip "News Feed" sistemos viršuje esantį sluoksnį be pagrindinės sistemos pakeitimų). Tačiau moksliniai tyrimai, kuriuose buvo aptariamas eksperimentas, aiškiai nenurodė vieno dizaino kito. Deja, nežinau apie esminius išankstinius tyrimus, susijusius su pranašumais, susijusiais su blokavimu ir turinio didinimu "News Feed". Taip pat nematau daug tyrimų apie gydymo būdus, kad jie būtų mažiau kenksmingi; Viena išimtis yra B. Jones and Feamster (2015) , kurioje nagrinėjamas interneto cenzūros matavimo atvejis (tema aptariama 6 skyriuje, atsižvelgiant į Encore tyrimą (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
Kalbant apie trečiąjį R ("sumažinimas"), geras įvadas į tradicinę galios analizę pateikia Cohen (1988) (knyga) ir Cohen (1992) (straipsnis), o Gelman and Carlin (2014) siūlo šiek tiek kitokią perspektyvą. Eksperimentų projektavimo ir analizės etape gali būti įtrauktos ikiklinikinių preparatų prieš gydymą; " Gerber and Green (2012) 4 skyriuje pateikiamas geras abu metodų įvadas, o " Casella (2008) - nuodugnus gydymas. Metodai, naudojantys šią informaciją apie pirminę apdorojimą atsitiktinės atrankos būdu, paprastai vadinami blokuojamais eksperimentiniais dizainais arba stratifikuoti eksperimentiniai dizainai (terminologija nenaudojama nuosekliai visose bendruomenėse); Šios technologijos yra glaudžiai susijusios su stratifikuotais imties metodais, aptartais 3 skyriuje. Žr. Higgins, Sävje, and Sekhon (2016) kad daugiau Higgins, Sävje, and Sekhon (2016) apie šių modelių naudojimą masiniams eksperimentams. Analizės etape taip pat gali būti įtrauktos ikiklinikinių preparatų prieš gydymą. McKenzie (2012) išsamiau analizuoja skirtumus tarp skirtingų požiūrių į lauko eksperimentų analizę. Žr. Carneiro, Lee, and Wilhelm (2016) daugiau informacijos apie kompromisus tarp skirtingų metodų, siekiant padidinti gydymo rezultatų įvertinimo tikslumą. Galiausiai, sprendžiant, ar bandymo įtraukti prieš gydymą kovariavus į projektavimo ar analizės stadiją (ar abu), yra keletas veiksnių, kuriuos reikia apsvarstyti. (Humphreys, Sierra, and Windt 2013) aplinkoje, kurioje mokslininkai nori parodyti, kad jie nėra "žvejojantys" (Humphreys, Sierra, and Windt 2013) , (Humphreys, Sierra, and Windt 2013) kovariacijos projektavimo etape gali būti naudingos (Higgins, Sävje, and Sekhon 2016) . Tais atvejais, kai dalyviai atvyksta nuosekliai, ypač internetiniai eksperimentai lauke, naudojant projektą prieš apdorojimą gali būti sudėtinga logistika; žr., pavyzdžiui, Xie and Aurisset (2016) .
Verta pridurti šiek tiek intuicijos apie tai, kodėl skirtingų skirtumų metodas gali būti daug efektyvesnis nei skirtumas tarp priemonių. Daugelis interneto rezultatų yra labai skirtingi (žr., Pvz., RA Lewis and Rao (2015) ir Lamb et al. (2015) ) ir yra santykinai stabilūs laikui bėgant. Tokiu atveju keitimo rezultatas bus gerokai mažesnis, padidins statistikos testavimo galingumą. Viena iš priežasčių, kodėl šis metodas nėra dažniau naudojamas, yra tas, kad prieš skaitmeninį amžių nebuvo įprasta, kad gydymo rezultatai būtų gauti prieš gydymą. Konkretus būdas tai apmąstyti - įsivaizduoti eksperimentą, skirtą nustatyti, ar dėl konkretaus elgesio įpročio būdingas svorio mažėjimas. Jei taikysite metodą "skirtumas tarp priemonių", jūsų įvertis turės kintamumą, kylantį dėl gyventojų svorio kintamumo. Tačiau, jei atliksite skirtumą tarp skirtingų požiūrį, natūraliai pasitaikantis svorių svyravimas bus pašalintas ir jūs galite lengviau nustatyti skirtumą, kurį sukelia gydymas.
Galiausiai, aš maniau pridėti ketvirtą R: "repurpose". Tai reiškia, kad jei mokslininkai sugeba gauti daugiau eksperimentinių duomenų nei jie turi atsakyti į savo pradinį tyrimo klausimą, jie turėtų pertvarkyti duomenis ir užduoti naujus klausimus. Pavyzdžiui, įsivaizduokite, kad Kramer ir jo kolegos naudojo skirtingų skirtumų skaičiavimo priemonę ir sugebėjo rasti daugiau duomenų, nei jie turėjo, kad išspręstų savo tyrimo klausimą. Užuot naudodamasis duomenimis kiek įmanoma, jie galėjo ištirti šio poveikio dydį kaip emocinės išraiškos prieš gydymą funkciją. Kaip Schultz et al. (2007) Nustatyta, kad gydymo poveikis lengviems ir sunkiems vartotojams skiriasi, galbūt naujienų kanalo poveikis buvo skirtingas tiems žmonėms, kurie jau stengiasi skelbti laimingus (arba liūdnus) pranešimus. "Repurposing" gali paskatinti "žvejoti" (Humphreys, Sierra, and Windt 2013) ir "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , Tačiau daugiausia jie gali būti susiję su sąžiningu ataskaitų teikimu (Simmons, Nelson, and Simonsohn 2011) , Išankstinė registracija (Humphreys, Sierra, and Windt 2013) ir mašinų mokymosi metodai, kuriais siekiama išvengti pernelyg didelio montavimo.