Această secțiune este proiectat pentru a fi utilizat ca referință, mai degrabă decât să fie citit ca o narațiune.
Întrebări despre cauzalitate în cercetarea socială sunt adesea complexe și complicate. Pentru o abordare fundamentală a cauzalitate bazată pe grafice cauzale, vezi Pearl (2009) , precum și pentru o abordare bazată pe rezultatele fundamentale potențiale, a se vedea Imbens and Rubin (2015) (și apendicele tehnic din acest capitol). Pentru o comparație între aceste două abordări, a se vedea Morgan and Winship (2014) . Pentru o abordare formală în definirea unei confounder, a se vedea VanderWeele and Shpitser (2013) .
În capitolul, am creat ceea ce părea o linie luminoasă între capacitatea noastră de a face estimări cauzale între datele experimentale și non-experiment. În realitate, cred că distincția este blurrier. De exemplu, toata lumea accepta ca fumatul cauzeaza cancer, chiar daca nu am mai facut un experiment randomizat, controlat, care forteaza oamenii sa fumeze. Pentru excelent tratamente carte lungime care face estimări cauzale din datele de bază non-experimentale vezi Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , și Dunning (2012) .
Capitolele 1 și 2 din Freedman, Pisani, and Purves (2007) oferă o introducere clară în diferențele dintre experimente, experimente controlate, randomizate și experimente controlate.
Manzi (2012) oferă o introducere fascinanta si care poate fi citit în bazele filosofice și statistice ale experimentelor randomizate controlate. Acesta prevede, de asemenea, exemple interesante din lumea reală a puterii de experimentare în afaceri.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) furnizează introduceri bune la aspectele statistice de proiectare și de analiză experimentală. În plus, există tratamente excelente ale utilizării de experimente în multe domenii diferite: economie (Bardsley et al. 2009) , Sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psihologie (Aronson et al. 1989) , Științe politice (Morton and Williams 2010) , precum și politica socială (Glennerster and Takavarasha 2013) .
Importanța recrutării participantului (de exemplu, prelevarea de probe), este de multe ori sub-apreciat în cercetarea experimentală. Cu toate acestea, în cazul în care efectul tratamentului este eterogen în populație, atunci eșantionarea este critică. Longford (1999) face ca acest punct în mod clar atunci când el pledează pentru cercetători de gândire de experimente ca un studiu de populație cu prelevare de probe întâmplătoare.
Dihotomia pe care l-am prezentat între experimente de laborator și pe teren este un pic simplificat. De fapt, alți cercetători au propus tipologii mai detaliate, în special cele care separa diferitele forme de experimente de teren (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . În plus, există alte două tipuri de experimente efectuate de către oamenii de știință sociale care nu se încadrează perfect în dihotomia de laborator și de pe teren. Experimentele de sondaj și experimente sociale experimente sondajului sunt experimente folosind infrastructura studiilor existente și a compara răspunsurile la versiuni alternative ale aceleaşi întrebări (unele experimente de sondaj sunt prezentate în capitolul 3); pentru mai multe experimente de anchetă a se vedea Mutz (2011) . Experimentele sociale sunt experimente în cazul în care tratamentul este unele politică socială , care poate fi pusă în aplicare doar de către un guvern. Experimentele sociale sunt strâns legate de programul de evaluare. Pentru mai multe detalii despre experimente politice, a se vedea Orr (1998) , Glennerster and Takavarasha (2013) , precum și Heckman and Smith (1995) .
O serie de lucrari au comparat experimente de laborator și pe teren în abstract (Falk and Heckman 2009; Cialdini 2009) , precum și în ceea ce privește rezultatele unor experimente specifice în științe politice (Coppock and Green 2015) , economie (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) și psihologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) oferă un design de cercetare frumos pentru a compara rezultatele de la experimente de laborator și de teren.
Preocupările legate de participanții la schimbarea comportamentului lor , deoarece ei știu că sunt observate îndeaproape sunt numite uneori efecte ale cererii, iar acestea au fost studiate în psihologia (Orne 1962) și economie (Zizzo 2009) . Cu toate că cea mai mare parte asociate cu experimente de laborator, aceste aceleași probleme pot cauza probleme pentru experimente de teren, de asemenea. De fapt, efectele cererii sunt , de asemenea , numite uneori efecte Hawthorne, un termen care provine dintr - un experiment pe teren, în special celebrele experimente de iluminare , care a început în 1924 la lucrările Hawthorne ale Western Electric Company (Adair 1984; Levitt and List 2011) . Ambele efecte ale cererii și efectele păducel sunt strâns legate de ideea de măsurare reactive discutate în capitolul 2 ( a se vedea , de asemenea , Webb et al. (1966) , Webb et al. (1966) ).
Istoria experimentelor pe teren a fost descrisă în economie (Levitt and List 2009) , științe politice (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologie (Shadish 2002) , și ordinea publică (Shadish and Cook 2009) a (Shadish and Cook 2009) . Unul dintre domeniile științei sociale în cazul în care experimentele pe teren a devenit rapid proeminent este dezvoltarea internațională. Pentru o revizuire pozitivă a acestei activități în economie vezi Banerjee and Duflo (2009) , precum și pentru o evaluare critică a se vedea Deaton (2010) . Pentru o trecere în revistă a acestei lucrări în științe politice vezi Humphreys and Weinstein (2009) . În cele din urmă, provocările etice implicate cu experimente de teren au fost explorate în științe politice (Humphreys 2015; Desposato 2016b) și economia de dezvoltare (Baele 2013) .
În capitolul, am sugerat că informațiile de pre-tratament poate fi utilizat pentru a îmbunătăți precizia de efectele estimate ale tratamentului, dar există unele dezbateri cu privire la această abordare: Freedman (2008) , Lin (2013) , și Berk et al. (2013) ; vezi Bloniarz et al. (2016) pentru mai multe informații.
Am ales să se concentreze pe trei concepte: validitatea, eterogenitatea efectelor tratamentului și a mecanismelor. Aceste concepte au denumiri diferite în diferite domenii. De exemplu, psihologii tind să se mute dincolo de experimente simple , concentrându - se pe mediatori și moderatori (Baron and Kenny 1986) . Ideea de mediatori este capturat de ceea ce eu numesc mecanisme, iar ideea de moderatori este capturat de ceea ce eu numesc validitate externă (de exemplu, s-ar rezultatele experimentului fi diferit în cazul în care acesta a fost rulat în diferite situații) și eterogenității efectelor tratamentului ( de exemplu, sunt efectele mai mari pentru unii oameni decat alte persoane).
Experimentul lui Schultz et al. (2007) arată modul în care teoriile sociale pot fi folosite pentru a proiecta interventii eficiente. Pentru un argument mai general despre rolul teoriei în proiectarea intervențiilor eficiente, a se vedea Walton (2014) .
Conceptele de validitate internă și externă au fost introduse pentru prima dată în Campbell (1957) . A se vedea Shadish, Cook, and Campbell (2001) , pentru o istorie mai detaliată și o elaborare atentă a validității încheierii statistice, validitatea internă, validitatea de construct și validitate externă.
Pentru o trecere în revistă a aspectelor legate de validitatea statistică concluzie în experimente a se vedea Gerber and Green (2012) (pentru o perspectivă de știință socială) și Imbens and Rubin (2015) (pentru o perspectivă statistică). Anumite aspecte legate de validitate concluzia statistice care apar în mod specific în experimente de teren online includ aspecte , cum ar fi metode de calcul eficiente pentru crearea de intervale de încredere cu date dependente (Bakshy and Eckles 2013) .
validitatea internă poate fi dificil să se asigure în experimente complexe de teren. A se vedea, de exemplu, Gerber and Green (2000) , Imai (2005) , și Gerber and Green (2005) pentru dezbateri cu privire la punerea în aplicare a unui experiment domeniu complex cu privire la vot. Kohavi et al. (2012) și Kohavi et al. (2013) furnizează o introducere în provocările de valabilitate intervalului în experimente de teren on - line.
O preocupare majoră cu validitatea internă este probleme cu randomizare. O modalitate de a detecta potential probleme cu randomizare este de a compara tratament și control al grupurilor pe trasaturi observabile. Acest tip de comparație se numește un control de echilibru. A se vedea , Hansen and Bowers (2008) pentru o abordare statistică pentru a echilibra controalele și a se vedea Mutz and Pemantle (2015) pentru preocupările legate de controalele de echilibru. De exemplu, folosind un sold verifica Allcott (2011) a constatat că există unele dovezi că randomizare nu a fost pus în aplicare în mod corect în trei experimente în unele dintre experimente OPower ( a se vedea tabelul 2, site - uri de 2, 6 și 8). Pentru alte abordari, a se vedea Imbens and Rubin (2015) , capitolul 21.
Alte motive de îngrijorare majore legate de validitatea internă sunt: 1) unilateral nerespectarea, în cazul în care nu toți cei din grupul de tratament au primit efectiv tratament, 2) cu două fețe care nu respectă, în cazul în care nu toți cei din grupul de tratament primește tratament și unele oamenii din grupul de control primesc tratament, 3) uzură, în cazul în care rezultatele nu sunt măsurate pentru unii participanți, și 4) interferență, în cazul în care tratamentul se revarsa peste de la oameni în starea de tratament pentru persoanele în stare de control. A se vedea , Gerber and Green (2012) Capitolele 5, 6, 7 și 8 pentru mai mult pe fiecare dintre aceste probleme.
Pentru mai multe detalii cu privire la validitatea de construct, vezi Westen and Rosenthal (2003) , iar pentru mai multe despre validitatea de construct din surse mari de date, Lazer (2015) și capitolul 2 al acestei cărți.
Un aspect de valabilitate extern este setarea în cazul în care se testează o intervenție. Allcott (2015) prevede un tratament teoretic și empiric atent de părtinire selecție site - ului. Această problemă este discutată și în Deaton (2010) . În plus față de a fi reprodus în multe site - uri, intervenția Acasă Energy Report a fost studiat în mod independent de către grupuri de cercetare multiple ( de exemplu, Ayres, Raseman, and Shih (2013) ).
Pentru o privire de ansamblu excelentă de eterogenitate a efectelor tratamentului în experimente de teren, a se vedea capitolul 12 din Gerber and Green (2012) . Pentru introduceri eterogenității efectelor tratamentului în studiile clinice, a se vedea Kent and Hayward (2007) , Longford (1999) , și Kravitz, Duan, and Braslow (2004) . Heterogenicitatea efectelor tratamentului, în general, să se concentreze asupra diferențelor bazate pe caracteristicile de pre-tratament. În cazul în care sunteți interesat de eterogenitate pe baza rezultatelor post-tratament, apoi approachs mai complexe sunt necesare , cum ar fi de stratificare principală (Frangakis and Rubin 2002) ; vezi Page et al. (2015) pentru o revizuire.
Mulți cercetători estimează eterogenitatea efectelor tratamentului utilizând regresie liniară, dar mai noi metode se bazează pe mașină de învățare, de exemplu , Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , și Athey and Imbens (2016a) .
Există o oarecare scepticism în legătură cu descoperirile de eterogenitate a efectelor , din cauza mai multor probleme de comparație și de "pescuit." Există o varietate de abordări statistice care pot contribui preocupările legate de comparație multiplă (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . O abordare a preocupările legate de "pescuit" este pre-înregistrare, care devine din ce în ce mai frecventă în psihologie (Nosek and Lakens 2014) , științe politice (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) și economie (Olken 2015) .
In studiul de Costa and Kahn (2013) , doar aproximativ jumătate din gospodăriile din experiment au putut fi legate de informațiile demografice. Cititorii interesați de detaliile și posibilele probleme cu această analiză ar trebui să se refere la hârtia originală.
Mecanisme sunt incredibil de importante, dar ele se dovedesc a fi foarte greu de studiat. De cercetare cu privire la mecanismele strâns legate de studiul mediatorilor în psihologie (dar , de asemenea , a se vedea VanderWeele (2009) , pentru o comparație precisă între cele două idei). Abordări statistice la mecanismele de constatare, cum ar fi abordarea dezvoltată în Baron and Kenny (1986) , sunt destul de comune. Din păcate, se pare că aceste proceduri depind de anumite ipoteze puternice (Bullock, Green, and Ha 2010) și suferă atunci când există mecanisme multiple, așa cum s-ar putea aștepta în multe situații (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) și Imai and Yamamoto (2013) oferă unele metode statistice îmbunătățite. În plus, VanderWeele (2015) oferă un tratament de carte lungime , cu o serie de rezultate importante, inclusiv o abordare cuprinzătoare a analizei de sensibilitate.
O abordare separată se concentrează pe experimente care încearcă să manipuleze mecanismul direct (de exemplu, oferind marinari vitamina C). Din păcate, în multe setări științelor sociale există adesea mecanisme multiple și este greu de a proiecta tratamente care schimba una, fără a schimba celelalte. Unele abordări experimental mecanisme sunt descrise în alterează Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , și Pirlott and MacKinnon (2016) .
În cele din urmă, mecanismele au , de asemenea , o lungă istorie în filosofia științei așa cum s-a descris de către Hedström and Ylikoski (2010) .
Pentru mai multe detalii privind utilizarea studiilor de corespondență și a studiilor de audit pentru a măsura discriminarea vezi Pager (2007) .
Cel mai comun mod de a recruta participanți la experimente pe care le construi este Amazon Mechanical Turk (MTurk). Pentru că MTurk imita aspecte ale experimentelor de plată tradiționale de laborator oameni pentru a finaliza sarcinile pe care nu le-ar face pentru cercetători liberi, mulți au început deja folosind Turkers (muncitorii de pe MTurk), în calitate de participanți la experimentele de subiecții umani care rezultă în colectarea de date mai rapid și mai ieftin decât tradiționale on-campus experimente de laborator (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Cea mai mare puterea de experimente cu participanții recrutați din MTurk sunt logistice: acestea permit cercetătorilor să recruteze participanți rapid și după cum este necesar. Întrucât experimente de laborator poate dura săptămâni pentru a rula și experimente de teren poate dura luni de zile pentru a stabili-up, experimente cu participanții recrutați din MTurk pot fi rulate în zile. De exemplu, Berinsky, Huber, and Lenz (2012) au fost în măsură să recruteze 400 de subiecți într - o singură zi , pentru a participa la un experiment 8 minute. În plus, acești participanți pot fi recrutați pentru aproape orice scop (inclusiv prin sondaje și colaborarea în masă, așa cum sa discutat în capitolele 3 și 5). Această ușurință de recrutare inseamna ca cercetatorii pot rula secvențe de experimente legate într-o succesiune rapidă.
Înainte de a recruta participanți din MTurk pentru propriile experimente, există patru lucruri importante de știut. În primul rând, mulți cercetători au un scepticism non-specifice de experimente care implică Turkers. Pentru că acest scepticism nu este specific, este greu să contracareze cu dovezi. Cu toate acestea, după mai mulți ani de studii folosind Turkers, putem concluziona acum că acest scepticism nu este necesar mai ales. Au existat mai multe studii care au comparat datele demografice ale Turkers la alte populatii si in mai multe studii care compară rezultatele experimentelor cu Turkers la rezultatele de la alte populații. Având în vedere toate aceste lucrări, cred că cea mai bună cale pentru tine de a gândi despre el este că Turkers sunt un eșantion de confort rezonabil, la fel ca și elevii , dar puțin mai diversă (Berinsky, Huber, and Lenz 2012) . Astfel, la fel ca și elevii sunt o populatie rezonabila pentru unii, dar nu toate activitățile de cercetare experimentală, Turkers sunt o populatie rezonabila pentru unii, dar nu toate activitatile de cercetare. Dacă aveți de gând să lucreze cu Turkers, atunci are sens să citească multe dintre aceste studii comparative și să înțeleagă nuanțele lor.
În al doilea rând, cercetătorii s- au dezvoltat cele mai bune practici pentru creșterea validității interne a experimentelor Turk, și ar trebui să învețe despre și să urmeze aceste cele mai bune practici (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . De exemplu, cercetătorii care utilizează Turkers sunt încurajați să utilizeze ciururi pentru a elimina participanții neatent (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (dar , vezi , de asemenea , DJ Hauser and Schwarz (2015b) și DJ Hauser and Schwarz (2015a) ). În cazul în care nu eliminați participanții neatent, atunci orice efect al tratamentului poate fi spălat de zgomotul introdus de participanți neatent, iar în practică numărul de participanți neatent pot fi substanțiale. În experimentul Huber și colegii (2012) aproximativ 30% dintre participanți nu a reușit ciururi atenție de bază. O altă problemă comună cu Turkers este participanții non-naivi (Chandler et al. 2015) , (Chandler et al. 2015) .
În al treilea rând, în raport cu alte forme de experimente digitale, experimente MTurk nu pot scala; Stewart et al. (2015) estimează că , în orice moment dat există doar aproximativ 7.000 de oameni de pe MTurk.
În cele din urmă, ar trebui să știi că MTurk este o comunitate cu propriile reguli și norme (Mason and Suri 2012) . În același mod în care s- ar încerca să afle despre cultura unei țări în care ați fost de gând să desfășurați experimente, ar trebui să încercați să aflați mai multe despre cultura si normele Turkers (Salehi et al. 2015) . Și ar trebui să știi că Turkers va fi vorba despre experimentul dumneavoastră dacă faci ceva nepotrivit sau lipsit de etica (Gray et al. 2016) , (Gray et al. 2016) .
MTurk este un mod incredibil de convenabil de a recruta participanți la experimentele dvs., indiferent dacă acestea sunt de laborator cum ar fi, cum ar fi Huber, Hill, and Lenz (2012) , sau mai mult teren cum ar fi, cum ar fi Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , și Mao et al. (2016) .
Dacă sunteți de gândire de a încerca să creeze propriul produs, vă recomandăm să citiți sfaturile oferite de grupul MovieLens în Harper and Konstan (2015) . O perspectiva cheie din experiența lor este că, pentru fiecare proiect de succes sunt multe, multe eșecuri. De exemplu, grupul MovieLens lansat alte produse , cum ar fi GopherAnswers care au fost eșecuri complet (Harper and Konstan 2015) . Un alt exemplu de un cercetător în lipsa în timp ce încerca să construiască un produs este încercarea lui Edward Castronova de a construi un joc online numit Arden. In ciuda 250.000 $ in finantarea, proiectul a fost un flop (Baker 2008) . Proiecte precum GopherAnswers si Arden sunt, din păcate, mult mai frecvente decât proiecte precum MovieLens. În cele din urmă, atunci când am spus că nu am știut de orice alți cercetători care au construit cu succes produse pentru experimente repetate aici sunt criteriile mele: 1) participanții folosesc produsul din cauza a ceea ce le oferă (de exemplu, ele nu sunt plătite și nu sunt voluntari ajutând știință) și 2), produsul a fost folosit pentru mai mult de un experiment distincte (adică, nu același experiment de mai multe ori cu diferite piscine participante). Dacă știți de alte exemple, vă rugăm să-mi spuneți.
Am auzit ideea Quadrant lui Pasteur au discutat în mod frecvent la companiile tech, și ajută la organizarea tuturor eforturilor de cercetare de la Google (Spector, Norvig, and Petrov 2012) .
Bond si colegii de studiu " (2012) , de asemenea , încearcă să detecteze efectul acestor tratamente asupra prietenilor celor care le -au primit. Datorită designului experimentului, aceste externalități sunt dificil de detectat curat; cititorii interesați ar trebui să vadă Bond et al. (2012) pentru o discuție mai aprofundată. Acest experiment face parte dintr - o lungă tradiție de experimente în științe politice cu privire la eforturile de a încuraja votarea (Green and Gerber 2015) . Aceste experimente get-out-the-vot oamenii sunt comune în parte, deoarece acestea sunt în Quadrant lui Pasteur. Asta este, există mulți oameni care sunt motivați să crească de vot și de vot poate fi un comportament interesant pentru a testa teorii mai generale cu privire la schimbarea comportamentului și influența socială.
Alți cercetători au oferit consiliere cu privire la desfășurarea unor experimente de teren cu organizațiile partenere , cum ar fi partidele politice, ONG - uri și companii (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Alții au oferit sfaturi cu privire la modul în care parteneriatele cu organizațiile pot avea un impact modele de cercetare (Green, Calfano, and Aronow 2014; King et al. 2007) . Parteneriatul poate duce , de asemenea , la chestiuni etice (Humphreys 2015; Nickerson and Hyde 2016) .
Dacă aveți de gând creați un plan de analiză înainte de a rula experimentul, vă sugerez să începeți prin citirea orientărilor de raportare. Consort (consolidat Raportare standard de încercări) orientări au fost elaborate în medicină (Schulz et al. 2010) și modificate pentru cercetare socială (Mayo-Wilson et al. 2013) , (Mayo-Wilson et al. 2013) . Un set relevant de orientări a fost dezvoltat de către editorii Journal of Experimental Științe Politice (Gerber et al. 2014) , Mutz and Pemantle (2015) Gerber et al. (2015) (Gerber et al. 2014) ( a se vedea , de asemenea , Mutz and Pemantle (2015) și Gerber et al. (2015) , Gerber et al. (2015) ). În cele din urmă, liniile directoare de raportare au fost elaborate în psihologie (Group 2008) , și a se vedea , de asemenea , Simmons, Nelson, and Simonsohn (2011) .
În cazul în care creați un plan de analiză ar trebui să ia în considerare înregistrarea prealabilă pentru că pre-înregistrare va crește încrederea pe care alții au în rezultate. În plus, dacă lucrați cu un partener, acesta va limita capacitatea partenerului de a schimba analiza după ce a văzut rezultatele. Înregistrarea prealabilă devine din ce în ce mai frecventă în psihologie (Nosek and Lakens 2014) , științe politice (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , și economie (Olken 2015) .
În timp ce crearea planului de pre-analiză ar trebui să fie conștienți de faptul că unii cercetători folosesc , de asemenea , de regresie și abordări conexe pentru a îmbunătăți precizia efectului tratamentului estimat, și există unele dezbateri cu privire la această abordare: Freedman (2008) , Lin (2013) , și Berk et al. (2013) ; vezi Bloniarz et al. (2016) pentru mai multe informații.
Sfaturi de design special pentru experimente de teren on - line este , de asemenea , prezentate în Konstan and Chen (2007) și Chen and Konstan (2015) .
Pentru mai multe detalii despre experimentele MusicLab, a se vedea Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , și Salganik (2007) . Pentru mai multe detalii despre câștigătorul ia toate piețele, a se vedea Frank and Cook (1996) , Frank and Cook (1996) . Pentru mai multe detalii despre noroc descurcarea și îndemânare mai general, a se vedea Mauboussin (2012) , Watts (2012) , și Frank (2016) .
Există o altă abordare pentru eliminarea plăților participanților care cercetătorii ar trebui să utilizeze cu precauție: serviciul militar obligatoriu. În multe experimente de teren on-line participanții sunt practic elaborate în experimente și niciodată compensate. Exemple ale acestei abordări includ Restivo și van de Rijt a lui (2012) experimentul pe recompense în Wikipedia și Bond și colegul lui (2012) experiment privind încurajarea oamenilor să voteze. Aceste experimente nu au cu adevărat costuri variabile la zero, acestea au costuri variabile zero la cercetători. Chiar dacă costul multora dintre aceste experimente este extrem de mic pentru fiecare participant, costuri mici, a impus un număr enorm de participanți se pot adăuga până rapid. Cercetatorii au ruleaza experimente on-line masive justifica de multe ori importanța efectelor mici estimate ale tratamentului prin a spune că aceste mici efecte pot deveni importante atunci când sunt aplicate mai multe persoane. Exact aceeasi gandire se aplica costurilor pe care cercetătorii le impun participanților. În cazul în care experimentele cauzează un milion de oameni la deșeuri de un minut, experimentul nu este foarte dăunător pentru orice persoană anume, dar în total s-a irosit aproape doi ani de timp.
O altă abordare pentru crearea de zero de plată a costurilor variabile participanților este de a utiliza o loterie, o abordare care a fost , de asemenea , utilizat în cercetarea anchetă (Halpern et al. 2011) , (Halpern et al. 2011) . În cele din urmă, pentru mai multe despre proiectarea placuta de utilizator-experiențe vezi Toomim et al. (2011) .
Aici sunt definițiile originale ale celor trei R, de la Russell and Burch (1959) :
"Înlocuire înseamnă schimbarea pentru conștient animalele vii mai mari de material insentient. Reducere ce înseamnă o reducere a numărului de animale utilizate pentru a obține informații dintr-o anumită sumă și precizie. Rafinament înseamnă orice scădere a incidenței sau severității procedurilor inumane aplicate acelor animale care urmează încă să fie folosite. "
Cei trei R pe care o propun nu prevalează asupra principiilor etice descrise în Capitolul 6. Mai degrabă, ele sunt o versiune mai elaborată una dintre aceste principii-beneficiență-specific pentru stabilirea experimentelor umane.
Atunci când se analizează Contagion emoțională, există trei probleme de bază non-etice pentru a păstra în minte atunci când interpretează acest experiment. În primul rând, nu este clar modul în care detaliile reale ale experimentului conecta la revendicările teoretice; cu alte cuvinte, există întrebări cu privire la validitatea de construct. Nu este clar faptul că pozitive și negative cuvânt contează sunt de fapt un bun indicator al stării emoționale a participanților, deoarece 1) nu este clar că cuvintele pe care oamenii le postează sunt un bun indicator al emoțiilor și 2), nu este clar faptul că tehnica de analiză a sentimentului special pe care cercetatorii folosit este capabil de a deduce în mod fiabil emoțiile (Beasley and Mason 2015; Panger 2016) . Cu alte cuvinte, ar putea exista o măsură proastă a unui semnal părtinitoare. În al doilea rând, proiectarea și analiza experimentului ne spune nimic despre cine a fost cel mai afectat (de exemplu, nu există nici o analiză eterogenității efectelor tratamentului) și ceea ce ar putea fi mecanismul. In acest caz, cercetatorii au avut o mulțime de informații despre participanți, dar au fost tratați în mod esențial ca widget-uri în analiză. În al treilea rând, mărimea efectului în acest experiment a fost foarte mic; diferența dintre tratament și condițiile de control este de aproximativ 1 din 1000 de cuvinte. In lucrarea lor, Kramer si colegii face cazul in care un efect de această dimensiune este important, deoarece sute de milioane de oameni a avea acces la News feed în fiecare zi. Cu alte cuvinte, ei susțin că chiar și efecte, care sunt mici pentru fiecare persoana pe care sunt mari în total. Chiar dacă ar fi să accepte acest argument, nu este încă clar dacă un efect de această dimensiune este importantă în ceea ce privește întrebarea științifică mai generală despre contagiune emoțională. Pentru mai multe detalii cu privire la situațiile în care mici efecte sunt importante se vedea Prentice and Miller (1992) .
În ceea ce privește prima R (înlocuire), care a comparat emoțională Contagion experiment (Kramer, Guillory, and Hancock 2014) și experiment natural de contagiune emoțională (Coviello et al. 2014) oferă câteva lecții generale despre compromisurile implicate cu trecerea de la experimente pentru experimente naturale (și alte abordări, cum ar fi de potrivire, care încearcă să aproximeze experimente în datele de bază non-experimentale, a se vedea capitolul 2). În plus față de beneficiile etice, trecerea de la studii experimentale la bază non-experimentale de asemenea, permite cercetatorilor sa studieze tratamente pe care sunt în imposibilitatea de a implementa logistic. Aceste beneficii etice și logistice vin la un cost, cu toate acestea. Cu experimente naturale cercetătorii au mai puțin control asupra lucrurilor, cum ar fi recrutarea participanților, randomizare, precum și natura tratamentului. De exemplu, o limitare a precipitațiilor ca un tratament este că atât crește și scade pozitivitatea negativitate. In cadrul studiului experimental, cu toate acestea, Kramer si colegii sai au fost capabili să se adapteze pozitivitatea și negativitatea în mod independent.
Abordarea particulară utilizată de Coviello et al. (2014) a fost elaborată în continuare în Coviello, Fowler, and Franceschetti (2014) . Pentru o introducere variabilelor instrumentale vezi Angrist and Pischke (2009) (mai puțin formal) sau Angrist, Imbens, and Rubin (1996) (mai formal). Pentru o evaluare sceptic a variabilelor instrumentale a se vedea Deaton (2010) , precum și pentru o introducere a variabilelor instrumentale cu instrumente slabe (ploaie este un instrument slab), a se vedea Murray (2006) .
Mai mult , în general, o bună introducere în experimente naturale este Dunning (2012) , și Rosenbaum (2002) , Rosenbaum (2009) , și Shadish, Cook, and Campbell (2001) oferă idei bune cu privire la estimarea efectelor cauzale fără experimente.
În ceea ce privește al doilea R (Rafinament), există compromisuri științifice și logistice atunci când se analizează schimbarea proiectului Contagiunea emoțională de la blocarea posturilor la stimularea posturi. De exemplu, acesta poate fi cazul în care punerea în aplicare tehnică a News Feed o face este în mod substanțial mai ușor de a face un experiment cu blocare posturi, mai degrabă decât un experiment cu stimularea mesajelor (rețineți că un experiment cu blocarea posturilor ar putea fi puse în aplicare ca strat partea de sus a sistemului News feed, fără a fi nevoie de modificări ale sistemului de bază). Punct de vedere științific, cu toate acestea, teoria abordată de experiment nu sugerează în mod clar un desen asupra celuilalt.
Din păcate, eu nu sunt conștient de cercetări prealabile substanțiale cu privire la avantajele relative de blocare și creșterea conținutului în News Feed. De asemenea, nu am văzut multe cercetări cu privire la rafinare tratamente pentru a le face mai puțin nocive; o singură excepție este Jones and Feamster (2015) , care consideră cazul măsurării cenzurii pe Internet (un subiect am discuta în capitolul 6 în relație cu studiul Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
În ceea ce privește al treilea R (reducere), o bună introducere în analiza puterii tradiționale este Cohen (1988) . covariabilelor pre-tratament poate fi inclusă în etapa de proiectare și etapa de analiză a experimentelor; Capitolul 4 din Gerber and Green (2012) oferă o bună introducere pentru ambele abordări, și Casella (2008) prevede un tratament mai în profunzime. Tehnicile care utilizează aceste informații de pre-tratament în randomizare sunt numite în mod obișnuit, fie blocate modele experimentale sau modele experimentale stratificat (terminologia nu este utilizată în mod coerent în comunități); aceste tehnici sunt profund legate de tehnicile de prelevare a probelor stratificate discutate în capitolul 3. A se vedea Higgins, Sävje, and Sekhon (2016) pentru mai multe despre utilizarea acestor modele în experimente masive. Covariabilele de pre-tratament poate fi , de asemenea , incluse în etapa de analiză. McKenzie (2012) explorează abordarea diferenței-in-diferente la analiza experimentelor pe teren în mai multe detalii. A se vedea Carneiro, Lee, and Wilhelm (2016) pentru mai multe despre compromisurile între diferite abordări pentru a crește precizia în estimări ale efectelor tratamentului. În cele din urmă, atunci când se decide dacă să încerce să includă covariabilele de pre-tratament în faza de proiectare sau de analiză (sau ambele), există câțiva factori de luat în considerare. Într - un cadru în care cercetătorii doresc să demonstreze că acestea nu sunt "pescuit" (Humphreys, Sierra, and Windt 2013) , folosind covariabilele de pre-tratament în faza de proiectare poate fi de ajutor (Higgins, Sävje, and Sekhon 2016) . În situațiile în care participanții sosesc pe rând, experimente de teren în special on - line, folosind informațiile de pre-tratare în etapa de proiectare ar putea fi dificil de vedere logistic, a se vedea , de exemplu , Xie and Aurisset (2016) .
Este demn de a adăuga un pic de intuitie despre ce diferenta-in-diferente pot fi atât de mult mai eficient decât diferența în-mijloace. Multe rezultate online au variație foarte mare ( a se vedea de exemplu, Lewis and Rao (2015) și de Lamb et al. (2015) , Lamb et al. (2015) ) și sunt relativ stabile în timp. În acest caz, scorul schimbare va avea în mod substanțial mai mică variație, creșterea puterii testului statistic. Unul dintre motivele pentru acest lucru sa apropiat, nu este folosit mai des este faptul că, înainte de vârsta digitală nu era obișnuit să aibă rezultate de pre-tratament. Un mod mai concret să se gândească la ea este să ne imaginăm un experiment pentru a masura daca un anumit exercitiu de rutina cauzeaza pierderea in greutate. Dacă veți face o abordare diferenta-in-mijloace, estimarea va avea variabilitate care vine din variabilitatea greutăți în populație. Dacă veți face o abordare diferenta-in-diferență, cu toate acestea, faptul că variația în mod natural în greutăți se îndepărtează și puteți detecta mai ușor o diferență cauzată de tratament.
O modalitate de important să se reducă numărul participanților la experiment este de a efectua o analiză de putere, pe care Kramer si colegii sai ar fi putut face pe baza dimensiunile efectul observat din experiment natural de Coviello et al. (2014) sau mai devreme de cercetare non-experimentale de Kramer (2012) (de fapt , acestea sunt activități la sfârșitul acestui capitol). Observați că această utilizare a analizei de putere este un pic diferit de cel tipic. In varsta analogic, cercetatorii in general, a făcut o analiză de putere pentru a se asigura că studiul lor nu a fost prea mic (de exemplu, sub-alimentat). Acum, cu toate acestea, cercetătorii ar trebui să facă o analiză de putere pentru a se asigura că studiul lor nu este prea mare (de exemplu, supra-alimentat).
În cele din urmă, am considerat adăugarea unui al patrulea R: repurpose. Aceasta este, în cazul în care cercetătorii se găsesc cu mai multe date experimentale decât au nevoie pentru a aborda întrebarea lor de cercetare originale, acestea ar trebui să reutilizați datele de a pune noi întrebări. De exemplu, imaginați-vă că Kramer si colegii sai au folosit un estimator diferenta-in-diferente si s-au văzut cu mai multe date decât au fost necesare pentru a aborda întrebarea lor de cercetare. Mai degrabă decât a nu utiliza datele în cea mai mare măsură, acestea ar putea fi studiat mărimea efectului ca o funcție de pre-tratament de exprimare emoțională. La fel ca și Schultz et al. (2007) , a constatat că efectul tratamentului a fost diferit pentru utilizatori ușoare și grele, probabil , efectele News Feed au fost diferite pentru cei care au avut tendinta deja pentru a posta fericit (sau trist) mesaje. Repurposing ar putea duce la "pescuit" (Humphreys, Sierra, and Windt 2013) și "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , dar acestea sunt adresabile în mare măsură , cu o combinație de raportare onest (Simmons, Nelson, and Simonsohn 2011) , de pre-înregistrare (Humphreys, Sierra, and Windt 2013) , precum și metode de învățare automată , care încearcă să evite supra-montaj.