Întrebările despre cauzalitate în cercetarea socială sunt adesea complexe și complicate. Pentru o abordare fundamentală a cauzalității pe baza grafurilor cauzale, a se vedea Pearl (2009) și pentru o abordare fundamentală bazată pe rezultate potențiale, a se vedea Imbens and Rubin (2015) . Pentru o comparație între aceste două abordări, a se vedea Morgan and Winship (2014) . Pentru o abordare formală a definirii unui VanderWeele and Shpitser (2013) , a se vedea VanderWeele and Shpitser (2013) .
În acest capitol, am creat ceea ce părea o linie luminată între capacitatea noastră de a face estimări cauzale din date experimentale și non-experimentale. Cu toate acestea, cred că, în realitate, distincția este mai încețoșată. De exemplu, toată lumea acceptă faptul că fumatul provoacă cancer, chiar dacă nu a fost vreodată efectuat niciun experiment controlat randomizat, care îi forțează pe oameni să fumeze. Pentru excelente tratamente de carte-lungime pe elaborarea unor estimări cauzale de date non-experimentale vezi Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , și Dunning (2012) .
Capitolele 1 și 2 ale lui Freedman, Pisani, and Purves (2007) oferă o introducere clară a diferențelor dintre experimente, experimente controlate și experimente controlate în mod aleatoriu.
Manzi (2012) oferă o introducere fascinantă și lizibilă la baza filozofică și statistică a experimentelor controlate randomizate. De asemenea, oferă exemple interesante din lumea reală a puterii de experimentare în afaceri. Issenberg (2012) oferă o introducere fascinantă în utilizarea experimentelor în campaniile politice.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 și Athey and Imbens (2016b) oferă o bună prezentare a aspectelor statistice ale designului și analizei experimentale. În plus, există tratamente excelente de utilizare a experimentelor în multe domenii diferite: economie (Bardsley et al. 2009) , Sociologie (Willer and Walker 2007; Jackson and Cox 2013) , psihologie (Aronson et al. 1989) , Științe politice (Morton and Williams 2010) și politica socială (Glennerster and Takavarasha 2013) .
Importanța recrutării participanților (de exemplu, prelevarea de probe) este adesea subapreciată în cercetarea experimentală. Cu toate acestea, dacă efectul tratamentului este eterogen în populație, atunci eșantionarea este critică. Longford (1999) face acest lucru în mod clar atunci când susține cercetătorii care se gândesc la experimente ca un studiu al populației cu eșantionare întâmplătoare.
Am sugerat că există un continuum între experimentele de laborator și cele din teren, iar alți cercetători au propus tipologii mai detaliate, în special cele care separă diferitele forme de experimente pe teren (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) .
Un număr de lucrări au comparat experimentele de laborator și de câmp în abstract (Falk and Heckman 2009; Cialdini 2009) și din punct de vedere al rezultatelor experimentelor specifice în științele politice (Coppock and Green 2015) , economie (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) și psihologie (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) oferă un design frumos de cercetare pentru compararea rezultatelor din laboratoare și experimente în teren. Parigi, Santana, and Cook (2017) descriu modul în care experimentele de teren online pot combina unele dintre caracteristicile experimentelor de laborator și de câmp.
Preocupările legate de schimbarea comportamentului participanților, deoarece știu că sunt respectate îndeaproape, sunt numite uneori efecte ale cererii și au fost studiate în psihologie (Orne 1962) și economie (Zizzo 2010) . Deși în majoritatea cazurilor sunt asociate cu experimente de laborator, aceleași probleme pot provoca probleme și pentru experimentele pe teren. De fapt, efectele cererii sunt uneori numite efecte Hawthorne , un termen care derivă din experimentele celebre de iluminare care au început în 1924 la lucrările Hawthorne ale Companiei Western Electric (Adair 1984; Levitt and List 2011) . Atât efectele cererii, cât și efectele lui Hawthorne sunt strâns legate de ideea de măsurare reactivă discutată în capitolul 2 (vezi și Webb et al. (1966) ).
Experimentele pe teren au o istorie îndelungată în economie (Levitt and List 2009) , știința politică (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psihologia (Shadish 2002) și politica publică (Shadish and Cook 2009) . Un domeniu al științei sociale în care experimentele pe teren a devenit rapid proeminent este dezvoltarea internațională. Pentru o revizuire pozitivă a acelei lucrări în domeniul economic, a se vedea Banerjee and Duflo (2009) , iar pentru o evaluare critică a se vedea Deaton (2010) . Pentru o revizuire a acestei lucrări în domeniul științei politice, a se vedea Humphreys and Weinstein (2009) . În cele din urmă, provocările etice care rezultă din experimentele pe teren au fost explorate în contextul științei politice (Humphreys 2015; Desposato 2016b) și economia dezvoltării (Baele 2013) .
În această secțiune, am sugerat că informațiile de pre-tratament pot fi utilizate pentru a îmbunătăți precizia efectelor estimate ale tratamentului, dar există o dezbatere despre această abordare; vezi Freedman (2008) , W. Lin (2013) , Berk et al. (2013) și Bloniarz et al. (2016) pentru mai multe informații.
În cele din urmă, există și alte două tipuri de experimente realizate de oamenii de știință socială care nu se potrivesc cu atenție de-a lungul dimensiunii câmpului de laborator: experimente anchete și experimente sociale. Studiile experimentale sunt experimente care utilizează infrastructura anchetelor existente și compară răspunsurile la versiuni alternative ale acelorași întrebări (unele experimente de sondaj sunt prezentate în Capitolul 3); pentru mai multe experimente privind sondajul, a se vedea Mutz (2011) . Experimentele sociale sunt experimente în care tratamentul este o politică socială care poate fi pusă în aplicare numai de un guvern. Experimentele sociale sunt strâns legate de evaluarea programului. Pentru mai multe despre experimentele de politică, a se vedea Heckman and Smith (1995) , Orr (1998) și @ glennerster_running_2013.
Am ales să mă concentrez pe trei concepte: validitatea, eterogenitatea efectelor tratamentului și mecanismele. Aceste concepte au nume diferite în diferite domenii. De exemplu, psihologii tind să treacă dincolo de experimente simple, concentrându-se pe mediatori și moderatori (Baron and Kenny 1986) . Ideea mediatorilor este captată de ceea ce eu numesc mecanisme, iar ideea de moderatori este capturată de ceea ce eu numesc valabilitate externă (de exemplu, rezultatele experimentului ar fi diferite dacă s-ar desfășura în situații diferite) și eterogenitatea efectelor tratamentului ( de exemplu, efectele sunt mai mari pentru unele persoane decât pentru altele).
Experimentul lui Schultz et al. (2007) arată cum pot fi folosite teorii sociale pentru a proiecta intervenții eficiente. Pentru un argument mai general referitor la rolul teoriei în proiectarea intervențiilor eficiente, a se vedea Walton (2014) .
Conceptele valabilității interne și externe au fost introduse pentru prima dată de Campbell (1957) . Vezi Shadish, Cook, and Campbell (2001) pentru o istorie mai detaliată și o elaborare atentă a valabilității concluziei statistice, a valabilității interne, a validității construirii și a validității externe.
Pentru o privire de ansamblu asupra problemelor legate de valabilitatea concluziilor statistice în experimente, consultați Gerber and Green (2012) (din perspectiva socială) și Imbens and Rubin (2015) (dintr-o perspectivă statistică). Unele probleme legate de valabilitatea concluziilor statistice care apar în mod specific în experimentele de teren online includ aspecte precum metode eficiente din punct de vedere computațional pentru crearea intervalelor de încredere cu date dependente (Bakshy and Eckles 2013) .
Valabilitatea internă poate fi dificil de asigurat în experimente de teren complexe. A se vedea, de exemplu, Gerber and Green (2000) , Imai (2005) și Gerber and Green (2005) pentru dezbaterea despre implementarea unui experiment complex în câmp privind votarea. Kohavi et al. (2012) și Kohavi et al. (2013) oferă o introducere în provocările valabilității intervalului în experimentele de teren online.
O amenințare majoră la adresa valabilității interne este posibilitatea unei randomizări eșuate. O modalitate potențială de a detecta problemele cu randomizarea este compararea grupurilor de tratament și de control cu trăsăturile observabile. Acest tip de comparație se numește verificarea echilibrului . Vezi Hansen and Bowers (2008) pentru o abordare statistică a echilibrului controalelor și Mutz and Pemantle (2015) pentru preocupările legate de verificarea echilibrului. De exemplu, folosind un control al echilibrului, Allcott (2011) constatat dovezi că randomizarea nu a fost implementată corect în trei dintre experimentele Opower (vezi tabelul 2, paginile 2, 6 și 8). Pentru alte abordări, a se vedea capitolul 21 din Imbens and Rubin (2015) .
Alte preocupări majore legate de validitatea internă sunt: (1) neconformitatea unilaterală, în cazul în care nu toată lumea din grupul tratat a primit efectiv tratamentul, (2) neconformitate față-verso, unde nu toată lumea din grupul de tratament primește tratamentul și unii oameni grupul de control primește tratamentul, (3) uzura, unde rezultatele nu sunt măsurate pentru unii participanți și (4) interferența, în care tratamentul se revarsă de la persoanele aflate în starea de tratament la persoanele aflate în starea de control. Vedeți capitolele 5, 6, 7 și 8 ale lui Gerber and Green (2012) pentru mai multe despre fiecare dintre aceste probleme.
Pentru mai multe despre valabilitatea constructului, a se vedea Westen and Rosenthal (2003) , și pentru mai multe despre construirea valabilității în mari surse de date, Lazer (2015) și capitolul 2 al acestei cărți.
Un aspect al valabilității externe este setarea în care se testează o intervenție. Allcott (2015) oferă un tratament atent teoretic și empiric al selecției site-ului. Această problemă este de asemenea discutată de Deaton (2010) . Un alt aspect al validității externe este dacă operațiunile alternative ale aceleiași intervenții vor avea efecte similare. În acest caz, o comparație între Schultz et al. (2007) și Allcott (2011) arată că experimentele Opower au avut un efect mai redus decât cel experimentat inițial de Schultz și colegi (1,7% față de 5%). Allcott (2011) speculat că experimentele de urmărire au avut un efect mai mic din cauza modului în care tratamentul diferă: un emoticon scris în manuscris, ca parte a unui studiu sponsorizat de o universitate, în comparație cu un emoticon tipărit ca parte a unui produs de masă raport de la o companie de electricitate.
Pentru o prezentare excelentă a eterogenității efectelor tratamentului în experimentele pe teren, a se vedea capitolul 12 al lui Gerber and Green (2012) . Pentru introducerea eterogenității efectelor tratamentului în studiile medicale, a se vedea Kent and Hayward (2007) , Longford (1999) și Kravitz, Duan, and Braslow (2004) . Considerațiile privind eterogenitatea efectelor tratamentului se concentrează, în general, pe diferențele bazate pe caracteristicile pre-tratament. Dacă sunteți interesat de eterogenitate pe baza rezultatelor post-tratament, atunci sunt necesare abordări mai complexe, cum ar fi stratificarea principală (Frangakis and Rubin 2002) ; vezi Page et al. (2015) pentru o examinare.
Mulți cercetători estimează eterogenitatea efectelor tratamentului folosind regresia liniară, însă metodele mai noi se bazează pe învățarea în mașină; a se vedea, de exemplu, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , și Athey and Imbens (2016a) .
Există o serie de abordări statistice care pot contribui la abordarea preocupărilor legate de comparații multiple (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . O abordare a preocupărilor legate de pescuit este preînregistrarea, care devine din ce în ce mai frecventă în psihologie (Nosek and Lakens 2014) , știința politică (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , și economie (Olken 2015) .
În studiul realizat de Costa and Kahn (2013) doar aproximativ jumătate din gospodăriile experimentate ar putea fi legate de informațiile demografice. Cititorii interesați de aceste detalii trebuie să se refere la articolul original.
Mecanismele sunt incredibil de importante, dar se dovedesc a fi foarte greu de studiat. Cercetarea despre mecanisme este strâns legată de studiul mediatorilor în psihologie (dar, de asemenea, vezi VanderWeele (2009) pentru o comparație exactă între cele două idei). Abordările statistice privind găsirea unor mecanisme, cum ar fi abordarea dezvoltată de Baron and Kenny (1986) , sunt destul de frecvente. Din păcate, aceste proceduri depind de anumite ipoteze puternice (Bullock, Green, and Ha 2010) și suferă atunci când există mai multe mecanisme, cum se poate aștepta în multe situații (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) și Imai and Yamamoto (2013) oferă câteva metode statistice îmbunătățite. Mai mult, VanderWeele (2015) oferă un tratament de lungă durată cu o serie de rezultate importante, inclusiv o abordare cuprinzătoare a analizei sensibilității.
O abordare separată se concentrează pe experimente care încearcă să manipuleze direct mecanismul (de exemplu, oferind marinarilor vitamina C). Din nefericire, în multe domenii ale științei sociale, există deseori mecanisme multiple și este dificil să se proiecteze tratamente care schimbă una fără a schimba celelalte. Unele abordări ale mecanismelor de modificare experimentală sunt descrise de Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) și Pirlott and MacKinnon (2016) .
Cercetătorii care rulează experimente pe deplin factoriale vor trebui să fie preocupați de testarea mai multor ipoteze; vezi Fink, McConnell, and Vollmer (2014) și List, Shaikh, and Xu (2016) pentru mai multe informații.
În cele din urmă, mecanismele au, de asemenea, o lungă istorie în filosofia științei descrisă de Hedström and Ylikoski (2010) .
Pentru mai multe informații despre utilizarea studiilor de corespondență și a studiilor de audit pentru a măsura discriminarea, a se vedea Pager (2007) .
Cea mai obișnuită modalitate de a recruta participanții la experimente pe care le construiți este Amazon Mechanical Turk (MTurk). Deoarece MTurk mimează aspecte ale experimentelor tradiționale de laborator - plătiți oamenilor pentru a îndeplini sarcini pe care nu le-ar face gratuit - mulți cercetători au început deja să folosească Turkmenii (muncitorii de pe MTurk) ca participanți experimentali, rezultând o colectare mai rapidă și mai ieftină a datelor decât se poate obține în experimentele tradiționale de laborator din campus (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
În general, cele mai mari avantaje ale utilizării participanților recrutați din MTurk sunt logistice. În timp ce experimentele de laborator pot dura săptămâni pentru a alerga și experimentele pe teren pot dura luni de zile, experimentele cu participanții recrutați din MTurk pot fi executate în zile. De exemplu, Berinsky, Huber, and Lenz (2012) au reușit să recruteze 400 de subiecți într-o singură zi pentru a participa la un experiment de 8 minute. Mai mult, acești participanți pot fi recrutați pentru aproape orice scop (inclusiv anchete și colaborare în masă, așa cum sa discutat în capitolele 3 și 5). Această ușurință de recrutare înseamnă că cercetătorii pot executa secvențe de experimente conexe în succesiune rapidă.
Înainte de a recruta participanți din MTurk pentru propriile experimente, există patru lucruri importante pe care trebuie să le cunoașteți. În primul rând, mulți cercetători au un scepticism nespecific al experimentelor care implică turcii. Deoarece acest scepticism nu este specific, este greu de contracarat cu dovezile. Cu toate acestea, după câțiva ani de studii care utilizează turcii, putem concluziona acum că acest scepticism nu este în mod special justificat. Au fost multe studii care au comparat demografia turcilor cu cele ale altor populații și numeroase studii care au comparat rezultatele experimentelor cu turcii cu cei din alte populații. Având în vedere toate aceste lucruri, cred că cel mai bun mod de a vă gândi este că turcii sunt un eșantion de confort rezonabil, la fel ca studenții, dar puțin mai diversi (Berinsky, Huber, and Lenz 2012) . Astfel, așa cum elevii sunt o populație rezonabilă pentru unii, dar nu toți, cercetarea, Turkmenii sunt o populație rezonabilă pentru unii, dar nu toți, cercetători. Dacă intenționați să lucrați cu turcii, atunci este logic să citiți multe dintre aceste studii comparative și să înțelegeți nuanțele lor.
În al doilea rând, cercetătorii au dezvoltat cele mai bune practici pentru creșterea valabilității interne a experimentelor MTurk și ar trebui să învățați și să urmați aceste cele mai bune practici (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . De exemplu, cercetătorii care folosesc turcii sunt încurajați să utilizeze cerneluri pentru a elimina participanții (Berinsky, Margolis, and Sances 2014, 2016) (dar, de asemenea, consultați DJ Hauser and Schwarz (2015b) și DJ Hauser and Schwarz (2015a) ). Dacă nu eliminați participanții inactivi, atunci orice efect al tratamentului poate fi eliminat de zgomotul pe care îl introduc și, în practică, numărul de participanți inateni poate fi substanțial. În experimentul realizat de Huber și colegii săi (2012) , aproximativ 30% dintre participanți nu au reușit să curețe atenția de bază. Alte probleme care apar frecvent atunci când se folosesc turcii sunt participanții non-naivi (Chandler et al. 2015) și uzura (Zhou and Fishbach 2016) .
În al treilea rând, relativ la alte forme de experimente digitale, experimentele MTurk nu pot să scadă; Stewart et al. (2015) estimează că la un moment dat există aproximativ 7000 de persoane pe MTurk.
În cele din urmă, trebuie să știți că MTurk este o comunitate cu propriile norme și norme (Mason and Suri 2012) . În același mod în care ați încerca să aflați despre cultura unei țări în care urmați să vă desfășurați experimentele, ar trebui să încercați să aflați mai multe despre cultura și normele turcilor (Salehi et al. 2015) . Și trebuie să știți că turcii vor vorbi despre experimentul dvs. dacă faceți ceva nepotrivit sau neetic (Gray et al. 2016) .
MTurk este un mod incredibil de convenabil de a recruta participanții la experimentele dvs., indiferent dacă sunt de laborator, cum ar fi Huber, Hill, and Lenz (2012) sau mai multe forme de teren, cum ar fi cele ale lui Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , și Mao et al. (2016) .
Dacă vă gândiți să încercați să vă creați propriul produs, vă recomandăm să citiți sfaturile oferite de grupul MovieLens din Harper and Konstan (2015) . O insight-cheie din experiența lor este că pentru fiecare proiect de succes există multe, multe eșecuri. De exemplu, grupul MovieLens a lansat alte produse, cum ar fi GopherAnswers, care au fost eșecuri complete (Harper and Konstan 2015) . Un alt exemplu de eșec al unui cercetător în încercarea de a construi un produs este încercarea lui Edward Castronova de a construi un joc online numit Arden. În ciuda finanțării de 250.000 de dolari, proiectul a fost un flop (Baker 2008) . Proiectele precum GopherAnswers și Arden sunt, din păcate, mult mai frecvente decât proiectele precum MovieLens.
Am auzit ideea că Quadrantul lui Pasteur a discutat frecvent la companii de tehnologie și ajută la organizarea eforturilor de cercetare la Google (Spector, Norvig, and Petrov 2012) .
Studiul lui Bond și al colegilor (2012) încearcă, de asemenea, să detecteze efectul acestor tratamente asupra prietenilor celor care le-au primit. Datorită designului experimentului, aceste difuzări sunt dificil de detectat cu desăvârșire; cititorii interesați ar trebui să-l vadă pe Bond et al. (2012) pentru o discuție mai aprofundată. Jones și colegii (2017) au efectuat, de asemenea, un experiment foarte similar în timpul alegerilor din 2012. Aceste experimente fac parte dintr-o lungă tradiție a experimentelor în științele politice privind eforturile de încurajare a votului (Green and Gerber 2015) . Aceste experimente out-the-vot sunt comune, parțial pentru că sunt în Quadrantul lui Pasteur. Adică, există mulți oameni care sunt motivați să crească votul și votul poate fi un comportament interesant pentru a testa teorii mai generale despre schimbarea comportamentului și influența socială.
Pentru sfaturi privind desfășurarea de experimente pe teren cu organizații partenere, cum ar fi partidele politice, ONG-urile și întreprinderile, consultați Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) și Gueron (2002) . Pentru gânduri despre modul în care parteneriatele cu organizațiile pot influența modelele de cercetare, a se vedea King et al. (2007) și Green, Calfano, and Aronow (2014) . Parteneriatul poate duce, de asemenea, la întrebări etice, după cum au discutat Humphreys (2015) și Nickerson and Hyde (2016) .
Dacă intenționați să creați un plan de analiză înainte de a începe experimentul, vă sugerăm să începeți prin citirea indicațiilor de raportare. În cadrul medicinei (Schulz et al. 2010) și modificate pentru cercetarea socială (Mayo-Wilson et al. 2013) s-au dezvoltat ghidurile CONSORT (Raportarea Standardelor Consolidate Standard (Mayo-Wilson et al. 2013) . Un set de linii directoare a fost elaborat de editorii Jurnalului de Științe Politice Experimentale (Gerber et al. 2014) (vezi, de asemenea, Mutz and Pemantle (2015) și Gerber et al. (2015) ). În cele din urmă, au fost elaborate linii directoare de raportare în domeniul psihologiei (APA Working Group 2008) și vezi și Simmons, Nelson, and Simonsohn (2011) .
Dacă creați un plan de analiză, ar trebui să luați în considerare înregistrarea prealabilă, deoarece preînregistrarea va crește încrederea pe care o au ceilalți în rezultatele dvs. Mai mult, dacă lucrați cu un partener, acesta va limita capacitatea partenerului de a modifica analiza după ce a văzut rezultatele. Pre-înregistrarea devine din ce în ce mai frecventă în psihologie (Nosek and Lakens 2014) , știința politică (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) și economie (Olken 2015) .
Sfaturile de proiectare specific pentru experimentele pe teren online sunt prezentate și în Konstan and Chen (2007) și Chen and Konstan (2015) .
Ceea ce am numit strategia armatei este uneori numită cercetare programatică ; vezi Wilson, Aronson, and Carlsmith (2010) .
Pentru mai multe despre experimentele MusicLab, vezi Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) și Salganik (2007) . Pentru mai multe informații despre piețele câștigătoare, vezi Frank and Cook (1996) . Pentru mai multe detalii despre un noroc și o abilitate mai generală, consultați Mauboussin (2012) , Watts (2012) și Frank (2016) .
Există o altă modalitate de a elimina plățile participanților pe care cercetătorii ar trebui să le folosească cu prudență: recrutarea. În multe experimente pe teren, participanții sunt în esență pregătiți în experimente și nu au fost niciodată compensați. Exemple ale acestei abordări includ experimentele lui Restivo și van de Rijt (2012) privind recompensele din experimentele Wikipedia și Bond și al colegilor (2012) privind încurajarea votului. Aceste experimente nu au costuri variabile zero - mai degrabă, au un cost variabil zero pentru cercetători . În astfel de experimente, chiar dacă costul fiecărui participant este extrem de mic, costul agregat poate fi destul de mare. Cercetătorii care efectuează experimente masive on-line justifică adesea importanța micilor efecte de tratament estimate, spunând că aceste mici efecte pot deveni importante atunci când sunt aplicate multor persoane. Aceeași gândire se aplică și costurilor pe care cercetătorii le impun participanților. Dacă experimentul dvs. face ca un milion de oameni să piardă un minut, experimentul nu este foarte dăunător pentru o anumită persoană, dar în ansamblu a pierdut aproape doi ani de timp.
O altă metodă de a crea participanților la plata costurilor variabile cu zero este folosirea unei loterii, o abordare care a fost de asemenea utilizată în cercetare (Halpern et al. 2011) . Pentru mai multe informații despre proiectarea unor experiențe plăcute pentru utilizatori, a se vedea Toomim et al. (2011) . Pentru mai multe detalii despre utilizarea botilor pentru a crea experimente zero cu costuri variabile, a se vedea ( ??? ) .
Cele trei R, după cum au fost inițial propuse de Russell and Burch (1959) sunt după cum urmează:
"Înlocuire înseamnă schimbarea pentru conștient animalele vii mai mari de material insentient. Reducere ce înseamnă o reducere a numărului de animale utilizate pentru a obține informații dintr-o anumită sumă și precizie. Rafinament înseamnă orice scădere a incidenței sau severității procedurilor inumane aplicate acelor animale care urmează încă să fie folosite. "
Cele trei R-uri pe care le propun nu contravin principiilor etice descrise în capitolul 6. Mai degrabă, ele sunt o versiune mai elaborată, unul dintre acele principii - beneficiu - în mod special în stabilirea experimentelor umane.
În ceea ce privește primul R ("înlocuire"), compararea experimentului de contagiune emoțională (Kramer, Guillory, and Hancock 2014) și experimentul natural de contagiune emoțională (Lorenzo Coviello et al. 2014) oferă câteva lecții generale despre compromisurile implicate în trecerea de la experimente la experimente naturale (și alte abordări cum ar fi potrivirea care încearcă să aproximeze experimentele în date non-experimentale, vezi capitolul 2). Pe lângă beneficiile etice, trecerea de la studii experimentale la studii non-experimentale permite cercetătorilor să studieze tratamente pe care nu le pot implementa din punct de vedere logistic. Cu toate acestea, aceste beneficii etice și logistice sunt costate. Cu ajutorul experimentelor naturale, cercetătorii au un control mai redus asupra lucrurilor cum ar fi recrutarea participanților, randomizarea și natura tratamentului. De exemplu, o limitare a precipitațiilor ca tratament este aceea că atât crește pozitivitatea, cât și diminuează negativitatea. În studiul experimental, cu toate acestea, Kramer și colegii au putut să ajusteze independent pozitivitatea și negativitatea. Abordarea particulară folosită de Lorenzo Coviello et al. (2014) fost elaborat în continuare de către L. Coviello, Fowler, and Franceschetti (2014) . Pentru o introducere la variabilele instrumentale, care este abordarea utilizată de Lorenzo Coviello et al. (2014) , vezi Angrist and Pischke (2009) (mai puțin formale) sau Angrist, Imbens, and Rubin (1996) (mai formale). Pentru o apreciere sceptică a variabilelor instrumentale, a se vedea Deaton (2010) și pentru o introducere la variabilele instrumentale cu instrumente slabe (ploaia este un instrument slab), vezi Murray (2006) . Mai general, o bună introducere în experimente naturale este dată de Dunning (2012) , în timp ce Rosenbaum (2002) , ( ??? ) , și Shadish, Cook, and Campbell (2001) ofera idei bune cu privire la estimarea efectelor cauzale fără experimente.
În ceea ce privește a doua R ("rafinament"), există schimburi științifice și logistice atunci când se ia în considerare schimbarea designului contacției emoționale de la blocarea posturilor la posturile de stimulare. De exemplu, este posibil ca implementarea tehnică a fluxului de știri să facă în mod substanțial mai ușor efectuarea unui experiment în care postările sunt blocate, mai degrabă decât una în care acestea sunt amplificate (rețineți că un experiment care implică blocarea posturilor ar putea fi implementat ca strat pe partea de sus a sistemului Feed News, fără a fi nevoie de modificări ale sistemului de bază). Din punct de vedere științific, totuși, teoria abordată de experiment nu a sugerat în mod clar un design față de celălalt. Din păcate, nu sunt conștient de o cercetare substanțială în prealabil cu privire la meritele relative ale blocării și creșterii conținutului în feedul de știri. De asemenea, nu am văzut multe cercetări despre tratamentele de rafinare pentru a le face mai puțin dăunătoare; o singură excepție este B. Jones and Feamster (2015) , care ia în considerare cazul măsurării cenzurii internetului (un subiect discutat în capitolul 6 în legătură cu studiul Encore (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).
În ceea ce privește a treia R ("reducere"), introduceri bune la analiza puterii tradiționale sunt date de Cohen (1988) (book) și Cohen (1992) ), în timp ce Gelman and Carlin (2014) oferă o perspectivă ușor diferită. Chestiunile pre-tratament pot fi incluse în etapa de proiectare și analiză a experimentelor; capitolul 4 al lui Gerber and Green (2012) oferă o bună prezentare a ambelor abordări, iar Casella (2008) oferă un tratament mai profund. Tehnicile care utilizează aceste informații de pre-tratament în cadrul alegerii sunt denumite în mod obișnuit desene sau modele blocate experimentale sau desene experimentale stratificate (terminologia nu este utilizată în mod constant în cadrul comunităților); aceste tehnici sunt strâns legate de tehnicile de eșantionare stratificată discutate în capitolul 3. Vezi Higgins, Sävje, and Sekhon (2016) pentru mai multe despre utilizarea acestor modele în experimente masive. Chestiunile pre-tratament pot fi, de asemenea, incluse în etapa de analiză. McKenzie (2012) explorează abordarea diferenței diferențiale în analiza experimentelor pe teren în detaliu. A se vedea Carneiro, Lee, and Wilhelm (2016) pentru mai multe despre compromisurile între diferitele abordări pentru a crește precizia estimărilor efectelor tratamentului. În cele din urmă, atunci când decideți dacă să încercați să includeți covariate înainte de tratament la etapa de proiectare sau analiză (sau ambele), există câțiva factori care trebuie luați în considerare. Într-un cadru unde cercetătorii doresc să demonstreze că nu sunt " (Humphreys, Sierra, and Windt 2013) " (Humphreys, Sierra, and Windt 2013) , folosirea covariatelor de pre-tratament în etapa de proiectare poate fi de ajutor (Higgins, Sävje, and Sekhon 2016) . În situațiile în care participanții sosesc secvențial, în special experimentele pe teren online, utilizarea informațiilor de pre-tratament în etapa de proiectare poate fi dificilă din punct de vedere logistic; a se vedea, de exemplu, Xie and Aurisset (2016) .
Merită adăugat un pic de intuiție despre motivul pentru care abordarea diferenței diferențiale poate fi atât de mult mai eficientă decât o abordare diferențiată. Multe rezultate on-line au variante foarte mari (vezi, de exemplu, RA Lewis and Rao (2015) și Lamb et al. (2015) ) și sunt relativ stabile în timp. În acest caz, scorul de schimbare va avea variații substanțial mai mici, crescând puterea testului statistic. Unul dintre motivele pentru care această abordare nu este folosit mai des este faptul că înainte de vârsta digitală nu a fost obișnuit să existe rezultate pre-tratament. Un mod mai concret de a vă gândi la acest lucru este să vă imaginați un experiment care să măsoare dacă o rutină specifică de exerciții determină scăderea în greutate. Dacă adoptați o abordare a diferenței în medii, estimarea dvs. va avea variabilitate care rezultă din variabilitatea ponderii populației. Dacă faceți o abordare diferențială în diferențe, totuși, această variație naturală a greutăților este eliminată și puteți detecta mai ușor o diferență cauzată de tratament.
În cele din urmă, am considerat adăugarea unui al patrulea R: "repurpose". Adică, dacă cercetătorii se găsesc cu mai multe date experimentale decât trebuie să se adreseze întrebării lor inițiale de cercetare, ar trebui să reorienteze datele pentru a pune noi întrebări. De exemplu, imaginați-vă că Kramer și colegii lui au folosit un estimator de diferențe în diferențe și s-au găsit cu mai multe date decât au fost necesare pentru a-și adresa întrebarea de cercetare. În loc să nu utilizeze datele în cea mai mare măsură, ar fi putut studia dimensiunea efectului ca o funcție a expresiei emoționale pre-tratament. La fel ca Schultz et al. (2007) constatat că efectul tratamentului a fost diferit pentru utilizatorii ușor și grei, probabil că efectele News Feed erau diferite pentru persoanele care au avut deja tendința de a posta mesaje fericite (sau trist). Reprogramarea ar putea conduce la "pescuit" (Humphreys, Sierra, and Windt 2013) și "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , dar acestea se (Simmons, Nelson, and Simonsohn 2011) mare parte unei combinații de raportare onestă (Simmons, Nelson, and Simonsohn 2011) , preînregistrarea (Humphreys, Sierra, and Windt 2013) și metodele de învățare mecanică care încearcă să evite suprasolicitarea.