fierder kommentaar

Dizze paragraaf is ûntwurpen om brûkt wurde as in ferwizing, earder as om te lêzen as in ferhaal.

  • Ynlieding (paragraaf 4.1)

Fragen oer kausaliteit yn sosjale ûndersyk binne faak kompleks en yngewikkelde. Foar in foundational oanpak fan kausaliteit basearre op kausale grafiken, sjoch Pearl (2009) , en foar in foundational oanpak basearre op potinsjele útkomsten, sjoch Imbens and Rubin (2015) (en de technyske taheakke yn dit haadstik). Foar in ferliking tusken dizze beide wegen, sjoch Morgan and Winship (2014) . Foar in formele oanpak te bepalen in fari- abele, sjoch VanderWeele and Shpitser (2013) .

Yn it haadstik, ik makke wat like as in heldere line tusken ús fermogen om kausale rûzings fan eksperimintele en net-eksperimint gegevens. Yn werklikheid, ik tink dat it ûnderskied is blurrier. Bygelyks, elkenien akseptearret dat smoken feroarsaket kanker ek al hawwe wy nea dien in willekeurich kontrolearren eksperimint dat twingt minsken te smoke. Foar poerbêst boek lingte behannelingen op meitsjen kausale skattingen út net-eksperimintele gegevens sjogge Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , en Dunning (2012) .

Haadstikken 1 en 2 fan Freedman, Pisani, and Purves (2007) biede in dúdlike ynlieding yn de ferskillen tusken eksperiminten, regele eksperiminten, en willekeurich regele eksperiminten.

Manzi (2012) jout in boeiende en lêsber ynfiering yn de filosofyske en statistyske underpinnings fan willekeurich regele eksperiminten. Ek fersoarget nijsgjirrige real-wrâld foarbylden fan 'e macht fan eksperimintearjen yn it bedriuwslibben.

  • Wat binne eksperiminten? (Paragraaf 4.2)

Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) biede goede ynliedingen ta it statistyske aspekten fan eksperimintele ûntwerp en analyze. Fierder, binne der poerbêst behannelings fan it brûken fan de eksperiminten yn in soad ferskillende fjilden: ekonomy (Bardsley et al. 2009) , sosjology (Willer and Walker 2007; Jackson and Cox 2013) , psychology (Aronson et al. 1989) , politike wittenskippen (Morton and Williams 2010) , en sosjaal belied (Glennerster and Takavarasha 2013) .

It belang fan participant oanlûken (bygelyks, sampling) is faak ûnder-wurdearre yn eksperimentele ûndersyk. Lykwols, as de wurking fan de behanneling is heterogene yn 'e befolking, dan sampling is kritysk. Longford (1999) makket dat punt dúdlik doe't er pleitet foar ûndersikers tinke fan eksperiminten as in befolking ûndersyk mei haphazard sampling.

  • Twa diminsjes fan eksperiminten: lab-fjild en analoge-digitale (paragraaf 4.3)

De twadieling dat ik presintearre tusken lab en fjild eksperiminten is in bytsje ferienfâldige. Yndie, oare ûndersikers hawwe útsteld mear detaillearre typologies, benammen bern dy't skiede de ferskate foarmen fan fjild eksperiminten (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) . Fierder, binne der twa oare typen fan eksperiminten útfierd troch sosjale wittenskippers dy't net passe kreas yn it lab en fjild twadieling: survey eksperiminten en sosjale eksperiminten. Survey eksperiminten wurde eksperiminten mei help fan de ynfrastruktuer fan de besteande ûndersiken en ferlykje reaksjes nei alternative ferzjes fan de deselde fragen (guon enkête eksperiminten wurde presintearre yn haadstik 3); foar mear op ûndersyk eksperiminten sjen Mutz (2011) . Sosjale eksperiminten binne eksperiminten dêr't de behanneling is wat sosjaal belied dat kin allinnich wurde útfierd troch in oerheid. Sosjale eksperiminten binne nau besibbe oan programmearje evaluaasje. Foar mear op belied eksperiminten, sjoch Orr (1998) , Glennerster and Takavarasha (2013) , en Heckman and Smith (1995) .

In oantal fan papieren hawwe fergelike lab en fjild eksperiminten yn it abstrakte (Falk and Heckman 2009; Cialdini 2009) en op it mêd fan útkomsten fan spesifike eksperiminten yn politikology (Coppock and Green 2015) , ekonomy (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) en psychology (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) biedt in moaie ûndersyk ûntwerp foar fergelykjen resultaten fan lab en fjild eksperiminten.

Soargen oer dielnimmers feroarjen harren gedrach, omdat se witte se wurde nau observearre wurde soms neamd fraach effekten, en hja hawwe studearre yn psychology (Orne 1962) en ekonomy (Zizzo 2009) . Hoewol't meast ferbûn mei lab eksperiminten, dy deselde saken kin problemen foar fjild eksperiminten as goed. Yndie, fraach effekten wurde ek soms neamd Hawthorne effekten, in term dy't ôflaat fan in fjild eksperimint, spesifyk de ferneamde ferljochting eksperiminten dy't begûn yn 1924 by it Hawthorne Works fan de Western Electric Company (Adair 1984; Levitt and List 2011) . Sawol fraach effekten en Hawthorn effekten binne nau besibbe oan it idee fan reaktive mjitting besprutsen yn Haadstik 2 (sjoch ek Webb et al. (1966) ).

De skiednis fan fjild eksperiminten is beskreaun yn ekonomy (Levitt and List 2009) , politikology (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psychology (Shadish 2002) , en iepenbiere belied (Shadish and Cook 2009) . Ien gebiet fan sosjale wittenskip dêr't fjild eksperiminten gau waard foaroansteande is ynternasjonale ûntwikkeling. Foar in positive resinsje fan dat wurk binnen ekonomy sjogge Banerjee and Duflo (2009) , en foar in krityske beoardieling sjogge Deaton (2010) . Foar in resinsje fan dit wurk yn politikology sjen Humphreys and Weinstein (2009) . Ta beslút, it etyske útdagings belutsen mei fjild eksperiminten binne ferkend yn politikology (Humphreys 2015; Desposato 2016b) en ûntwikkeling ekonomy (Baele 2013) .

Yn it haadstik, ik suggerearre dat pre-behanneling ynformaasje kin brûkt wurde om te ferbetterjen de krektens fan rûsd behanneling effekten, mar der is wat diskusje oer dizze oanpak: Freedman (2008) , Lin (2013) , en Berk et al. (2013) ; sjoch Bloniarz et al. (2016) foar mear ynformaasje.

  • Moving oarekant ienfâldige eksperiminten (paragraaf 4.4)

Ik haw keazen te rjochtsjen op trije begripen: jildichheid, heterogeneity fan behanneling effekten, en meganismen. Dy begripen hawwe ferskillende nammen yn ferskillende fjilden. Bygelyks, psychologen oanstriid om te bewegen boppe ienfâldige eksperiminten troch yn te setten op mediators en moderators (Baron and Kenny 1986) . It idee fan de mediators wurdt finzen nommen troch wat ik neame meganismen, en it idee fan de Masters wurdt finzen nommen troch wat ik neam eksterne jildichheid (bygelyks, soe de resultaten fan it eksperimint wêze oars as it wie rinne yn ferskillende situaasjes) en heterogeneity fan behanneling effekten ( bygelyks, binne de gefolgen grutter foar guon minsken as oare minsken).

It eksperimint fan Schultz et al. (2007) lit sjen hoe't sosjale teoryen kinne brûkt wurde om te ûntwerpen effektive yntervinsjes. Foar in mear algemiene argumint oer de rol fan de teory yn it ûntwerpen effektyf yntervinsjes, sjoch Walton (2014) .

  • Jildichheid (paragraaf 4.4.1)

De begripen fan ynterne en eksterne jildichheid waarden earst ynfierd yn Campbell (1957) . Sjoch Shadish, Cook, and Campbell (2001) foar in mear detaillearre skiednis en in soarchfâldige útwurking fan statistyske konklúzje jildichheid, ynterne jildichheid, bouwen jildichheid, en eksterne jildichheid.

Foar in oersjoch fan saken yn ferbân mei statistyske konklúzje jildichheid yn eksperiminten sjen Gerber and Green (2012) (foar in sosjale wittenskip perspektyf) en Imbens and Rubin (2015) (foar in statistyske perspektyf). Guon saken fan statistyske konklúzje jildichheid dy't ûntsteane spesifyk yn online fjild eksperiminten binne saken lykas computationally effisjinte metoaden foar it meitsjen fan fertrouwen yntervallen mei ôfhinklik gegevens (Bakshy and Eckles 2013) .

Ynterne jildichheid kin wêze dreech te garandearjen yn komplekse fjild eksperiminten. Sjoch, bygelyks, Gerber and Green (2000) , Imai (2005) , en Gerber and Green (2005) foar debat oer de útfiering fan in kompleks fjild eksperimint oer stimming. Kohavi et al. (2012) en Kohavi et al. (2013) jouwe in ynlieding yn de útdagings fan ynterval jildichheid yn online fjild eksperiminten.

Ien grutte soarch mei ynterne jildichheid is problemen mei randomization. Ien manier om potinsjeel detect problemen mei de randomization is te ferlykjen de behanneling en kontrôle groepen op waarnimbere trekken. Dit soarte fan fergeliking hjit in balâns kontrôle. Sjoch Hansen and Bowers (2008) foar in statistyske oanpak te dragen kontrôles, en sjoch Mutz and Pemantle (2015) foar soargen oer lykwicht kontrolearret. Bygelyks, mei help fan in balâns check Allcott (2011) fûn dat der wat oanwizings dat de randomization waard net útfierd goed yn trije fan 'e eksperiminten yn guon fan de OPower eksperiminten (sjoch Tabel 2; sites 2, 6, en 8). Foar oare oanpakken, sjoch Imbens and Rubin (2015) , haadstik 21.

Oare grutte soargen yn ferbân mei ynterne jildichheid binne: 1) ien-sided net-neikommen, dêr't net eltsenien yn 'e behanneling groep eins krige de behanneling, 2) twa sided net-neikommen, dêr't net eltsenien yn' e behanneling groep krijt de behanneling en guon minsken yn 'e kontrôle groep krije de behanneling, 3) attrition, dêr't útkomsten binne net metten foar guon dielnimmers, en 4) ynmingen, dêr't de behanneling spills oer fan minsken yn' e behanneling betingst om minsken yn 'e kontrôle betingst. Sjoch Gerber and Green (2012) haadstikken 5, 6, 7, en 8 foar mear op elk fan dizze saken.

Foar mear op matearje jildichheid, sjoch Westen and Rosenthal (2003) , en foar mear op matearje jildichheid yn grutte gegevens boarnen, Lazer (2015) en haadstik 2 fan dit boek.

Ien aspekt fan eksterne jildichheid is de ynstelling dêr't in yntervinsje is hifke. Allcott (2015) jout in foarsichtich teoretyske en empiryske behanneling fan side seleksje bias. Dy dei wurdt ek besprutsen yn Deaton (2010) . Neist dat replicated yn in protte plakken, de Home Enerzjy Meld tuskenkomst hat ek it ûnôfhinklik bestudearre troch meardere ûndersyk groepen (bygelyks, Ayres, Raseman, and Shih (2013) ).

  • Heterogeneity fan behanneling effekten (paragraaf 4.4.2)

Foar in poerbêst oersjoch fan heterogeneity fan behanneling effekten yn fjild eksperiminten, sjoch haadstik 12 fan Gerber and Green (2012) . Foar ynliedingen ta heterogeneity fan behanneling effekten yn medyske bisikingen, sjoch Kent and Hayward (2007) , Longford (1999) , en Kravitz, Duan, and Braslow (2004) . Heterogeneity fan behanneling effekten algemien rjochtsje op ferskillen basearre op pre-behanneling skaaimerken. As jo binne ynteressearre yn heterogeneity basearre op post-behanneling útkomsten, dan mear komplekse approachs binne nedich lykas principal stratification (Frangakis and Rubin 2002) ; sjoch Page et al. (2015) foar in resinsje.

In protte ûndersikers skatte de heterogeneity fan behanneling effekten mei help fan lineêre regresje, mar nijer metoaden ôfhinklik binne fan machine learen, bygelyks Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , en Athey and Imbens (2016a) .

Der is wat skepsis oer befinings fan heterogeneity fan effekten fanwege meardere ferliking problemen en "fiskerij." Der binne in ferskaat oan statistyske oanpak dat kin helpe adres soargen oer meardere ferliking (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . Ien oanpak mei soargen oer "fiskerij" is pre-registraasje, dat wurdt hieltiten mienskiplike yn psychology (Nosek and Lakens 2014) , politikology (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , en ekonomy (Olken 2015) .

Yn de stúdzje fan Costa and Kahn (2013) mar oer de helte fan de húshâldens yn de eksperimint koenen wurde ferbûn oan de demografyske ynformaasje. Lêzers ynteressearre yn de details en mooglike problemen mei dizze analyze moat ferwize nei it oarspronklike papier.

  • Meganismen (paragraaf 4.4.3)

Meganismen binne ongelooflijk wichtich, mar se blike te wêzen tige lestich te studearjen. Ûndersyk oer meganismen nau besibbe oan 'e stúdzje fan mediators yn psychology (mar sjoch ek VanderWeele (2009) foar in sekuere ferliking tusken de twa ideeën). Statistyske oanpakken te finen meganismen, lykas de oanpak ûntwikkele yn Baron and Kenny (1986) , binne hiel gewoan. Spitigernôch, it blykt dat dy prosedueres ôfhinklik op guon sterke útgongspunten (Bullock, Green, and Ha 2010) en lijen as der meardere meganismen, lykas men ferwachtsje soe yn in soad situaasjes (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) en Imai and Yamamoto (2013) biede wat ferbettere statistyske metoaden. Fierder, VanderWeele (2015) biedt in boek-lingte behanneling mei in oantal wichtige resultaten, ynklusyf in yntegrale oanpak foar gefoelichheid analyze.

In aparte oanpak rjochtet him op eksperiminten dy't besykje om manipulearje de meganisme direkt (bygelyks, jaan silers vitamine C). Spitigernôch, in protte sosjale wittenskip ynstellings binne der faak meardere meganismen en it is dreech om te ûntwerpen behannelings dy't feroarje ien sûnder feroarjen de oaren. Guon oanpakken te bearjendewei feroarjen meganismen binne beskreaun yn Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , en Pirlott and MacKinnon (2016) .

Ta beslút, meganismen ek hawwe in lange skiednis yn 'e filosofy fan de wittenskip, lykas beskreaun troch Hedström and Ylikoski (2010) .

  • Mei help fan besteande omjouwings (paragraaf 4.5.1.1)

Foar mear op it brûken fan korrespondinsje stúdzjes en kontrôle stúdzjes te mjitten diskriminaasje sjogge Pager (2007) .

  • Bou dyn eigen eksperimint (paragraaf 4.5.1.2)

De meast foarkommende manier om te winnen dielnimmers oan eksperiminten dat jo bouwen is Amazon Mechanical Turk (MTurk). Omdat MTurk mimics aspekten fan tradisjonele Lab eksperiminten-beteljen minsken te foltôgjen taken dy't se soe net dwaan fergees-protte ûndersikers hawwe al begûn mei help fan Turkers (de arbeiders op MTurk) as dielnimmers oan minsklike ûnderwerpen eksperiminten as gefolch in flugger en goedkeapere datasammeljen as tradisjonele on-campus laboratoarium eksperiminten (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .

De grutste krêft fan eksperiminten mei dielnimmers rekrutearre út MTurk binne logistike: se tastean ûndersikers te winnen dielnimmers fluch en as nedich. Yn betinken nommen dat Lab eksperiminten kinne nimme wiken te rinne en fjild eksperiminten kinne nimme moannen te set-up, eksperiminten mei dielnimmers rekrutearre út MTurk kin wurde útfierd yn dagen. Bygelyks, Berinsky, Huber, and Lenz (2012) wienen by steat om te winnen 400 ûnderwerpen yn ien dei te dwaan oan in 8 minuten eksperimint. Fierder, dizze dielnimmers kinne wurde rekrutearre foar benei eltse doel (ynklusyf ûndersiken en massa gearwurking, lykas bepraat yn haadstikken 3 en 5). Dit gemak fan werving betsjut dat ûndersikers kinne rinne sekwinsjes fan besibbe eksperiminten yn flugge opfolging.

Foardat ronselje dielnimmers út MTurk foar dyn eigen eksperiminten, der binne fjouwer wichtige dingen te witten. Earst, in protte ûndersikers hawwe in net-spesifike skepsis fan eksperiminten wêrby't Turkers. Omdat dit skepsis is net spesifyk, is it dreech om tsjin mei bewiis. Lykwols, nei in tal jierren fan ûndersiken brûkende Turkers, wy kinne no konkludearje dat dit skepsis is net benammen nedich. Der hawwe al in protte ûndersiken fergelykjen de demografy fan Turkers nei oare populaasjes en in protte ûndersiken fergelykjen resultaten fan eksperiminten mei Turkers nei de resultaten út oare befolkingsgroepen. Jûn al dit wurk, ik tink dat de bêste manier om jo te tinken oer it is dat Turkers binne in ridlik gemak sample, in soad as studinten, mar in bytsje mear diverse (Berinsky, Huber, and Lenz 2012) . Sa, krekt as studinten binne in ridlik befolking foar guon, mar net alle eksperimintele ûndersyk, Turkers binne in reedlike befolking foar guon, mar net alle ûndersyk. As jo ​​geane om te wurkjen mei Turkers, dan makket sin te lêzen in protte fan dizze ferlykjende ûndersiken en begripe harren nuânses.

Twadde, ûndersikers hawwe ûntwikkele best-practices foar tanimmende ynterne jildichheid fan Turk eksperiminten, en jo moatte leare oer en folgje dizze best-practices (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Bygelyks, ûndersikers mei help Turkers wurde stimulearre gebrûk te meitsjen screeners te fuortsmite onoplettend dielnimmers (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (mar sjoch ek DJ Hauser and Schwarz (2015b) en DJ Hauser and Schwarz (2015a) ). As jo ​​net fuortsmite onoplettend dielnimmers, dan gjin effekt fan 'e behanneling kin wurde wosken út troch lûd ynfierd út onoplettend dielnimmers, en yn' e praktyk it tal onoplettend dielnimmers kin wêze substansjeel. Yn it eksperimint fan Huber en kollega (2012) oer 30% fan de dielnimmers is mislearre basale omtinken screeners. In oar probleem mienskiplik mei Turkers is net-naïve dielnimmers (Chandler et al. 2015) .

Tredde, relatyf oan guon oare foarmen fan digitale eksperiminten, MTurk eksperiminten kinne net skaal; Stewart et al. (2015) skat dat op in jûn momint binne der mar sa'n 7.000 minsken op MTurk.

Ta beslút, jo moatte witte dat MTurk is in mienskip mei in eigen regels en noarmen (Mason and Suri 2012) . Yn 'e selde wize dat jo soene besykje te finen út oer de kultuer fan in lân dêr't jo waard der allinnich rinne jo eksperiminten, jo moatte besykje te finen út mear oer de kultuer en noarmen fan Turkers (Salehi et al. 2015) . En, jo moatte witte, dat de Turkers sil prate oer jo eksperimint as jo dwaan wat inappropriate of unethical (Gray et al. 2016) .

MTurk is in ûnfoarstelber handige wize om te winnen dielnimmers oan jo eksperiminten, oft se binne lab-as, lykas Huber, Hill, and Lenz (2012) , of mear field-as, lykas Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , en Mao et al. (2016) .

  • Bou dyn eigen produkt (paragraaf 4.5.1.3)

As jo tinke fan besykje te meitsjen dyn eigen produkt, ik riede, dat jo lêze it advys oanbean troch de MovieLens groep yn Harper and Konstan (2015) . In wichtige ynsjoch út harren ûnderfining is dat foar elk suksesfol projekt binne der in soad, in protte mislearre. Bygelyks, de MovieLens groep lansearre oare produkten lykas GopherAnswers dy't folsleine mislearringen (Harper and Konstan 2015) . In oar foarbyld fan in ûndersiker ferlern by it besykjen om te bouwen fan in produkt is Edward Castronova syn besykjen om te bouwen in online game neamd Arden. Nettsjinsteande $ 250.000 yn finansiering, it projekt wie in flop (Baker 2008) . Projekten lykas GopherAnswers en Arden binne spitigernôch folle mear mienskiplik as projekten lykas MovieLens. Uteinlik, doe't ik sei dat ik net witte fan in oare ûndersikers dat hie súkses boud produkten foar werhelle eksperiminten hjir binne myn kritearia: 1) dielnimmers brûke it produkt, omdat fan wat it jout harren (bygelyks, se wurde net betelle en se binne net frijwilligers helpen wittenskip) en 2) it produkt is brûkt foar mear as ien distinct eksperimint (dat wol sizze, net itselde eksperimint meardere kearen mei ferskillende dielnimmer puollen). As jo ​​witte fan oare foarbylden, lit my witte.

  • Partner mei de machtige (paragraaf 4.5.2)

Ik haw heard de idee fan Pasteur syn Kwadrant besprutsen faak op tech bedriuwen, en dat helpt organisearjen ûndersyk ynspannings op Google (Spector, Norvig, and Petrov 2012) .

Bond en kollega 'stúdzje (2012) ek besykje om spoaren it effekt fan dizze behannelingen op de freonen fan dyjingen dy't krige se. Fanwegen it ûntwerp fan it eksperimint, dizze spillovers binne dreech te detect suvere is; ynteressearre lêzers moatte sjen Bond et al. (2012) foar in mear yngeande diskusje. Dit eksperimint is ûnderdiel fan in lange tradysje fan eksperiminten yn politike wittenskip op ynspannings te stimulearjen stimmen (Green and Gerber 2015) . Dizze get-út-de-stimmen eksperiminten binne mienskiplik foar in part om't se binne yn Pasteur fan Fryslân. Dat is, binne der in protte minsken dy't motivearre te fergrutsjen stimrjocht en fan stimmen kin in nijsgjirrich gedrach te testen mear algemiene teoryen oer gedrach feroarje en sosjale ynfloed.

Oare ûndersikers hawwe jûn advys oer rinnende fjild eksperiminten mei partner organisaasjes lykas politike partijen, NGO, en bedriuwen (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) . Oaren hawwe oanbean advys oer hoe't gearwurkingsferbannen mei organisaasjes kinne effekt ûndersyk ûntwerpen (Green, Calfano, and Aronow 2014; King et al. 2007) . Partnership kin ek liede ta etyske fragen (Humphreys 2015; Nickerson and Hyde 2016) .

  • Design advys (paragraaf 4.6)

As jo ​​geane meitsje in analyze plan foardatst jo eksperimint, ik suggerearje dat jo begjinne troch lêzen rapportear rjochtlinen. It gemaal (Consolidated Standard Reporting fan Trials) rjochtlinen waarden ûntwikkele yn de genêskunde (Schulz et al. 2010) en oanpast foar sosjale ûndersyk (Mayo-Wilson et al. 2013) . In besibbe set fan rjochtlinen is ûntwikkele troch de redaksje fan it Journal of Experimental politikology (Gerber et al. 2014) (sjoch ek Mutz and Pemantle (2015) en Gerber et al. (2015) ). Ta beslút, rapportaazje rjochtlinen binne ûntwikkele yn psychology (Group 2008) , en sjoch ek Simmons, Nelson, and Simonsohn (2011) .

As jo ​​meitsje in analyze plan jo moatte rekken pre-registrearjen it omdat pre-registraasje sil tanimme it fertrouwen dat oaren hawwe yn jo resultaten. Fierder, as jo wurkje mei in partner, dan sil beheine jo partner syn fermogen om te feroarjen de analyze nei sjen de resultaten. Pre-registraasje wurdt hieltiten mienskiplike yn psychology (Nosek and Lakens 2014) , politikology (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , en ekonomy (Olken 2015) .

Wylst it meitsjen fan jo pre-analyse plan jo dan wol rekken dat guon ûndersikers ek brûke regresje en besibbe oanpak te ferbetterjen de krektens fan de rûsd behanneling effekt, en der is wat diskusje oer dizze oanpak: Freedman (2008) , Lin (2013) , en Berk et al. (2013) ; sjoch Bloniarz et al. (2016) foar mear ynformaasje.

Design advys spesifyk foar online fjild eksperiminten wurdt ek presintearre yn Konstan and Chen (2007) en Chen and Konstan (2015) .

  • Create zero fariabele kosten gegevens (paragraaf 4.6.1)

Foar mear op 'e MusicLab eksperiminten, sjoch Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , en Salganik (2007) . Foar mear op winner-take-alle merken, sjoch Frank and Cook (1996) . Foar mear op untangling gelok en feardigens mear algemien, sjoch Mauboussin (2012) , Watts (2012) , en Frank (2016) .

Der is in oare oanpak fan opheffing participant betellingen dat ûndersikers moatte brûke mei foarsichtigens: tsjinstplicht. Yn in protte online fjild eksperiminten dielnimmers binne yn prinsipe opsteld yn eksperiminten en nea kompensearre. Foarbylden fan dizze oanpak binne Restivo en Van de Rijt s (2012) eksperimint op beleannings yn Wikipedia en Bond en kollega 's (2012) eksperimint op stimulearjen minsken om te stimmen. Dy eksperiminten net echt hawwe nul fariabele kosten, se hawwe nul fariabele kosten foar ûndersikers. Ek al de kosten fan in protte fan dizze eksperiminten is ekstreem lyts foar eltse dielnimmer, lytse kosten oplein in enoarme oantal dielnimmers kinne add up fluch. Ûndersikers running massive online eksperiminten faak rjochtfeardigje it belang fan lytse estimated behanneling effekten troch sizzen, dat dizze lytse effekten kinne wurden wichtich as tapast foar in soad minsken. De krekte itselde tinken jildt foar kosten dy't ûndersikers oplizze op dielnimmers. As jo ​​eksperiminten feroarsaket ien miljoen minsken te waste ien minút, it eksperimint is net hiel skealik foar in bepaalde persoan, mar yn aggregate it hat fergriemd hast twa jier tiid.

In oare oanpak te meitsjen nul fariabele kosten betelling oan dielnimmers is te brûken in loterij, in oanpak dy't hat ek al brûkt yn ûndersyk ûndersyk (Halpern et al. 2011) . Ta beslút, foar mear oer it ûntwerpen fan enjoyable brûker-ûnderfiningen sjogge Toomim et al. (2011) .

  • Ferfange, Refine, en Reduceren (paragraaf 4.6.2)

Hjir binne de oarspronklike definysjes fan de trije R, fan Russell and Burch (1959) :

"Replacement betsjut de wikselje foar bewuste libje hegere bisten fan insentient materiaal. Reduksje betsjut fermindering fan de nûmers fan bisten brûkt te krijen ynformaasje fan in jûn bedrach en Präzision. Subtiliteit betsjut in delgong yn it foarkommen of hurdens fan onmenselijke prosedueres tapast oan dy bisten dy't noch te brûkt wurde. "

De trije R fan dat stel ik net oerskriuwe de etyske prinsipes beskreaun yn haadstik 6. Leaver, se binne in mear útwurke ferzje ien fan dy prinsipes-woldie-spesifyk foar de ynstelling fan minsklike eksperiminten.

As sjoen Emotional contagion, binne der trije net-etyske saken te hâlden foar eagen doe't tolken dit eksperimint. Earste, it is net dúdlik hoe't de feitlike gegevens fan it eksperimint ferbining meitsje mei de teoretyske oanspraken; yn oare wurden, binne der fragen oer matearje jildichheid. It is net dúdlik dat de positive en negative wurd greven binne eins in goed yndikator fan de emosjonele steat fan dielnimmers, omdat 1) is it net dúdlik dat de wurden dat minsken post binne in goede yndikator fan harren emoasjes en 2) is it net dúdlik dat de bysûndere fiellen analyze technyk dat de ûndersikers brûkt is by steat om betrouber ôfliede emoasjes (Beasley and Mason 2015; Panger 2016) . Yn oare wurden, der miskien in minne maatregel fan in bias sinjaal. Twadde, it ûntwerp en analyze fan it eksperimint fertelt ús neat oer wa't wie meast beynfloede (dat wol sizze, der is gjin analyze fan heterogeneity fan behanneling effekten) en wat it mechanisme soe wêze. Yn dit gefal, de ûndersikers hienen in protte ynformaasje oer de dielnimmers, mar sy waarden yn wêzen behannele as widgets yn de analyze. Tredde, it effekt grutte yn dit eksperimint wie tige lyts; it ferskil tusken de behanneling en kontrôle betingsten is sa'n 1 yn 1.000 wurden. Yn harren papier, Kramer en kollega meitsje it gefal dat in effekt fan dizze grutte is fan belang omdat hûnderten miljoenen fan minsken tagong ta harren News Feed eltse dei. Yn oare wurden, se stelle dat ek effekten dy't lyts foar eltse persoan hja binne grut yn aggregaat. Sels as jo wiene te akseptearjen dat argumint, it is noch net dúdlik as in effekt fan dizze grutte is wichtich oangeande de mear algemiene wittenskiplike fraach oer emosjonele contagion. Foar mear op de situaasjes dêr't lytse effekten binne fan belang sjogge Prentice and Miller (1992) .

Yn termen fan it earste R (Replacement), fergelykjen de Emotional contagion eksperimint (Kramer, Guillory, and Hancock 2014) en de emosjonele contagion natuerlike eksperimint (Coviello et al. 2014) biedt in tal algemiene lessen oer de hannel-offs belutsen by it ferpleatsen fan eksperiminten mei natuerlike eksperiminten (en oare oanpak lykas oerienkommende dat besykjen om approximate eksperiminten yn net-eksperimintele gegevens, sjoch haadstik 2). Neist de etyske foardielen, skeakele fan eksperimintele nei net-eksperimintele stúdzjes ek stelt ûndersikers te studearjen behannelings dy't se binne logistically net te setten. Dy etyske en logistike foardielen komme by in kosten, lykwols. Mei natuerlike eksperiminten ûndersikers hawwe minder kontrôle oer dingen as werving fan dielnimmers, randomization, en de aard fan 'e behanneling. Bygelyks, ien beheining fan delslach as in behanneling is dat it sawol ferheget positivity en sakket negativity. Yn de eksperimintele stúdzje, lykwols, Kramer en kollega koenen te passen positivity en negativity ûnôfhinklik.

De bysûndere oanpak brûkt troch Coviello et al. (2014) waard fierder útwurke yn Coviello, Fowler, and Franceschetti (2014) . Foar in ynlieding ta ynstrumintale fariabelen sjogge Angrist and Pischke (2009) (minder formele) of Angrist, Imbens, and Rubin (1996) (mear formele). Foar in skeptyske skerper sjoen fan ynstrumintale fariabelen sjogge Deaton (2010) , en foar in ynlieding foar ynstrumintale fariabelen mei swak ynstruminten (rein is in swak ynstrumint), sjoch Murray (2006) .

Mear algemien, in goede ynlieding ta natuerlike eksperiminten is Dunning (2012) , en Rosenbaum (2002) , Rosenbaum (2009) , en Shadish, Cook, and Campbell (2001) biede goede ideeën oer in rûzing kausale effekten sûnder eksperiminten.

Yn termen fan it twadde R (subtiliteit), binne der wittenskiplike en logistike hannel-offs doe't deroer feroarjen it ûntwerp fan Emotional contagion fan blokkearjende berjochten nei it stimulearjen fan berjochten. Bygelyks, it kin wêze it gefal dat de technyske útfiering fan de News Feed makket is it substansjeel makliker te dwaan in eksperimint mei blokkearjende berjochten earder as in eksperimint mei it stimulearjen fan berjochten (derom dat in eksperimint mei blokkearjende berjochten wurde koe útfierd as in laach op top fan it nijs Feed systeem sûnder ferlet fan alterations fan it ûnderlizzende systeem). Wittenskiplik, lykwols, de teory oansprutsen troch it eksperimint net dúdlik suggest ien ûntwerp oer de oare.

Spitigernôch, ik bin net bewust fan substansjele foarôfgeande ûndersyk oer de relative fertsjinsten fan blokkearjende en it stimulearjen fan de ynhâld yn de News Feed. Ek, ik haw net sjoen in soad ûndersyk oer raffinaazjetechnyk foar behannelings te meitsje se minder skealik; ien útsûndering is Jones and Feamster (2015) , dat achtet it gefal fan mjitting fan ynternet sensuer (in ûnderwerp ik beprate yn haadstik 6 yn relaasje ta de Encore stúdzje (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ).

Yn termen fan it tredde R (reduksje), in goede ynlieding ta tradisjonele macht analyze is Cohen (1988) . Pre-behanneling covariates kinne wurde opnommen yn it ûntwerp etappe en de analyze toaniel fan eksperiminten; Haadstik 4 fan Gerber and Green (2012) jout in goede ynlieding oan beide metoades, en Casella (2008) biedt in mear yn-djipte behanneling. Techniken dy't brûke dizze pre-behanneling ynformaasje yn de randomization wurde meastal neamd óf blokkearre eksperimintele ûntwerpen of stratified eksperimintele ûntwerpen (de terminology wurdt net brûkt konsekwint oer mienskippen); dy techniken binne djip yn ferbân mei de stratified sampling techniken besprutsen yn Haadstik 3. Sjoch Higgins, Sävje, and Sekhon (2016) foar mear op mei it brûken fan dizze ûntwerpen yn massive eksperiminten. Pre-behanneling covariates kin ek opnommen wurde yn 'e analyze etappe. McKenzie (2012) ûndersiket de ferskil-yn-ferskillen oanpak te analysearjen fjild eksperiminten yn grutter detail. Sjoch Carneiro, Lee, and Wilhelm (2016) foar mear op 'e hannel-offs tusken ferskillende oanpakken te fergrutsjen krektens yn rûzings fan behanneling effekten. Ta beslút, doe't besluten oft te besykje om ûnder oaren pre-behanneling covariates by it ûntwerp of analyze faze (of beide), binne der in pear faktoaren om rekken. Yn in ynstelling dêr't ûndersikers wolle sjen litte dat se net "fishing" (Humphreys, Sierra, and Windt 2013) , mei help fan pre-behanneling covariates yn it ûntwerp etappe kin wêze helpful (Higgins, Sävje, and Sekhon 2016) . Yn situaasjes dêr't dielnimmers komme sequentially, benammen online fjild eksperiminten, mei help fan pre-behanneling ynformaasje yn it ûntwerp etappe kin dreech logistically, sjoch bygelyks Xie and Aurisset (2016) .

It is de muoite wurdich taheakjen fan in bytsje fan yntuysje oer wêrom't ferskil-yn-ferskillen kin wêze sa folle effektiver as ferskil-yn-middels. In protte online útkomsten hawwe tige heech fariânsje (sjoch bygelyks, Lewis and Rao (2015) en Lamb et al. (2015) ) en binne relatyf stabyl oer tiid. Yn dit gefal, de feroaring skoare sil hawwe substansjeel lytsere fariaasje, it fergrutsjen fan de macht fan 'e statistyske test. Ien reden dit benadere wurdt net brûkt faker is dat foarôfgeand oan de digitale leeftyd wie it net mienskiplik te hawwen pre-behanneling útkomsten. In mear konkrete wize te tinken oer it is om te tinken in eksperimint om te mjitten oft in spesifike oefening routine feroarsaket gewichtsverlies. As jo ​​dogge in ferskil-yn-middels oanpak, dyn skatting sil hawwe fariabiliteit dat komt út de fariabiliteit yn gewichten yn de befolking. As jo ​​dogge in ferskil-yn-ferskil oanpak, lykwols, dat fansels foarkommende fariaasje yn gewichten wurdt fuorthelle en kinne jo mear maklik detect in ferskil feroarsake troch de behanneling.

In wichtige manier om te ferminderjen it tal fan dielnimmers yn jo eksperimint is te fieren in macht analyze, dy't Kramer en kollega koe hawwe dien op basis fan it effekt maten waarnommen út de natuerlike eksperimint troch Coviello et al. (2014) of earder net-eksperiminteel ûndersyk troch Kramer (2012) (yn feite dat binne aktiviteiten oan de ein fan dit haadstik). Fernimme dat dit brûken fan macht analyse is in bytsje oars as typyske. Yn de analoge leeftyd, ûndersikers algemien die macht analyze om der wis fan dat harren stúdzje wie net te lyts (ie, ûnder-motorisearre). No, lykwols, ûndersikers moatte dwaan macht analyze om der wis fan dat harren stúdzje is net te grut (ie, oer-motorisearre).

Ta beslút, ik beskôge taheakjen fan in fjirde R: Repurpose. Dat is, as ûndersikers fine harsels mei mear eksperimintele gegevens as se nedich te pakken harren oarspronklike ûndersyk fraach, se moatte repurpose de gegevens te freegjen nije fragen. Bygelyks, yntinke dat Kramer en kollega hie brûkt in ferskil-yn-ferskillen estimator en fûn har mei mear gegevens as nedich te pakken harren ûndersyk fraach. Leaver as net mei help fan de gegevens oan de meast folsleine omfang, se koene hawwe bestudearre de grutte fan it effekt as funksje om pre-behanneling emosjonele ekspresje. Krekt as Schultz et al. (2007) fûn dat it effekt fan de behanneling wie oars foar ljocht en swiere brûkers, faaks de effekten fan 'e News Feed wienen oars foar minsken dy't al bebeakere te post lokkich (of tryste) berjochten. Repurposing soe liede ta "fiskerij" (Humphreys, Sierra, and Windt 2013) en "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , mar dy binne foar it grutste part addressable mei in kombinaasje fan earlik ferslachlizzing (Simmons, Nelson, and Simonsohn 2011) , pre-registraasje (Humphreys, Sierra, and Windt 2013) , en machine learen metoaden dy't besykje te kommen oer-fitting.