Այս բաժինը նախատեսված է օգտագործվել որպես հղում, այլ ոչ թե պետք է կարդալ որպես պատմածից:
Հարցեր պատճառականություն սոցիալական հետազոտությունների են հաճախ բարդ եւ խճճված: Համար հիմնարար մոտեցման պատճառականություն հիման վրա պատճառահետեւանքային գրաֆիկները, տես, Pearl (2009) , եւ հիմնարար մոտեցման հիման վրա հնարավոր արդյունքների, տես Imbens and Rubin (2015) (Եւ տեխնիկական հավելվածը այս գլխում): Համեմատության համար այս երկու մոտեցումների, տես Morgan and Winship (2014) : Համար ձեւական մոտեցում սահմանելով confounder, տես VanderWeele and Shpitser (2013) :
Ի գլխում ես ստեղծել, թե ինչ թվաց մի պայծառ գծում մեր կարողությունը, որպեսզի պատճառահետեւանքային նախահաշիվները են փորձարարական եւ ոչ գիտափորձի տվյալների: Իրականում, ես կարծում եմ, որ տարբերություն կա blurrier. Օրինակ, բոլորը ընդունում է, որ ծխելը հանգեցնում է քաղցկեղի, թեեւ մենք երբեք չենք արել ա randomized վերահսկվող փորձարկմամբ, որ ստիպում է մարդկանց ծխում: Գերազանց գիրքը լիամետրաժ բուժման կատարելու պատճառահետեւանքային նախահաշիվները ոչ-փորձարարական տվյալները տեսնել, Rosenbaum (2002) , Rosenbaum (2009) , Shadish, Cook, and Campbell (2001) , Եւ Dunning (2012) :
Գլուխներ 1-ին եւ 2- Freedman, Pisani, and Purves (2007) Առաջարկում է հստակ ներթափանցումը տարբերությունների միջեւ փորձերի, վերահսկվում փորձերի, եւ randomized վերահսկվող փորձեր:
Manzi (2012) ապահովում է հետաքրքրաշարժ եւ ընթեռնելի մեջ մտցնելու փիլիսոփայական եւ վիճակագրական հիմքերի randomized վերահսկվող փորձերի: Այն տրամադրում է նաեւ հետաքրքիր իրական աշխարհի օրինակներ իշխանության փորձերի բիզնեսում.
Casella (2008) , Box, Hunter, and Hunter (2005) , Athey and Imbens (2016b) ապահովել լավ մասնակցում են վիճակագրական ասպեկտների փորձարարական նախագծման եւ վերլուծության: Բացի այդ, կան գերազանց բուժում օգտագործման փորձերի տարբեր ոլորտներում, տնտեսագիտության (Bardsley et al. 2009) , սոցիոլոգիա (Willer and Walker 2007; Jackson and Cox 2013) , հոգեբանություն (Aronson et al. 1989) , քաղաքագիտություն (Morton and Williams 2010) , եւ սոցիալական քաղաքականությունը (Glennerster and Takavarasha 2013) :
Կարեւորությունը մասնակից համալրման (օրինակ, նմուշառման) հաճախ մինչեւ գնահատել է փորձարարական հետազոտությունների: Սակայն, եթե ազդեցություն է բուժման բազմատարր է բնակչության, ապա նմուշառում է կրիտիկական: Longford (1999) Կազմում է այս կետը հստակ, երբ նա պաշտպանում է հետազոտողների, մտածելով փորձերի որպես բնակչության հարցման հետ պատահմունք ընտրանքի.
Հայեցակետերի որ ես ներկայացրել միջեւ լաբորատոր եւ դաշտային փորձերի մի քիչ պարզեցված. Ի դեպ, մյուս գիտնականները առաջարկել են ավելի մանրամասն տիպաբանությունների, մասնավորապես նրանք, որոնք բաժանում են տարբեր ձեւերը դաշտը փորձերի (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) : Բացի այդ, կան երկու այլ տեսակի փորձերի կողմից իրականացված սոցիալական գիտնականների, որոնք չեն տեղավորվում neatly մեջ լաբորատոր եւ դաշտային հայեցակետերի Հարցումների փորձեր եւ սոցիալական փորձերի. Հարցման փորձարկումները փորձարկումներ օգտագործելով ենթակառուցվածքի գոյություն ունեցող հարցումների եւ համեմատել պատասխաններ այլընտրանքային տարբերակների վերաբերյալ նույն հարցերը (որոշ հարցումների փորձարկումները ներկայացված են 3-րդ գլխում), ավելի շատ հետազոտության փորձերի տեսնել, Mutz (2011) : Սոցիալական փորձեր են փորձեր, որտեղ բուժում է ոմանք սոցիալական քաղաքականությունը, որը կարող է իրականացվել միայն կառավարության. Սոցիալական փորձարկումները սերտորեն կապված է ծրագրի գնահատման: Համար ավելի քաղաքականության փորձերի, տես Orr (1998) , Glennerster and Takavarasha (2013) , իսկ Heckman and Smith (1995) :
Մի շարք թերթերում համեմատել լաբորատորիայում եւ դաշտային փորձեր է աբստրակտ (Falk and Heckman 2009; Cialdini 2009) եւ առումով արդյունքների հատուկ փորձարկումների քաղաքագիտության (Coppock and Green 2015) , Տնտեսագիտության (Levitt and List 2007a; Levitt and List 2007b; Camerer 2011; Al-Ubaydli and List 2013) եւ հոգեբանություն (Mitchell 2012) : Jerit, Barabas, and Clifford (2013) առաջարկում է գեղեցիկ հետազոտական նախագծում համեմատելով արդյունքներ են լաբորատոր եւ դաշտային փորձերի.
Մտահոգություններ մասնակիցների փոփոխվող իրենց վարքագիծը, քանի որ նրանք գիտեն, որ նրանք են մոտիկից երբեմն կոչվում պահանջարկի ազդեցությունները, եւ նրանք արդեն ուսումնասիրվել է հոգեբանության (Orne 1962) եւ տնտեսագիտության (Zizzo 2009) : Չնայած նրան, որ հիմնականում կապված է լաբորատոր փորձերի, այդ նույն հարցերը կարող է խնդիրներ առաջացնել դաշտը փորձերի, ինչպես նաեւ. Ի դեպ, ցպահանջ էֆեկտներ են նաեւ երբեմն կոչվում HAWTHORNE հետեւանքները, մի տերմին, որը բխում է դաշտային փորձարկմամբ, մասնավորապես հայտնի լուսավորությունը փորձարկումներ, որ սկսվել է 1924 թ., Ժամը HAWTHORNE աշխատանքների Արեւմտյան էլեկտրական ընկերության (Adair 1984; Levitt and List 2011) : Երկուսն էլ պահանջարկի ազդեցություններից եւ ալոճենի էֆեկտներ սերտորեն կապված է այն մտքին, ռեակտիվ չափման քննարկվող գլխի 2 (տես նաեւ Webb et al. (1966) ):
Պատմությունը դաշտային փորձերի արդեն նկարագրված է տնտեսագիտության (Levitt and List 2009) , քաղաքագիտության (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , հոգեբանություն (Shadish 2002) , եւ հանրային քաղաքականության (Shadish and Cook 2009) : Մի տարածք սոցիալական գիտության, որտեղ դաշտային փորձարկումները շատ արագ դարձավ նշանավոր է միջազգային զարգացման: Համար դրական վերանայման այդ աշխատանքի ընթացքում տնտեսագիտական տեսնել, Banerjee and Duflo (2009) , եւ մի քննադատական գնահատականի է տեսնել Deaton (2010) : Համար վերանայման այս աշխատանքի քաղաքագիտության տեսնել, Humphreys and Weinstein (2009) : Վերջապես, էթիկական մարտահրավերները ներգրավված դաշտային փորձերի արդեն ուսումնասիրվել է քաղաքական գիտությունների (Humphreys 2015; Desposato 2016b) եւ զարգացման տնտեսագիտության (Baele 2013) :
Ի գլխում, ես առաջարկեցի, որ նախընտրական բուժումը տեղեկատվությունը կարող է օգտագործվել է բարելավել ճշգրտության գնահատվում բուժման հետեւանքների, բայց կա մի բանավեճ այս մոտեցման: Freedman (2008) , Lin (2013) , եւ Berk et al. (2013) ; տես, Bloniarz et al. (2016) Լրացուցիչ տեղեկությունների համար.
Ես ընտրել է կենտրոնանալ երեք հասկացությունների վավերականության, համասեռութ բուժման հետեւանքների, եւ մեխանիզմների հետ: Այս հասկացությունները ունեն տարբեր անուններ տարբեր ոլորտներում: Օրինակ, հոգեբանները հակված է տեղափոխել դուրս պարզ փորձեր է կենտրոնանալով միջնորդների եւ մոդերատորների (Baron and Kenny 1986) : Գաղափարը միջնորդների գրավել է այն, ինչ ես անվանում եմ մեխանիզմներ, իսկ գաղափարը վարողների գրավել է այն, ինչ ես անվանում եմ արտաքին վավերականության (օրինակ, չէր արդյունքները փորձի են տարբեր լինել, եթե այն վազում է տարբեր իրավիճակներում) եւ heterogeneity բուժման հետեւանքների ( օրինակ, են հետեւանքները ավելի մեծ է, որոշ մարդկանց, քան այլ մարդկանց):
Փորձառութեամբ Schultz et al. (2007) , Ցույց է տալիս, թե ինչպես է սոցիալական տեսությունները կարելի է օգտագործել նախագծել արդյունավետ միջամտություններ: Համար ավելի ընդհանուր փաստարկի մասին դերի տեսության նախագծման արդյունավետ միջամտություններ, տես Walton (2014) :
Հասկացությունները ներքին եւ արտաքին վավերականության ժամկետի առաջին անգամ ներդրվել է Campbell (1957) : Տես Shadish, Cook, and Campbell (2001) համար ավելի մանրամասն պատմության եւ մանրակրկիտ մշակման վիճակագրական կնքման վավերականության, ներքին վավերականության, կառուցել վավերականության ժամկետը եւ արտաքին վավերականությունը.
Ակնարկի համար հետ կապված հարցերի վիճակագրական եզրակացությամբ վավերության փորձերի տեսնել, Gerber and Green (2012) համար (սոցիալական գիտության տեսանկյունից) եւ Imbens and Rubin (2015) (Համար վիճակագրական տեսանկյունից): Որոշ հարցեր վիճակագրական եզրակացության վավերականության որոնք առաջանում հատկապես առցանց Field փորձերի ներառում է հարցեր, ինչպիսիք են computationally արդյունավետ մեթոդների ստեղծման վստահության ընդմիջումներով հետ կախյալ տվյալների (Bakshy and Eckles 2013) :
Ներքին վավերականության կարող է դժվար լինել, որպեսզի վերջիններս ապահովեն բարդ դաշտային փորձերի: Տես, օրինակ, Gerber and Green (2000) , Imai (2005) , Եւ Gerber and Green (2005) Քննարկման մասին իրականացման բարդ դաշտային գիտափորձի մասին քվեարկությամբ. Kohavi et al. (2012) եւ Kohavi et al. (2013) ապահովում է ներդրում մարտահրավերներին ընդմիջումից վավերականության օնլայն դաշտը փորձերի:
Մեկը հիմնական մտահոգությունը ներքին վավերականության է հետ խնդիրներ Պատահական. Մեկ ճանապարհ դեպի պոտենցիալ հայտնաբերելու հետ խնդիրներ Պատահական է համեմատել բուժման եւ վերահսկման խմբերի դիտարկելի հատկություններ. Այս տեսակի համեմատության կոչվում է հավասարակշռությունը ստուգում. Տես Hansen and Bowers (2008) համար վիճակագրական մոտեցման հավասարակշռելու ստուգումներ, եւ տեսնել, Mutz and Pemantle (2015) Համար մտահոգությունների մնացորդի ստուգում. Օրինակ, օգտագործելով հաշվեկշռի ստուգել Allcott (2011) գտել է, որ կա մի ապացույց է, որ randomization չի իրականացվել ճիշտ երեք փորձերի որոշ OPower փորձերի (տես Աղյուսակ 2; կայքեր 2, 6, եւ 8). Այլ մոտեցումների, տես Imbens and Rubin (2015) , Գլուխ 21:
Այլ խոշոր մտահոգությունները կապված ներքին վավերության են `1) միակողմանի անհամապատասխանության, որտեղ ոչ բոլորն են բուժման խմբում, ըստ էության, ընդունել է բուժումը, 2) երկկողմանի անհամապատասխանության, որտեղ ոչ բոլորն են բուժման խմբում ստանում է բուժում եւ մի քանի մարդիկ վերահսկման խմբի ստանան բուժում, 3) attrition, որտեղ արդյունքները չեն չափվում որոշ մասնակիցների, եւ 4) միջամտությունը, որի բուժումը spills ավելի մարդկանց բուժման վիճակում է մարդկանց վերահսկողության վիճակում: Տես Gerber and Green (2012) գլուխներ 5, 6, 7 եւ 8-համար ավելի յուրաքանչյուրը այդ հարցերի շուրջ:
Համար ավելի Կառուցել վավերականության, տես Westen and Rosenthal (2003) , եւ ավելի շատ կառուցել վավերականության խոշոր տվյալների աղբյուրների, Lazer (2015) Եւ 2-րդ գլխում այս գրքում.
Մի կողմը արտաքին վավերականության է ընդլայնված որտեղ միջամտությունը փորձարկվում. Allcott (2015) Ապահովում է մանրակրկիտ տեսական եւ էմպիրիկ բուժում Կայքի ընտրության կողմնակալության. Այս հարցը քննարկվում է նաեւ Deaton (2010) : Ի լրումն, որ կրկնվում է շատ կայքեր, որ տուն էներգետիկայի զեկույցը միջամտությունը է նաեւ ինքնուրույն ուսումնասիրվել են բազմաթիվ հետազոտական խմբերի (օրինակ, Ayres, Raseman, and Shih (2013) ):
For հիանալի ակնարկ համասեռութ բուժման հետեւանքների դաշտային փորձերի, տես 12-րդ գլխի Gerber and Green (2012) : For ներդրման մինչեւ համասեռութ բուժման հետեւանքների բժշկական փորձությունների, տես Kent and Hayward (2007) , Longford (1999) , Եւ Kravitz, Duan, and Braslow (2004) : Heterogeneity բուժման հետեւանքների, ընդհանուր առմամբ, կենտրոնանալ տարբերությունների հիման վրա նախընտրական բուժման հատկանիշներով: Եթե դուք հետաքրքրված են ունը հիման վրա հետընտրական բուժման արդյունքների, ապա ավելի բարդ approachs են անհրաժեշտ, ինչպիսիք սկզբունքային շերտավորման (Frangakis and Rubin 2002) : տես, Page et al. (2015) Համար վերանայման.
Շատ հետազոտողներ գնահատել համասեռութ բուժման հետեւանքների օգտագործելով գծային ռեգրեսիան, բայց նոր մեթոդները ապավինել մեքենա ուսուցման, օրինակ Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , Եւ Athey and Imbens (2016a) :
Կա ինչ - որ թերահավատ արդյունքների համասեռութ հետեւանքների պատճառով բազմաթիվ համեմատության խնդիրների եւ «ձկնորսություն.« Կան մի շարք վիճակագրական մոտեցումներ, որոնք կարող են օգնել հասցեն մտահոգությունները բազմակի Համեմատության (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) : One մոտեցումը մտահոգություններին «ձկնորսության» է նախընտրական գրանցումը, որը դառնում է ավելի ու ավելի տարածված է հոգեբանության (Nosek and Lakens 2014) , քաղաքագիտություն (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) եւ տնտեսագիտության (Olken 2015) :
Ի ուսումնասիրության Costa and Kahn (2013) միայն կեսն է տնային տնտեսությունների փորձի կարողացանք է կապված լինել ժողովրդագրական տեղեկատվության. Հետաքրքրվող ընթերցողների Մանրամասների եւ հնարավոր խնդիրների հետ: Այս վերլուծությունը պետք վերաբերում է բուն թղթի վրա:
Մեխանիզմները աներեւակայելի կարեւոր են, բայց նրանք պարզվում է, շատ դժվար է ուսումնասիրել. Research մասին մեխանիզմների սերտորեն կապված է ուսումնասիրության միջնորդների հոգեբանության (բայց տես նաեւ VanderWeele (2009) համար ճշգրիտ համեմատության երկու գաղափարների): Վիճակագրական մոտեցումները գտնելու մեխանիզմների, ինչպիսիք են մոտեցման մշակված Baron and Kenny (1986) , բավականին տարածված. Ցավոք սրտի, պարզվում է, որ այդ ընթացակարգերը կախված է որոշ ուժեղ ենթադրությունների (Bullock, Green, and Ha 2010) եւ տառապում է, երբ կան բազմաթիվ մեխանիզմներ, քանի որ կարելի է ակնկալել շատ իրավիճակներում (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) : Imai et al. (2011) եւ Imai and Yamamoto (2013) առաջարկել որոշ կատարելագործված վիճակագրական մեթոդներ. Բացի այդ, VanderWeele (2015) Առաջարկում է մի գիրք-երկարությամբ բուժում է մի շարք կարեւոր արդյունքների, այդ թվում համապարփակ մոտեցման զգայունության վերլուծություն:
Առանձին մոտեցումը կենտրոնանում է փորձերի, որոնք փորձում են շահարկել այդ մեխանիզմը ուղղակիորեն (օրինակ, տալով նավաստիները վիտամին C): Ցավոք սրտի, շատ հասարակագիտական պարամետրերը կան հաճախ բազմակի մեխանիզմներ, եւ դա դժվար է նախագծել բուժում է, որ փոխելու, առանց փոխելու մյուսներին: Որոշ մոտեցումները experimentally փոփոխող մեխանիզմներ, որոնք նկարագրված են Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , եւ Pirlott and MacKinnon (2016) :
Վերջապես, մեխանիզմները նաեւ պետք է երկար պատմություն փիլիսոփայության գիտության, ինչպես նկարագրված է Hedström and Ylikoski (2010) :
Համար ավելի շատ օգտագործման հեռակա ուսումնասիրությունների եւ աուդիտորական ուսումնասիրությունների չափելու խտրականությունը տեսնել, Pager (2007) :
Առավել տարածված ձեւն է հավաքագրել մասնակիցներին փորձերի, որ դուք կառուցել է Amazon Mechanical Turk (MTurk): Քանի որ MTurk mimics ասպեկտները ավանդական լաբորատոր փորձերի վարձատրվող մարդկանց ավարտելու խնդիրները, որ իրենք չեն անելու համար ազատ բազմաթիվ հետազոտողների արդեն սկսվել է Turkers (աշխատողները վերաբերյալ MTurk), ինչպես մասնակիցներից մարդու առարկաների փորձերի արդյունքում ավելի արագ եւ էժան տվյալների հավաքագրման, քան ավանդական on-լսարանը լաբորատոր փորձարկումները (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) :
Ամենամեծ ուժը փորձերի մասնակիցների հետ հավաքագրվում MTurk են նյութատեխնիկական: Նրանք թույլ են տալիս հետազոտողները հավաքագրել մասնակիցներին արագ եւ ըստ անհրաժեշտության. Մինչդեռ լաբորատորիայի փորձարկումները կարող է տեւել շաբաթ է առաջադրվել, եւ դաշտային փորձարկումները կարող է տեւել ամիսներ սահմանել- up, փորձարկումները հետ մասնակիցների հավաքագրվում MTurk կարող է առաջադրվել օրվա ընթացքում: Օրինակ, Berinsky, Huber, and Lenz (2012) կարողացան հավաքագրել 400 առարկաները մեկ օրում մասնակցելու է 8 րոպե փորձարկմամբ: Բացի այդ, այդ մասնակիցները կարող են հավաքագրվել է գրեթե ցանկացած նպատակի (այդ թվում `հարցումների եւ զանգվածային համագործակցության, քանի որ քննարկվում է գլուխներում 3 եւ 5). Այս Մարտինիկա զորակոչի նշանակում է, որ հետազոտողները կարող եք առաջադրվելու sequences հարակից փորձերի արագ իրավահաջորդության.
Նախքան հավաքագրելու մասնակիցներին MTurk ձեր սեփական փորձերի, կան չորս կարեւոր բաներ իմանալ. Նախ, շատ հետազոտողներ պետք է ոչ հատուկ թերահավատությունը փորձերի, որոնք ներառում են Turkers: Քանի որ այս թերահավատությունը չէ կոնկրետ, դժվար է արժանի հակահարված ապացույցների: Սակայն, մի քանի տարի հետո ուսումնասիրությունների օգտագործելով Turkers, մենք կարող ենք այժմ եզրակացնել, որ այս թերահավատությունը չէ, հատկապես անհրաժեշտ է: Եղել են բազմաթիվ ուսումնասիրություններ համադրելով ժողովրդագրական Turkers այլ բնակչության եւ բազմաթիվ ուսումնասիրությունները համադրելով արդյունքները փորձերի հետ Turkers արդյունքների այլ բնակչության. Հաշվի առնելով այս ամենը, աշխատանքը, ես կարծում եմ, որ լավագույն միջոց է ձեզ համար է մտածել դրա մասին է, որ Turkers են ողջամիտ հարմարավետություն նմուշ, շատ նման ուսանողները, սակայն մի փոքր ավելի բազմազան (Berinsky, Huber, and Lenz 2012) : Այսպիսով, ճիշտ այնպես, ինչպես ուսանողները, որոնք ողջամիտ բնակչությունը ոմանց համար, բայց ոչ բոլորն են փորձարարական հետազոտությունները, Turkers են ողջամիտ բնակչությունը ոմանց համար, բայց ոչ բոլորն են հետազոտությունները: Եթե դուք մտադիր են աշխատել հետ Turkers, ապա իմաստ ունի շատեր կարդացին այդ համեմատական ուսումնասիրությունների եւ հասկանալ նրանց երանգները:
Երկրորդ, հետազոտողները մշակել են լավագույն փորձի համար աճող ներքին վավերականությունը թուրք փորձերի, եւ դուք պետք է իմանալ, եւ հետեւել այդ լավագույն փորձի (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) : Օրինակ, հետազոտողները, օգտագործելով Turkers խրախուսվում են օգտագործել screeners է հեռացնել անուշադիր մասնակիցներին (Berinsky, Margolis, and Sances 2014; Berinsky, Margolis, and Sances 2016) (Բայց տես նաեւ DJ Hauser and Schwarz (2015b) եւ DJ Hauser and Schwarz (2015a) ): Եթե դուք չեք հանել անուշադիր մասնակիցներին, ապա որեւէ ազդեցություն բուժման կարող է լվացվեն դուրս աղմուկից ներկայացրել է անուշադիր մասնակիցների, եւ գործնականում թիվը անուշադիր մասնակիցների, կարող է լինել էական. Ի փորձի Huber եւ գործընկերների (2012) Մոտ 30% -ը մասնակիցների ձախողվեց հիմնական ուշադրությունը screeners: Մեկ այլ խնդիր է տարածված Turkers է ոչ-միամիտ մասնակիցները (Chandler et al. 2015) :
Երրորդ, հարաբերական որոշ այլ ձեւերի թվային փորձերի, MTurk փորձեր չի կարող լայնածավալ, Stewart et al. (2015) Գնահատում է, որ ցանկացած պահի, կան ընդամենը մոտ 7.000 մարդ MTurk:
Վերջապես, դուք պետք է իմանա, որ MTurk համայնք իր սեփական կանոններով եւ նորմերով (Mason and Suri 2012) : Է նույն ձեւով, որ դուք պետք է փորձում է պարզել, որ մշակույթի մի երկրում, որտեղ դուք պատրաստվում էին առաջադրվել ձեր փորձեր, դուք պետք է փորձեք պարզել, թե ավելի մշակույթին եւ նորմերի Turkers (Salehi et al. 2015) : Եվ, որ դուք պետք է իմանա, որ Turkers պետք է խոսել ձեր փորձի, եթե ինչ - որ բան անհամապատասխան կամ unethical (Gray et al. 2016) .
MTurk աներեւակայելի հարմար միջոց է հավաքագրել մասնակիցներին ձեր փորձերի, թե արդյոք նրանք կարող են Lab նման, ինչպես, օրինակ, Huber, Hill, and Lenz (2012) , Կամ ավելի դաշտ նման, ինչպես, օրինակ, Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , Եւ Mao et al. (2016) :
Եթե դուք մտածում փորձում է ստեղծել Ձեր սեփական արտադրանքը, ես խորհուրդ են տալիս, որ դուք կարդում խորհուրդներ կողմից առաջարկվող MovieLens խմբի Harper and Konstan (2015) : Առանցքային Insight են իրենց փորձը, որ յուրաքանչյուր հաջող նախագծի կան շատ ու շատ ձախողումները: Օրինակ, MovieLens խումբը մեկնարկել այլ ապրանքների, ինչպիսիք են GopherAnswers, որոնք ամբողջական ձախողումները (Harper and Konstan 2015) : Մեկ այլ օրինակ է հետազոտող տապալելու, իսկ փորձում է կառուցել արտադրանքը Էդվարդ Castronova փորձ է կառուցել օնլայն խաղ, որը կոչվում է Arden. Չնայած $ 250,000 ֆինանսավորում, ծրագիրը եղել է թրմփալ (Baker 2008) : Ծրագրեր նման GopherAnswers եւ Arden ցավոք, շատ ավելի տարածված է, քան նախագծերի, ինչպիսիք MovieLens: Վերջապես, երբ ես ասացի, որ ես չգիտեի, որեւէ այլ հետազոտողների, որ հաջողությամբ կառուցված արտադրանքը կրկնակի փորձերի այստեղ են իմ չափանիշները, 1) մասնակիցները օգտագործել արտադրանքը, քանի որ այն, ինչ ապահովում է նրանց (օրինակ, նրանք չեն վճարվում, եւ նրանք չեն կամավորները օգնում գիտությունը) եւ 2) ապրանքը արդեն օգտագործվել է ավելի քան մեկ հստակ փորձարկմամբ (այսինքն, ոչ թե նույն փորձ մի քանի անգամ տարբեր մասնակից լողավազաններ). Եթե դուք գիտեք, թե այլ օրինակների, խնդրում եմ ինձ տեղյակ.
Ես լսել եմ, գաղափարը Pasteur ի Quadrant քննարկվել հաճախ տեխնոլոգիական ընկերությունների, եւ դա օգնում է կազմակերպել հետազոտական ջանքերը Google- ի (Spector, Norvig, and Petrov 2012) :
Bond եւ գործընկերների ուսումնասիրություն (2012) , նաեւ փորձում է հայտնաբերել ազդեցությունը այդ բուժման վրա բարեկամների, ովքեր ստացել են դրանք: Քանի որ նախագծման փորձի, այդ օգուտներ, որոնք դժվար է հայտնաբերել մաքուր. շահագրգիռ ընթերցողները պետք է տեսնել Bond et al. (2012) Համար ավելի մանրակրկիտ քննարկման: Փորձը մի մասն է երկար ավանդույթի գիտափորձերի քաղաքագիտական վրա ջանքերին քվեարկությունից (Green and Gerber 2015) : Այս ստանալ դուրս-որ ձայն փորձեր են տարածված մասամբ այն պատճառով, որ նրանք գտնվում են Պաստերի ի Quadrant: Այսինքն, կան շատ մարդիկ, ովքեր մոտիվացված են մեծացնել քվեարկության եւ քվեարկության օրը կարող է լինել հետաքրքիր վարքը է փորձարկել ավելի ընդհանուր տեսությունները մոտ վարքագծի փոփոխության եւ սոցիալական ազդեցության:
Այլ հետազոտողներ խորհուրդներ մոտ վազում դաշտային փորձարկումներ գործընկեր կազմակերպությունների հետ, ինչպիսիք են քաղաքական կուսակցությունների, հասարակական կազմակերպությունների եւ ձեռնարկությունների համար (Loewen, Rubenson, and Wantchekon 2010; List 2011; Gueron 2002) : Մյուսներն էլ առաջարկել խորհուրդներ մասին, թե ինչպես է համագործակցություն կազմակերպություններում կարող է ազդել հետազոտությունների նմուշներ (Green, Calfano, and Aronow 2014; King et al. 2007) . Գործընկերությունը կարող է նաեւ հանգեցնել էթիկական հարցերին (Humphreys 2015; Nickerson and Hyde 2016) :
Եթե դուք պատրաստվում են ստեղծել այնպիսի վերլուծություն ծրագիր մինչեւ վազում ձեր փորձը, ես առաջարկում եմ, որ դուք սկսեք կարդալով հաշվետվությունների ուղեցույցներ: The CONSORT (համախմբված ստանդարտ Հաշվետվական փորձությունների) ուղեցույցները մշակվել է բժշկության (Schulz et al. 2010) եւ փոփոխվել է սոցիալական հետազոտական (Mayo-Wilson et al. 2013) : Մի հարակից փաթեթը ուղեցույցների մշակվել է խմբագիրների տեղեկագրում փորձառական Քաղաքական գիտությունների (Gerber et al. 2014) (տես նաեւ Mutz and Pemantle (2015) Եւ Gerber et al. (2015) ): Վերջապես, Հաշվետվություն ուղեցույցներ մշակվել են հոգեբանության (Group 2008) , Եւ տես նաեւ Simmons, Nelson, and Simonsohn (2011) :
Եթե դուք ստեղծել մի վերլուծություն ծրագիր, դուք պետք է հաշվի առնել նախընտրական գրանցվելու այն պատճառով, որ նախընտրական գրանցումը կբարձրացնի վստահությունը, որ ուրիշները ունեն ձեր արդյունքները. Բացի այդ, եթե դուք աշխատում են մի գործընկեր, այն կսահմանափակի ձեր զուգընկերոջ կարողությունը փոխելու վերլուծություն տեսնելուց հետո արդյունքները: Pre-գրանցումը դառնում է ավելի ու ավելի տարածված է հոգեբանության (Nosek and Lakens 2014) , քաղաքագիտություն (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , եւ տնտեսագիտություն (Olken 2015) :
Մինչ ստեղծել ձեր նախնական վերլուծության ծրագիր, դուք պետք է տեղյակ լինի, որ որոշ հետազոտողներ օգտագործել նաեւ հետընթաց եւ հարակից մոտեցումներ բարելավել ճշգրտությունը գնահատված բուժման ուժի, եւ կա բանավեճ, այս մասին մոտեցման: Freedman (2008) , Lin (2013) , եւ Berk et al. (2013) ; տես, Bloniarz et al. (2016) Լրացուցիչ տեղեկությունների համար.
Դիզայն խորհրդատվություն հատուկ առցանց դաշտային փորձերի ներկայացված է նաեւ Konstan and Chen (2007) եւ Chen and Konstan (2015) :
Համար ավելի է MusicLab փորձերի, տես Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , եւ Salganik (2007) : For ավելի հաղթողը վերցնում է բոլոր շուկաներում, տես Frank and Cook (1996) : Համար ավելի untangling հաջողություն եւ հմտության ընդհանուր առմամբ, տես Mauboussin (2012) , Watts (2012) , իսկ Frank (2016) :
Կա եւս մեկ մոտեցում վերացնելու մասնակից վճարումներ, որ հետազոտողները պետք է օգտագործել զգուշությամբ: զորակոչը. Բազմաթիվ առցանց դաշտային փորձերի մասնակիցները հիմնականում զորակոչվել փորձերի, եւ երբեք չի փոխհատուցում. Օրինակներ Այս մոտեցման ներառում են Restivo եւ Վան դե Rijt ի (2012) փորձը պարգեւներով Վիքիպեդիայում եւ Բոնդի եւ գործընկերոջ (2012) փորձարկել խրախուսելով մարդկանց քվեարկելու: Այս փորձարկումները չեն, իրոք, պետք զրոյական փոփոխական ծախսերը, նրանք ունեն զրոյական փոփոխական ծախսերը հետազոտողների. Նույնիսկ չնայած արժեքը շատերը այդ փորձերի չափազանց փոքր է յուրաքանչյուր մասնակցի, փոքր ծախսերը պարտադրված հսկայական թվով մասնակիցների, կարող է ավելացնել մինչեւ արագորեն. Հետազոտողները վազում զանգվածային օնլայն փորձարկումներ հաճախ արդարացնում կարեւորությունը փոքր գնահատվում բուժման հետեւանքների `ասելով, որ այդ փոքր ազդեցությունները կարող են դառնալ կարեւոր է, երբ կիրառվում է բազմաթիվ մարդկանց: Ճիշտ նույն մտածողությունը կիրառվում է ծախսերի, որ հետազոտողները պարտադրել մասնակիցների: Եթե ձեր փորձարկումները առաջացնում մեկ միլիոն մարդ է վատնել մեկ րոպե, ապա փորձ է չէ, շատ վնասակար է որեւէ կոնկրետ անձի, բայց համախառն այն է մսխել գրեթե երկու տարի ժամանակ:
Մեկ այլ մոտեցում ստեղծելու զրոյական փոփոխական ծախսերի վճարում է մասնակիցներին է օգտագործել վիճակախաղի, մի մոտեցում, որը նաեւ օգտագործվում է հետազոտության հետազոտության (Halpern et al. 2011) . Վերջապես, ավելի մոտ նախագծման հաճելի օգտագործողի փորձը, տեսնում ենք, Toomim et al. (2011) :
Այստեղ են օրիգինալ սահմանումները երեք R- ից Russell and Burch (1959) :
«Replacement նշանակում փոխարինելն գիտակից ապրող բարձրագույն կենդանիների insentient նյութական. Կրճատումը նշանակում նվազեցման թվերի կենդանիների օգտագործվող ստանալ տեղեկատվություն տվյալ գումարի եւ ճշգրտությամբ. Զտում նշանակում է ցանկացած նվազում դեպքից կամ աստիճանը անմարդկային ընթացակարգերի կիրառվող այն կենդանիների, որոնք դեռ պետք է օգտագործվել »:
Երեք R, որ ես առաջարկել չեմ անտեսեն էթիկական սկզբունքները նկարագրված Գլուխ 6. Փոխարենը, նրանք ավելի լրամշակված տարբերակը մեկն այդ սկզբունքների-բարերարություն-հատուկ ընդլայնված մարդու փորձերի.
Երբ համարելով, զգացմունքային վարակի հետեւանքով, կան երեք ոչ-էթիկական հարցերը պետք է պահել մտքում, երբ մեկնաբանելիս այս գիտափորձը. Նախ, պարզ չէ, թե ինչպես են փաստացի մանրամասները փորձի միացնել տեսական պահանջների; այլ կերպ ասած, կան հարցերին Construct ժամկետով: Դա այն չէ, պարզ է, որ դրական եւ բացասական Բառը ակնկալում են, իրականում լավ ցուցանիշ է հուզական վիճակի մասնակիցների, քանի որ 1) պարզ չէ, թե որ բառերը, որ մարդիկ գրառումը լավ ցուցանիշ իրենց զգացմունքների եւ 2) պարզ չէ, թե որ մասնավորապես տրամադրությունները վերլուծությունը տեխնիկան, որ հետազոտողները օգտագործվում է ի վիճակի է հուսալիորեն եզրակացնել զգացմունքները (Beasley and Mason 2015; Panger 2016) : Այլ կերպ ասած, կարող են լինել վատ միջոց է կողմնակալ ազդանշանի. Երկրորդ, դիզայնը եւ վերլուծություն փորձի մեզ ասում է, ոչինչ մասին, ով էր առավել ազդել (այսինքն, չկա վերլուծություն համասեռութ բուժման հետեւանքների) եւ այն, ինչ մեխանիզմը կարող է լինել: Այս դեպքում, հետազոտողները ունեին շատ մասնակիցների մասին տեղեկատվություն, սակայն նրանք, ըստ էության, դիտվում են որպես ֆայլեր վերլուծության. Երրորդ, այդ ազդեցությունը չափը այս գիտափորձի շատ փոքր էր: միջեւ տարբերությունը բուժման եւ վերահսկողության պայմաններում է մոտ 1 1000 բառերով. Իրենց թուղթ, Կրամերը եւ գործընկերները կատարել գործը, որ ազդեցությունը այս չափը կարեւոր է, քանի որ հարյուր միլիոնավոր մարդիկ են մուտք գործել իրենց Լրահոս ամեն օր. Այլ կերպ ասած, նրանք պնդում են, որ նույնիսկ հետեւանքները, որոնք փոքր յուրաքանչյուր անձի համար նրանք մեծ համախառն: Նույնիսկ եթե դուք էին ընդունել այս փաստարկը, դա դեռ պարզ չէ, եթե ազդեցություն այդ չափի կարեւոր է, կապված ավելի ընդհանուր գիտական մասին հարցին էմոցիոնալ վարակից: Համար ավելի շատ այն իրավիճակների, որտեղ փոքր բարդություններ են կարեւոր է տեսնել Prentice and Miller (1992) :
Առումով առաջին R (փոխարինում), համեմատելով զգացմունքային վարակի գիտափորձը (Kramer, Guillory, and Hancock 2014) եւ զգացմունքային վարակում բնական գիտափորձը (Coviello et al. 2014) առաջարկում է մի շարք ընդհանուր դասեր մասին փոխզիջումների ներգրավված տեղափոխվելուց փորձարկումները բնական փորձերի (եւ այլ մոտեցումների նման համապատասխանող այդ փորձը մոտավոր փորձեր ոչ փորձարարական տվյալների, տես Գլուխ 2): Ի լրումն էթիկական նպաստների, անցումը ՓՈՐՁԱՐԱՐԱԿԱՆ ոչ-փորձարարական ուսումնասիրությունների նաեւ հնարավորություն է տալիս հետազոտողներին ուսումնասիրել բուժում է, որ նրանք logistically ի վիճակի է տեղակայել: Այս բարոյական եւ լոգիստիկ օգուտներ գալիս է մի գնով, սակայն. Բնական փորձերի հետազոտողները պետք է ավելի քիչ վերահսկողություն նման բաների համալրման մասնակիցների, Պատահական, եւ բնույթը բուժման: Օրինակ, մի սահմանափակում տարափ է որպես բուժման այն է, որ երկուսն էլ մեծացնում դրական եւ նվազում negativity. Ի փորձարարական հետազոտության, սակայն, Կրամերը եւ գործընկերները կարողացան հարմարվել դրական եւ բացասական ինքնուրույն.
Մասնավորապես մոտեցումը, որն օգտագործվում է Coviello et al. (2014) հետագայում մշակվել է Coviello, Fowler, and Franceschetti (2014) : Համար ներածություն գործիքային փոփոխականների տեսնել, Angrist and Pischke (2009) (Պակաս ձեւական) կամ Angrist, Imbens, and Rubin (1996) (ավելի ֆորմալ): Համար թերահավատ գնահատման գործիքային փոփոխականների տեսնել, Deaton (2010) , եւ որպես ներածություն գործիքային փոփոխականների թույլ գործիքներով (անձրեւը թույլ գործիք), տես Murray (2006) :
Ընդհանուր առմամբ, լավ ներդրում է բնական փորձերի է Dunning (2012) , եւ Rosenbaum (2002) , Rosenbaum (2009) , եւ Shadish, Cook, and Campbell (2001) առաջարկել լավ գաղափարների մասին, գնահատելով պատճառահետեւանքային հետեւանքները, առանց փորձերի:
Առումով երկրորդ R (մաքրում), կան գիտական եւ նյութատեխնիկական առեւտրային խաղարկությանը, երբ հաշվի առնելով փոխվում է նախագծման Emotional համաճարակի արգելափակման գրառումները խթանելու գրառումները. Օրինակ, դա կարող է լինել այն դեպքն է, որ տեխնիկական իրականացումը լրահոսից ստիպում է, որ էականորեն ավելի հեշտ է անել, փորձ արգելափակմամբ գրառումները, այլ ոչ թե մի փորձարկմամբ մեծացնել գրառումները (Նկատի ունեցեք, որ փորձ արգելափակմամբ գրառումները կարող է իրականացվել, ինչպես նաեւ մի շերտ Top լրահոսից համակարգի, առանց որեւէ անհրաժեշտության փոփոխությունների հիմքում ընկած համակարգի): Գիտականորեն, սակայն, տեսությունը հասցեագրված փորձառութեամբ հստակ չի առաջարկել, մեկ դիզայն մյուսի նկատմամբ:
Ցավոք սրտի, ես տեղյակ չեմ էական նախնական հետազոտության մասին հարաբերական էության արգելափակման եւ խթանման բովանդակությունը լրահոսից: Բացի այդ, ես չեմ տեսել շատ հետազոտություններ մասին նրբացում բուժում, որպեսզի դրանք ավելի քիչ վնասակար է. մեկ բացառություն է Jones and Feamster (2015) , որը համարում է գործը չափման Ինտերնետ գրաքննության (մի թեմայի, ես քննարկելու է 6-րդ գլխում կապը Encore ուսումնասիրության (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ):
Առումով երրորդ R (պակասեցման), լավ ներդրում է ավանդական էներգիայի վերլուծության Cohen (1988) : Pre-բուժման covariates կարող է ընդգրկվել նաեւ նախագծային փուլում եւ վերլուծության փուլում փորձերի. Գ Լ ՈՒ Խ 4 Gerber and Green (2012) ապահովում է լավ ներածություն երկու մոտեցումների, եւ Casella (2008) Ապահովում է ավելի խորը բուժում. Տեխնիկան, որը օգտագործում է այս նախընտրական բուժման տեղեկատվություն Պատահական սովորաբար կոչվում, կամ արգելափակված փորձարարական նմուշների կամ շերտավորված փորձարարական նմուշների (տերմինաբանությունը չի օգտագործվում հետեւողականորեն ամբողջ համայնքներում): այդ տեխնիկան խորապես կապված է շերտավորված ընտրանքային մեթոդների քննարկված Գլուխ 3. Տես Higgins, Sävje, and Sekhon (2016) ավելի է, օգտագործելով այդ նմուշների զանգվածային փորձերի. Pre-բուժում covariates կարող են ընդգրկվել նաեւ վերլուծության փուլում: McKenzie (2012) հետազոտում տարբերությունը-ի տարբերությունների մոտեցում է վերլուծելու դաշտային փորձարկումներ է ավելի մանրամասն. Տես Carneiro, Lee, and Wilhelm (2016) Համար ավելի է փոխզիջումների միջեւ տարբեր մոտեցումներ է մեծացնել ճշգրտության գնահատականների բուժման հետեւանքների: Վերջապես, երբ որոշելիս, ինչպես փորձում են ներառել նախընտրական բուժման covariates նախագծման կամ վերլուծության փուլում (կամ երկուսն էլ), կան մի քանի գործոններ է համարում: Այնպիսի մթնոլորտում, որտեղ հետազոտողները ցանկանում է ցույց տալ, որ իրենք չեն «ձկնորսություն» (Humphreys, Sierra, and Windt 2013) , օգտագործելով նախընտրական բուժման covariates նախագծման փուլում կարող է օգտակար լինել (Higgins, Sävje, and Sekhon 2016) : Իրավիճակներում, որտեղ մասնակիցները ժամանում հերթականությամբ, հատկապես, առցանց դաշտային փորձարկումներ, օգտագործելով նախընտրական բուժման տեղեկատվություն նախագծային փուլում կարող է դժվար լինել logistically, տես, օրինակ, Xie and Aurisset (2016) :
Հատկանշական է, ավելացնելով մի քիչ ինտուիցիա թե ինչու տարբերությունը-ի տարբերությունները կարող են լինել, այնքան ավելի արդյունավետ է, քան տարբերության-ի միջոցներով: Շատ առցանց արդյունքները շատ բարձր Variance (տես, օրինակ, Lewis and Rao (2015) Եւ Lamb et al. (2015) ) Եւ համեմատաբար կայուն ժամանակի ընթացքում: Այս դեպքում, փոփոխությունը հաշիվը կունենա էապես փոքր շեղվում, մեծացնելով ուժը վիճակագրական քննության: Պատճառներից մեկը, որ այս մոտեցավ չի օգտագործվում է ավելի հաճախ է, որ մինչեւ թվային դարաշրջանում, այն չէր տարածված ունենալ նախընտրական բուժման արդյունքները. Ավելի կոնկրետ, միջոց է մտածել դրա մասին է պատկերացնել, փորձ է չափել, թե արդյոք կոնկրետ վարժություն ռեժիմ առաջացնում քաշի կորուստը: Եթե դուք մի տարբերությունը-in-միջոցներով մոտեցում, Ձեր գնահատականներով կունենա փոփոխականությունը, որը գալիս է փոփոխականության կշիռների է բնակչության համար: Եթե դուք մի տարբերությունը-in-տարբերության մոտեցում, սակայն, որ, բնականաբար, տեղի տատանումների կշիռներով հեռացվել, եւ դուք կարող եք ավելի հեշտությամբ հայտնաբերել տարբերություն առաջացրել է բուժման.
Մի կարեւոր միջոց է նվազեցնել շարք մասնակիցների Ձեր փորձի անցկացնել իշխանության վերլուծություն, որի Կրամերը եւ գործընկերները կարող են արել հիման վրա ազդեցության չափերի դիտարկված բնական Փորձի կողմից Coviello et al. (2014) կամ ավելի շուտ ոչ-փորձարարական հետազոտության Կրամերը (2012) (Ի դեպ սրանք գործունեությունը վերջում սույն գլխում): Ուշադրություն դարձրեք, որ այս օգտագործումը իշխանության վերլուծության մի քիչ այլ է, քան տիպիկ. Ի անալոգային տարիքում, հետազոտողները, ընդհանուր առմամբ, արեց իշխանության վերլուծության, որպեսզի համոզվեք, որ իրենց ուսումնասիրությունը չէր շատ փոքր է (այսինքն, մինչեւ սնուցվում). Այժմ, սակայն, հետազոտողները պետք է անել իշխանության վերլուծության, որպեսզի համոզվեք, որ իրենց հետազոտությունը չէ չափազանց մեծ է (այսինքն, ավելի քան սնվող).
Վերջապես, ես համարել ավելացնելով, չորրորդ R: repurpose. Այսինքն, եթե հետազոտողները գտնել իրենց ավելի փորձարարական տվյալների, քան նրանք պետք է անդրադառնալ իրենց ինքնատիպ հետազոտական հարցին, նրանք պետք է repurpose տվյալները հարցնել նոր հարցեր: Օրինակ, պատկերացրեք, որ Կրամերը եւ գործընկերները էին օգտագործվում է տարբերությունը-in-տարբերությունների գնահատող եւ հայտնվեցին ավելի շատ տվյալներ, քան անհրաժեշտ է անդրադառնալ իրենց հետազոտական հարցին: Ավելի շուտ, քան ոչ, օգտագործելով տվյալների լիարժեք չափով, որ նրանք կարող են ուսումնասիրել են չափը ուժի, որպես ֆունկցիա է նախնական մշակման զգացմունքային արտահայտությունը: Ճիշտ այնպես, ինչպես Schultz et al. (2007) Գտել է, որ այդ ազդեցությունը բուժման տարբերվում էր թեթեւ եւ ծանր օգտվողների, գուցե հետեւանքները լրահոսից տարբեր էին մարդկանց համար, ովքեր արդեն հակված են փակցնել ուրախ (կամ տխուր) հաղորդագրությունները. Repurposing կարող է հանգեցնել «ձկնորսության» (Humphreys, Sierra, and Windt 2013) եւ «P-hacking» (Simmons, Nelson, and Simonsohn 2011) , սակայն դրանք հիմնականում հասցեական մի համադրություն ազնիվ հաշվետվությունների (Simmons, Nelson, and Simonsohn 2011) , նախնական գրանցման (Humphreys, Sierra, and Windt 2013) , եւ մեքենա ուսուցման մեթոդները, որոնք փորձում են խուսափել ավելի չափափորձման.