Սոցիալական հետազոտություններում պատճառահետեւանքային հարցերը հաճախ բարդ եւ բարդ են: Պատճառային գրաֆիկների վրա հիմնված հիմնավոր մոտեցման համար տես Pearl (2009) եւ հնարավոր ելքերի հիման վրա հիմնարար մոտեցում, տես Imbens and Rubin (2015) : Այս երկու մոտեցումների միջեւ համեմատության համար տես Morgan and Winship (2014) : VanderWeele and Shpitser (2013) որոշման պաշտոնական մոտեցման համար տես VanderWeele and Shpitser (2013) :
Այս գլխում ես ստեղծել եմ այն, ինչը կարծես թե պայծառ գիծ է, փորձարարական եւ ոչ-փորձարարական տվյալները պատճառաբանական գնահատումներ կատարելու մեր ունակության միջեւ: Այնուամենայնիվ, կարծում եմ, որ իրականում տարբերությունը ավելի բարդ է: Օրինակ, բոլորը ընդունում են, որ ծխելը քաղցկեղ է առաջացնում, չնայած այն բանին, որ ռիսկային ռեժիմով վերահսկվող փորձը, որը մարդկանց ստիպում է ծխել, երբեւէ արվել է: Հատուկ գիրքային բուժման համար ոչ-փորձարարական տվյալների համար պատճառաբանական գնահատականներ կատարելու համար տես Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) եւ Dunning (2012) :
Freedman, Pisani, and Purves (2007) գլուխներ 1-ը եւ 2-ը ներկայացնում են հստակ ներածություն փորձերի, վերահսկվող փորձերի եւ ռանդալիզացված վերահսկվող փորձերի միջեւ տարբերությունների մասին:
Manzi (2012) տրամադրում է հետաքրքրաշարժ եւ ընթեռնելի ներածություն փիլիսոփայական եւ վիճակագրական հիմունքների randomized վերահսկվող փորձերի. Այն նաեւ տրամադրում է բիզնեսի փորձարարության ուժերի իրական հետաքրքիր օրինակներ: Issenberg (2012) Ապահովում է քաղաքական արշավներում փորձի կիրառման հետաքրքիր ներածություն:
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 Athey and Imbens (2016b) լավ ներածություն են տրամադրում փորձարարական նախագծման եւ վերլուծության վիճակագրական ասպեկտներին: Բացի այդ, կան գերազանց բուժում օգտագործման փորձերի մեջ տարբեր ոլորտներում տնտեսագիտություն (Bardsley et al. 2009) , սոցիոլոգիա (Willer and Walker 2007; Jackson and Cox 2013) , հոգեբանություն (Aronson et al. 1989) , քաղաքագիտություն (Morton and Williams 2010) եւ սոցիալական քաղաքականությունը (Glennerster and Takavarasha 2013) :
Փորձագետների ուսումնասիրության ընթացքում մասնակիցների հավաքագրման կարեւորությունը (օրինակ, նմուշառման) հաճախ ենթակա չէ գնահատման: Այնուամենայնիվ, եթե բնակչության շրջանում բուժման ազդեցությունը տարբեր է, ապա նմուշառումը կարեւոր է: Longford (1999) Այս կետը հստակ է դարձնում այն ժամանակ, երբ նա պաշտպանում է հետազոտողների համար, փորձելով մտածել որպես բնակչության հետազոտություն, ժամանակավոր նմուշառմամբ:
Ես առաջարկել եմ, որ լաբորատորիայում եւ դաշտային փորձերի միջեւ կա մի շարունակություն, եւ այլ հետազոտողներ ավելի մանրամասն տիպաբանություններ են առաջարկել, մասնավորապես, որոնք առանձնացնում են դաշտային փորձերի տարբեր ձեւերը (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) :
Մի շարք փաստաթղթեր համեմատել են լաբորատորիայում եւ դաշտային փորձարկումներում (Falk and Heckman 2009; Cialdini 2009) եւ քաղաքական գիտության բնագավառներում (Coppock and Green 2015) , տնտեսագիտության (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) եւ հոգեբանություն (Mitchell 2012) : Jerit, Barabas, and Clifford (2013) առաջարկում են հաճելի հետազոտական նախագծեր, արդյունքները համեմատելով լաբորատոր եւ դաշտային փորձարկումներից: Parigi, Santana, and Cook (2017) նկարագրում է, թե ինչպես առցանց դաշտային փորձերը կարող են համատեղել լաբորատորիաների եւ դաշտային փորձերի որոշ առանձնահատկություններ:
Անհանգստություն այն մասին, որ մասնակիցները փոխում են իրենց վարքագիծը, քանի որ նրանք գիտեն, որ նրանք ուշադիր հետեւում են, երբեմն կոչվում են պահանջարկի ազդեցություն , եւ նրանք սովորել են հոգեբանության մեջ (Orne 1962) եւ տնտեսագիտության (Zizzo 2010) : Չնայած հիմնականում լաբորատոր փորձերի հետ կապված, այս նույն խնդիրները կարող են խնդիրներ առաջացնել դաշտային փորձերի համար: Փաստորեն, պահանջարկի հետեւանքները նույնպես երբեմն կոչվում են Hawthorne հետեւանքները , այն տերմինը, որը բխում է 1924 թ-ին «Western Electric» ընկերության Hawthorne Works- ում (Adair 1984; Levitt and List 2011) հայտնի լուսավորման փորձարկումների արդյունքում: Երկուսն էլ պահանջում են ազդեցություն եւ Hawthorne հետեւանքները սերտորեն կապված են 2-րդ գլխում քննարկվող ռեակտիվ չափման գաղափարի հետ (տես նաեւ Webb et al. (1966) ):
Դաշտային փորձերը ունեն տնտեսագիտության երկար տարիներ (Levitt and List 2009) , Քաղաքագիտություն (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , հոգեբանություն (Shadish 2002) եւ հասարակական քաղաքականություն (Shadish and Cook 2009) . Հասարակական գիտության ոլորտը, որտեղ դաշտային փորձերը արագորեն դարձան միջազգային զարգացում: Տնտեսության մեջ այդ աշխատանքի դրական վերանայման համար տես Banerjee and Duflo (2009) , եւ քննադատական գնահատման համար տես Deaton (2010) : Քաղաքական գիտության այս աշխատանքի վերանայման համար տես Humphreys and Weinstein (2009) : Վերջապես, դաշտային փորձարկումների արդյունքում առաջացած էթիկական մարտահրավերները ուսումնասիրվել են քաղաքագիտության համատեքստում (Humphreys 2015; Desposato 2016b) եւ զարգացման տնտեսագիտության (Baele 2013) :
Այս բաժնում ես առաջարկեցի, որ նախնական բուժման տեղեկատվությունը կարող է օգտագործվել գնահատման բուժման ազդեցության ճշգրտության բարելավման համար, սակայն կա այս մոտեցման վերաբերյալ որոշ բանավեճեր, տես Freedman (2008) , W. Lin (2013) , Berk et al. (2013) եւ Bloniarz et al. (2016) լրացուցիչ տեղեկությունների համար:
Վերջապես, գոյություն ունեն երկու այլ տեսակի փորձեր, որոնք իրականացվում են սոցիալական գիտնականների կողմից, որոնք չեն համապատասխանում լաբորատոր դաշտի չափանիշներին. Հետազոտության փորձեր եւ սոցիալական փորձարկումներ: Հետազոտության փորձերը փորձարկումներ են, որոնք օգտագործվում են գոյություն ունեցող հետազոտությունների ենթակառուցվածքները եւ համեմատում են նույն հարցերի այլընտրանքային տարբերակները (որոշ հետազոտությունների փորձեր ներկայացված են Գլուխ 3-ում). ավելի շատ հետազոտության փորձերի համար տես Mutz (2011) : Սոցիալական փորձերը փորձարկումներ են, երբ բուժումը որոշակի սոցիալական քաղաքականություն է, որը կարող է իրականացվել միայն կառավարության կողմից: Սոցիալական փորձերը սերտորեն կապված են ծրագրի գնահատման հետ: Քաղաքական փորձերի վերաբերյալ ավելի շատ տեղեկությունների համար տեսեք Heckman and Smith (1995) , Orr (1998) եւ @ glennerster_running_2013:
Ես ընտրել եմ կենտրոնանալ երեք հասկացությունների վրա `վավերություն, բուժման ազդեցությունների բազմազանություն եւ մեխանիզմներ: Այս հասկացություններն ունեն տարբեր անուններ տարբեր ոլորտներում: Օրինակ, հոգեբանները ձգտում են անցնել պարզ փորձերի, ընդգծելով միջնորդներին եւ մոդերատորներին (Baron and Kenny 1986) : Միջնորդների գաղափարը գրավում է այն, ինչ ես կոչում եմ մեխանիզմներ, եւ մոդերատորների գաղափարը գրավում է այն, ինչ ես անվանում եմ արտաքին վավերականությունը (օրինակ, եթե փորձի արդյունքները տարբեր են, եթե դա տարբեր իրավիճակներում է իրականացվում) եւ բուժման հետեւանքների միատարրություն օրինակ, որոշ մարդիկ ավելի մեծ ազդեցություն են ունենում, քան մյուսների համար):
Schultz et al. (2007) Ցույց է տալիս, թե ինչպես են սոցիալական տեսությունները կարող են օգտագործվել արդյունավետ միջամտությունների նախագծման համար: Ավելի ընդհանուր փաստարկ, որ արդյունավետ դեր կատարելու համար տեսության դերի մասին տեսեք Walton (2014) :
Ներքին եւ արտաքին վավերականության հասկացությունները առաջին անգամ ներկայացվեցին Campbell (1957) : Տեսեք Shadish, Cook, and Campbell (2001) , Ավելի մանրամասն պատմության եւ վիճակագրական եզրակացության վավերականության, ներքին վավերության, կառուցվածքի վավերության եւ արտաքին վավերության մանրակրկիտ մշակման համար:
Փորձերի ժամանակ վիճակագրական եզրակացության վավերականության վերաբերյալ հարցերի Imbens and Rubin (2015) տես Gerber and Green (2012) (սոցիալական գիտական տեսանկյունից) եւ Imbens and Rubin (2015) (վիճակագրական տեսանկյունից): Վիճակագրական եզրակացության վավերականության որոշ հարցերը, որոնք առաջանում են հատուկ դաշտային փորձերի մեջ, ներառում են այնպիսի խնդիրներ, ինչպիսիք են վստահելի պարբերականությունների կախյալ տվյալների (Bakshy and Eckles 2013) ստեղծման համար հաշվարկային արդյունավետ մեթոդներ:
Ներքին վավերությունը կարող է դժվար լինել ապահովել բարդ դաշտային փորձարկումներ: Տես, օրինակ, Gerber and Green (2000) , Imai (2005) եւ Gerber and Green (2005) քվեարկության վերաբերյալ բարդ դաշտային փորձի իրականացման մասին բանավեճի համար: Kohavi et al. (2012) եւ Kohavi et al. (2013) ներկայացնում է առցանց դաշտային փորձարկումների միջամտության վավերականության մարտահրավերները:
Ներքին վավերականության հիմնական սպառնալիքներից մեկը հնարավոր է անհաջող ռադիազիզմը: Պատահականության հետ կապված խնդիրների հայտնաբերման մեկ հնարավոր տարբերակն այն է, որ բուժման եւ վերահսկման խմբերը համեմատելի հատկություններով համեմատեն: Նման համեմատությունը կոչվում է հավասարակշռման ստուգում : Տես Hansen and Bowers (2008) հավասարակշռված ստուգումների վերաբերյալ մտահոգությունների համար հավասարակշռության ստուգումների եւ Mutz and Pemantle (2015) վիճակագրական մոտեցման համար: Օրինակ, օգտագործելով հավասարակշռության ստուգում, Allcott (2011) գտել է որոշակի ապացույցներ, որ ռեադալիզացիան ճիշտ չի իրականացվել Opower փորձերի երեքում (տես աղյուսակ 2, էջեր 2, 6 եւ 8): Այլ մոտեցումների համար տես Imbens and Rubin (2015) գլուխ 21:
Ներքին ուժի հետ կապված այլ հիմնական մտահոգությունները հետեւյալն են. 1) միակողմանի անհամապատասխանություն, որտեղ ոչ բոլոր բուժական խմբում իրականում ստացել են բուժումը, 2) երկկողմանի անհամապատասխանությունը, որտեղ ոչ բոլոր բուժման խումբը ստանում է բուժումը եւ որոշ մարդիկ վերահսկող խումբը ստանում է բուժումը, 3) չարաշահմանը, որտեղ որոշ մասնակիցներ չեն գնահատվում, եւ (4) միջամտությունը, երբ բուժումը տարածվում է բուժման պայմաններում մարդկանցից `վերահսկողության պայմաններում: Տես ` Gerber and Green (2012) 5-րդ, 6-րդ, 7-րդ եւ 8-րդ գլուխները, այս ամենի մասին ավելի շատ:
Ավելի շատ կառուցապատման վավերականության համար տեսեք Westen and Rosenthal (2003) , Իսկ ավելի մեծ տվյալների աղբյուրի վրա ` Lazer (2015) եւ գլխի 2-րդ Lazer (2015) :
Արտաքին վավերության մեկ կողմը այն միջավայրն է, որով միջամտությունը փորձարկվում է: Allcott (2015) ապահովում է կայքի ընտրության կողմնակալության զգայուն տեսական եւ empirical վերաբերմունք: Այս հարցը քննարկվում է Deaton (2010) : Արտաքին վավերականության մյուս կողմը հետեւյալ միջամտության այլընտրանքային գործողություններ կունենան: Այս դեպքում համեմատություն Schultz et al. (2007) Եւ Allcott (2011) ցույց են տալիս, որ Opower փորձերը ունեցել են ավելի փոքր ազդեցություն, քան Schultz- ի եւ գործընկերների բնորոշ փորձերը (1.7% -ով, 5%): Allcott (2011) կարծում է, որ հետագա փորձերը փոքր ազդեցություն են թողել այն պատճառով, որ բուժումը տարբերվում է այն բանից, թե ինչպիսի վերաբերմունքի է ենթարկվում բուժումը, որպես ձեռագիր գրառումներ, որպես համալսարանի հովանավորած ուսումնասիրության մի մաս, համեմատած տպագրված զգացմունքների հետ, որպես զանգվածային արտադրության մաս հաշվետվություն էներգիայի ընկերության կողմից:
Gerber and Green (2012) . Gerber and Green (2012) Գլուխ 12-ում, դաշտային փորձարկումների բուժման ազդեցությունների բազմաբնույթ ակնարկների համար: Բժշկական Kravitz, Duan, and Braslow (2004) բուժման հետեւանքների տարբեր տեսակների ներդրման համար տես Kent and Hayward (2007) , Longford (1999) , Kravitz, Duan, and Braslow (2004) : Բուժման ազդեցությունների տարբեր տեսակների դիտարկումները հիմնականում կենտրոնանում են նախնական բուժման հատկանիշների վրա հիմնված տարբերությունների վրա: Եթե շահագրգռված եք հետընտրական արդյունքի վրա հիմնված միատարրությամբ, ապա անհրաժեշտ է ավելի բարդ մոտեցումներ, ինչպիսիք են հիմնական շերտավորումը (Frangakis and Rubin 2002) ; տես Page et al. (2015) վերանայման համար:
Շատ հետազոտողներ գնահատում են գծային ռեգրեսիայի կիրառմամբ բուժման հետեւանքների տարբերությունը, սակայն նոր մեթոդները հիմնված են մեքենայի ուսուցման վրա: տես, օրինակ, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) , Athey and Imbens (2016a) :
Կա որոշակի թերահավատություն հետեւանքների բազմապրոֆիլության արդյունքների վերաբերյալ, քանի որ բազմաթիվ համեմատության խնդիրներ եւ «ձկնորսություն»: Կան մի շարք վիճակագրական մոտեցումներ, որոնք կարող են օգնել լուծել բազմակի համեմատության մասին մտահոգությունները (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) : «Ձկնորսության» մասին մտահոգությունների մեկ մոտեցումը նախնական գրանցումն է, որն ավելի հաճախ տարածվում է հոգեբանության մեջ (Nosek and Lakens 2014) , քաղաքագիտություն (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , եւ տնտեսագիտություն (Olken 2015) :
Costa and Kahn (2013) ուսումնասիրության մեջ Costa and Kahn (2013) , փորձի տնային տնտեսությունների միայն կեսը կարող է կապված լինել ժողովրդագրական տեղեկատվության հետ: Այս մանրամասներին հետաքրքրող ընթերցողները պետք է վերաբերվեն բնօրինակ թղթին:
Մեխանիզմները աննկարագրելիորեն կարեւոր են, բայց նրանք շատ դժվար է սովորել: Հետազոտությունները մեխանիզմների վերաբերյալ սերտորեն կապված են միջնորդների հոգեբանության ուսումնասիրության հետ (բայց տեսեք նաեւ VanderWeele (2009) երկու գաղափարների ճշգրիտ համեմատության համար): Վիճակագրական մոտեցումներ գտնելու մեխանիզմներ, ինչպիսիք են Baron and Kenny (1986) մշակված մոտեցումը, բավական տարածված են: Ցավոք, պարզվում է, որ այդ ընթացակարգերը կախված են որոշակի հստակ ենթադրություններից (Bullock, Green, and Ha 2010) եւ տառապում են այն ժամանակ, երբ առկա են բազմաթիվ մեխանիզմներ, քանի որ կարելի է ակնկալել բազմաթիվ իրավիճակներում (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) : Imai et al. (2011) եւ Imai and Yamamoto (2013) առաջարկում են որոշակի բարելավված վիճակագրական մեթոդներ: Բացի այդ, VanderWeele (2015) առաջարկում է գիրքային բուժում մի շարք կարեւոր արդյունքների հետ, ներառյալ զգայունության վերլուծության նկատմամբ համապարփակ մոտեցում:
Առանձին մոտեցումը կենտրոնանում է փորձերի վրա, որոնք ուղղակիորեն մեխանիզմ են մղում (օրինակ, նավաստիների վիտամին C տալու): Ցավոք, շատ սոցիալական գիտությունների պարամետրերում հաճախ բազմաթիվ մեխանիզմներ կան, եւ դժվար է նախագծել բուժում, առանց փոխելու ուրիշներին: Ludwig, Kling, and Mullainathan (2011) փորձարարական փոփոխությունների որոշ մոտեցումներ նկարագրված են Ludwig, Kling, and Mullainathan (2011) Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) եւ Pirlott and MacKinnon (2016) :
Հետազոտողները, որոնք լիովին գործնական փորձեր են վարում, պետք է անհանգստանան բազմակի հիպոթեզների փորձարկման մեջ: տես Fink, McConnell, and Vollmer (2014) եւ List, Shaikh, and Xu (2016) լրացուցիչ տեղեկությունների համար:
Վերջապես, մեխանիզմները նաեւ ունեն պատմության փիլիսոփայության մեջ երկար պատմություն, ինչպես նկարագրված է Hedström and Ylikoski (2010) :
Լրացուցիչ հետազոտությունների եւ աուդիտի ուսումնասիրությունների օգտագործման վերաբերյալ խտրականությունը չափելու համար տես Pager (2007) :
Ամազոն Մեխանիկական Թուրք (MTurk) - փորձարկողներին հավաքելու ամենատարածված ձեւն է: Քանի MTurk- ը սովորեցնում է ավանդական լաբորատոր փորձերի ասպեկտները `վճարելով մարդկանց համար այն խնդիրները, որոնք նրանք չեն անի ազատ աշխատելու համար, քանի որ շատ հետազոտողներ արդեն սկսել են օգտագործել Թուրքերը (MTurk- ի աշխատողները) որպես փորձարարական մասնակիցներ, ինչը հանգեցնում է ավելի արագ եւ ավելի մատչելի տվյալների հավաքագրմանը, քան կարելի է հասնել ավանդական ճամբարային լաբորատոր փորձերի ժամանակ (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) :
Ընդհանուր առմամբ, MTurk- ից ստացված մասնակիցների օգտագործման առավելագույն առավելությունները տրամաբանական են: Մինչդեռ լաբորատոր փորձերը կարող են շաբաթներ անցկացնել վազում եւ դաշտային փորձարկումներ կարող են տեւել ամիսներ, փորձեր, MTurk- ից հավաքագրված մասնակիցների հետ կարող են գործել օրեր: Օրինակ, Berinsky, Huber, and Lenz (2012) կարողացան միանման օրվա ընթացքում 400 առարկաներ հավաքել `մասնակցելու 8 րոպե փորձի: Բացի այդ, այդ մասնակիցները կարող են գրավել գրեթե ցանկացած նպատակի համար (ներառյալ հետազոտություններ եւ զանգվածային համագործակցություն, ինչպես եւ 3-րդ եւ 5-րդ գլուխներում): Զբաղվելու այդ հեշտությունը նշանակում է, որ հետազոտողները կարող են առաջադրանքների հաջորդականությունը կատարել արագ փոխարինման ժամանակ:
Նախքան MTurk- ի մասնակիցների հավաքագրումը ձեր սեփական փորձերի համար կան չորս կարեւոր բաներ, որոնք դուք պետք է իմանաք: Նախ, շատ հետազոտողներ ունեն թուրքերի հետ առնչվող փորձերի անհեթեթ թերահավատություն: Քանի որ այս թերահավատությունը կոնկրետ չէ, դժվար է զերծ մնալ ապացույցների հետ: Այնուամենայնիվ, թուրքերը օգտագործելով մի քանի տարիների ուսումնասիրություններից հետո, այժմ կարող ենք եզրակացնել, որ այս թերահավատությունը հատկապես արդարացված չէ: Թուրքերների ժողովրդագրությունը համեմատած այլ բնակչության հետ համեմատած բազմաթիվ ուսումնասիրություններ են եղել եւ բազմաթիվ փորձություններ, որոնք համեմատում են թուրքերի հետ փորձերի արդյունքների հետ, այլ բնակչություններից են: Հաշվի առնելով այս բոլոր աշխատանքները, ես կարծում եմ, որ լավագույնը ձեզ համար այն մասին մտածելն այն է, որ թուրքերը սովորական հարմարավետության նմուշ են, շատ նման են ուսանողներին, բայց մի փոքր ավելի բազմազան (Berinsky, Huber, and Lenz 2012) : Այսպիսով, ինչպես որ աշակերտները որոշակի, բայց ոչ բոլորի համար ողջամիտ բնակչություն են, հետազոտողները, թուրքերը որոշակի մարդկանց համար խելամիտ բնակչություն են, բայց ոչ բոլորը, հետազոտությունները: Եթե դուք պատրաստվում եք աշխատել թուրքերի հետ, ապա իմաստ ունի շատ կարդալ այդ համեմատական ուսումնասիրությունները եւ հասկանալ դրանց նրբությունները:
Երկրորդ, հետազոտողները MTurk- ի փորձերի ներքին վավերության բարձրացման լավագույն փորձեր են մշակել, եւ դուք պետք է իմանաք եւ հետեւեք այս լավագույն փորձերին (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) : Օրինակ, թուրքերի օգտագործող հետազոտողները խրախուսվում են օգտագործել (Berinsky, Margolis, and Sances 2014, 2016) մասնակիցներին (Berinsky, Margolis, and Sances 2014, 2016) հեռացնել (սակայն տես նաեւ DJ Hauser and Schwarz (2015b) եւ DJ Hauser and Schwarz (2015a) ): Եթե դուք անտարբեր մասնակից չեք դարձնում, ապա բուժման որեւէ ազդեցություն կարող է լվանալ այն աղմուկով, որը նրանք ներկայացնում են, իսկ գործնականում զգուշավոր մասնակիցների թիվը կարող է լինել էական: Հյուբերի եւ գործընկերների փորձի ժամանակ (2012) , Մասնակիցների մոտ 30% -ը հիմնական ուշադրությունը կենտրոնացրեց: Այլ խնդիրներ, որոնք սովորաբար առաջանում են այն ժամանակ, երբ օգտագործվում են թուրքերները, միակամիտ մասնակիցներ են (Chandler et al. 2015) եւ կրճատում (Zhou and Fishbach 2016) :
Երրորդ, թվային փորձերի որոշ այլ ձեւերի համեմատ, MTurk փորձերը չեն կարող ընդարձակել; Stewart et al. (2015) Կանխատեսում է, որ ցանկացած ժամանակ ցանկացած ժամանակ ընդամենը մոտ 7000 մարդ MTurk- ում է:
Վերջապես, դուք պետք է իմանաք, որ MTurk- ը սեփական կանոններով եւ նորմերով համայնք է (Mason and Suri 2012) : Նույն ձեւով, որ դուք փորձեք պարզել մի երկրի մշակույթը, որտեղ դուք փորձելու եք ձեր փորձերը, դուք պետք է փորձեք ավելին իմանալ թուրքերի մշակույթի եւ նորմերի մասին (Salehi et al. 2015) Salehi (Salehi et al. 2015) : Եվ դուք պետք է իմանաք, որ թուրքերը կխոսեն ձեր փորձի մասին, եթե անիրավ կամ անբարենպաստ բան եք անում (Gray et al. 2016) :
MTurk- ը աներեւակայելի հարմար միջոց է մասնակիցներին ձեր փորձերի համար, թե արդյոք դրանք լաբորատորիաներ են, ինչպիսիք են Huber, Hill, and Lenz (2012) կամ ավելի դաշտային նման, ինչպիսիք են Mason and Watts (2009) , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) եւ Mao et al. (2016) :
Եթե մտածում եք սեփական արտադրանքը ստեղծելու մասին, ես խորհուրդ եմ տալիս կարդալ Harper and Konstan (2015) MovieLens խմբի կողմից առաջարկված խորհուրդները: Իրենց փորձից ստացվող հիմնական հասկացությունն այն է, որ յուրաքանչյուր հաջող նախագծի համար կան շատ, շատ ձախողումներ: Օրինակ, MovieLens խումբը գործարկել է այլ ապրանքներ, ինչպիսիք են GopherAnswers- ը, որոնք լիակատար անհաջողություններ ունեն (Harper and Konstan 2015) : Էդուարդ Կաստրոնովայի ստեղծագործությունը ստեղծելու փորձ չկարողացող հետազոտողներից մեկի օրինակն այն է, որ Arden- ը կոչվում է օնլայն խաղ: Չնայած ֆինանսավորմանը 250,000 ԱՄՆ դոլարի չափով, ծրագիրը նախագիծ էր (Baker 2008) : Ծրագրեր, ինչպիսիք են GopherAnswers- ը եւ Arden- ը, շատ ավելի տարածված են, քան MovieLens- ի նման նախագծերը:
Ես լսել եմ Pasteur Quadrant- ի գաղափարը, որը հաճախ քննարկվում է տեխնոլոգիական ընկերություններում եւ օգնում է Google- ի (Spector, Norvig, and Petrov 2012) հետազոտական աշխատանքները կազմակերպել:
Բոնդը եւ գործընկերների ուսումնասիրությունը (2012) Նույնպես փորձում են հայտնաբերել այդ բուժման ազդեցությունը նրանց ստացածների ընկերների վրա: Փորձի նախագծման պատճառով այս spillovers դժվար է մաքուր հայտնաբերել; հետաքրքրված ընթերցողները պետք է տեսնեն Bond et al. (2012) ավելի մանրակրկիտ քննարկման համար: Ջոնսը եւ գործընկերները (2017) Նույնպես շատ նմանատիպ փորձեր են անցկացրել 2012 թ. Ընտրությունների ժամանակ: Այս փորձերը ընտրությունների խթանման ջանքերի վերաբերյալ քաղաքական գիտության փորձերի երկարատեւ ավանդույթի մի մասն են (Green and Gerber 2015) : Սրանք քվեարկության փորձերն ընդհանուր առմամբ տարածված են, քանի որ դրանք Pasteur Quadrant- ում են: Այսինքն, կան շատ մարդիկ, ովքեր ձգտում են բարձրացնել քվեարկությունը եւ քվեարկությունը, կարող են լինել հետաքրքիր վարք, փորձելու սովորույթների փոփոխության եւ սոցիալական ազդեցության մասին ավելի շատ ընդհանուր տեսություն:
Գործընկեր կազմակերպությունների, օրինակ, քաղաքական կուսակցությունների, ՀԿ-ների եւ ձեռնարկությունների հետ դաշտային փորձերի վարման վերաբերյալ խորհրդատվության համար տես Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) եւ Gueron (2002) : Հանգամանքները, թե ինչպես կազմակերպությունների հետ համագործակցությունը կարող է ազդել հետազոտական նմուշների վրա, տես King et al. (2007) եւ Green, Calfano, and Aronow (2014) : Գործընկերությունը կարող է հանգեցնել բարոյական հարցերի, ինչպես քննարկվում է Humphreys (2015) եւ Nickerson and Hyde (2016) :
Եթե փորձեք նախքան փորձարկել ձեր վերլուծության պլանը, ես առաջարկում եմ, որ սկսեք կարդալ հաշվետվության ուղեցույցները: CONSORT (Դատավարությունների համախմբված ստանդարտ հաշվետվություն) ուղեցույցները մշակվել են բժշկության մեջ (Schulz et al. 2010) եւ փոփոխվել են սոցիալական հետազոտությունների համար (Mayo-Wilson et al. 2013) : Mutz and Pemantle (2015) քաղաքականության գիտական ամսագրի խմբագիրները (Gerber et al. 2014) մշակել են ուղեցույցների համապատասխան փաթեթը (տես նաեւ Mutz and Pemantle (2015) եւ Gerber et al. (2015) ): Վերջապես, հաշվետվության ուղեցույցները մշակվել են հոգեբանության մեջ (APA Working Group 2008) եւ տես նաեւ Simmons, Nelson, and Simonsohn (2011) :
Եթե դուք ստեղծում եք վերլուծության ծրագիր, դուք պետք է հաշվի առնեք նախնական գրանցումը, քանի որ նախնական գրանցումը կբարձրացնի վստահությունը, որ մյուսները ունեն ձեր արդյունքներում: Հետագայում, եթե դուք աշխատում եք գործընկերոջ հետ, ապա այն կսահմանափակի ձեր գործընկերոջ կարողությունը վերլուծության արդյունքը տեսնելուց հետո փոխելու համար: Նախնական գրանցումը դառնում է ավելի շատ տարածված հոգեբանության մեջ (Nosek and Lakens 2014) , քաղաքագիտություն (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) եւ տնտեսագիտություն (Olken 2015) :
Դիզայն խորհրդատվությունը, մասնավորապես, առցանց դաշտային փորձերի համար ներկայացված է նաեւ Konstan and Chen (2007) եւ Chen and Konstan (2015) :
Այն, ինչ ես կոչ արեցի ռազմավարության ռազմավարությունը, երբեմն կոչվում է ծրագրային հետազոտություն ; տես Wilson, Aronson, and Carlsmith (2010) :
Երաժշտության լաբորատոր փորձերի մասին ավելին իմանալու համար կարելի է տեսնել Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) Salganik and Watts (2009a) Salganik and Watts (2009b) , Salganik and Watts (2009a) եւ Salganik (2007) : Մրցույթին մասնակցելու համար հաղթող ճանաչված բոլոր շուկաներում տես Frank and Cook (1996) : Լրացուցիչ տեղեկությունների համար կարելի է տեսնել Mauboussin (2012) , Watts (2012) եւ Frank (2016) :
Մասնակիցների վճարումների վերացման այլ մոտեցում կա, որ հետազոտողները պետք է օգտագործեն զգուշությամբ `զորակոչ: Շատ առցանց դաշտի փորձերում մասնակիցները հիմնականում փորձարկվում են եւ չեն փոխհատուցվում: Այս մոտեցման օրինակները ներառում են «Ռեստիվո» եւ «Վան դե Ռիտի» (2012) փորձարկումներ Վիքիպեդիայում եւ Բոնդում եւ գործընկերոջ (2012) Փորձի մասին `քվեարկելու մարդկանց խրախուսելու համար: Այս փորձերը իրականում չունեն փոփոխական փոփոխական արժեքներ, այլ ոչ թե զրոյական փոփոխական ծախսեր են հետազոտողների համար : Նման փորձերի դեպքում, նույնիսկ եթե յուրաքանչյուր մասնակցի արժեքը չափազանց փոքր է, համախառն արժեքը կարող է բավականին մեծ լինել: Զանգվածային առցանց փորձեր կատարող հետազոտողները հաճախ հիմնավորում են փոքր գնահատված բուժման ազդեցությունների կարեւորությունը, ասելով, որ այդ փոքր ազդեցությունները կարող են կարեւոր դեր խաղալ շատ մարդկանց համար: Ճշգրիտ նույն մտածողությունը վերաբերում է այն ծախսերին, որոնք հետազոտողները ներարկում են մասնակիցներին: Եթե ձեր փորձարկումն առաջացնում է մեկ միլիոն մարդ մեկ րոպե լքելու համար, փորձը ոչ մի կոնկրետ անձի համար շատ վնասակար չէ, բայց ընդհանուր առմամբ այն կորցրեց գրեթե երկու տարի:
Մեկ այլ մոտեցում, մասնակիցների համար անփոփոխ փոփոխական ծախսերի վճարումը, վիճակախաղի օգտագործումն է, որը կիրառվել է նաեւ հետազոտության հետազոտության մեջ (Halpern et al. 2011) : Ավելի շատ հաճելի օգտվողների փորձի նախագծման մասին, տես Toomim et al. (2011) : Բոտերին օգտագործելու մասին ավելի շատ խոսելու համար տեսեք զրոյական փոփոխական ծախսերի փորձարկումները ( ??? ) :
Երեք R- ն, ի սկզբանե Russell and Burch (1959) առաջարկված, հետեւյալն են.
«Replacement նշանակում փոխարինելն գիտակից ապրող բարձրագույն կենդանիների insentient նյութական. Կրճատումը նշանակում նվազեցման թվերի կենդանիների օգտագործվող ստանալ տեղեկատվություն տվյալ գումարի եւ ճշգրտությամբ. Զտում նշանակում է ցանկացած նվազում դեպքից կամ աստիճանը անմարդկային ընթացակարգերի կիրառվող այն կենդանիների, որոնք դեռ պետք է օգտագործվել »:
Երեք R- ը, որ ես առաջարկում եմ, չեմ անտեսում 6-րդ գլխում նկարագրված էթիկական սկզբունքները: Ավելի շուտ նրանք ավելի շատ մշակված տարբերակ են այդ սկզբունքներից մեկը, բարեգործությունը, հատկապես մարդկային փորձերի շրջանում:
Առաջին Ռ («փոխարինում») առումով, համեմատելով հուզական բորբոքման փորձը (Kramer, Guillory, and Hancock 2014) եւ հուզական (Lorenzo Coviello et al. 2014) բնական փորձառությունը (Lorenzo Coviello et al. 2014) առաջարկում է որոշակի ընդհանուր դասեր փորձարկումներից բնական փորձերի տեղափոխման (եւ այլ մոտեցումներ, որոնք նման են ոչ փորձարարական տվյալների փորձերի մոտեցման փորձին, տես գլուխ 2): Էթիկական օգուտներից բացի, փորձնականից ոչ փորձնական ուսումնասիրություններ անցնելը նաեւ հնարավորություն է տալիս հետազոտողներին ուսումնասիրել այն բուժումները, որոնք նրանք տրամաբանականորեն չեն կարողանում տեղակայել: Այս էթիկական եւ լոգիստիկ օգուտները, սակայն, արժե: Բնական փորձերի միջոցով հետազոտողները պակաս վերահսկողություն են ունենում մասնակիցների հավաքագրման, ռադիոիզացիայի եւ բուժման բնույթի վերաբերյալ: Օրինակ, անձրեւի մեկ սահմանափակում, որպես բուժում, այն է, որ երկուսն էլ մեծացնում են դրականությունը եւ նվազեցնում են բացասական երեւույթները: Փորձագիտական ուսումնասիրության մեջ, սակայն, Կրամերը եւ գործընկերները կարողացան ինքնուրույն կարգավորել դրականությունը եւ բացասականը: Lorenzo Coviello et al. (2014) կողմից կիրառվող առանձնահատուկ մոտեցումը Lorenzo Coviello et al. (2014) հետագայում մշակվել է L. Coviello, Fowler, and Franceschetti (2014) : Գործիքային փոփոխականների ներդրման համար, որն օգտագործվում է Lorenzo Coviello et al. (2014) , տես Angrist and Pischke (2009) (պակաս ֆորմալ) կամ Angrist, Imbens, and Rubin (1996) (ավելի պաշտոնական): Deaton (2010) փոփոխականների թերահավատ գնահատման համար տես Deaton (2010) , եւ թույլ գործիքների (անձրեւը թույլ գործիքը) գործիքային փոփոխականների ներդրման համար տես Murray (2006) : Ընդհանուր առմամբ, լավ ներդրում է բնական փորձերի տրվում է Dunning (2012) , իսկ Rosenbaum (2002) , ( ??? ) , եւ Shadish, Cook, and Campbell (2001) առաջարկել լավ գաղափարների մասին, գնահատելով պատճառահետեւանքային հետեւանքները, առանց փորձերի.
Երկրորդ R («մաքրում») առումով, գոյություն ունեն գիտական եւ լոգիստիկ առեւտրային գործարքներ, երբ հաշվի առնելով Emotional Contagion- ի դիզայնի փոփոխությունները `խոչընդոտող պաշտոններից խթանելու համար: Օրինակ, կարող է լինել այն հանգամանքը, որ News Feed- ի տեխնիկական իրականացումը զգալիորեն ավելի հեշտ է դարձնում այն փորձարկումը, որով գրառումներն արգելափակված են, քան մեկ, որտեղ դրանք խթանվում են (նշեք, որպես շերտ, News Feed System- ի վերեւում առանց առանցքային համակարգի փոփոխությունների անհրաժեշտության): Գիտնականորեն, սակայն, փորձի կողմից ներկայացված տեսությունը հստակ չէր առաջարկել մեկ նախագծում մյուսի նկատմամբ: Ցավոք, ես տեղյակ չեմ նախորդ հետազոտությունների մասին, News Feed- ի բովանդակության արգելափակման եւ խթանման հարաբերական արժեքների մասին: Բացի այդ, ես չեմ տեսել շատ հետազոտություններ մաքրելու բուժման մասին, որպեսզի դրանք ավելի քիչ վնասակար լինեն: մեկ բացառություն է, B. Jones and Feamster (2015) , որը համարում է ինտերնետ գրաքննության չափման գործը (I քննարկման թեմա 6-ում, Encore ուսումնասիրության հետ կապված (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) ):
Երրորդ R («կրճատում») առումով, ավանդական ուժերի վերլուծության լավ ներածությունները տրվում են Cohen (1988) (Book) եւ Cohen (1992) (հոդված), մինչդեռ Gelman and Carlin (2014) առաջարկում են մի փոքր տարբեր տեսանկյունից: Նախնական բուժման կովարացիաները կարող են ներառվել փորձերի նախագծման եւ վերլուծության փուլում. Gerber and Green (2012) գլխի 4-ը Gerber and Green (2012) ապահովում է երկու մոտեցումների լավ ներածություն, եւ Casella (2008) ապահովում է ավելի խորը բուժում: Տեխնոլոգիաները, որոնք օգտագործում են այս նախնական բուժման տեղեկատվությունը ռադադվալիզացիայում, սովորաբար անվանում են կամ արգելափակված փորձարարական նմուշներ կամ փորձարկվող փորձարարական նմուշներ (տերմինաբանությունը չի օգտագործվում հետեւողականորեն համայնքներում); այդ տեխնիկան սերտորեն կապված են գլխի 3-ում քննարկվող ընտրված մեթոդների հետ: Տես Higgins, Sävje, and Sekhon (2016) `ավելի շատ օգտագործելու համար այդ նմուշները զանգվածային փորձերում: Նախնական բուժման կովարացիաները կարող են ներառվել վերլուծության փուլում: McKenzie (2012) ուսումնասիրում է տարբերության տարբերությունների մոտեցումը դաշտային փորձերի վերլուծության համար ավելի մանրամասն: Տեսեք Carneiro, Lee, and Wilhelm (2016) , ավելի շատ մոտեցումների միջեւ տարբեր մոտեցումների միջեւ ճշգրտության բարձրացման բուժման հետեւանքների. Վերջապես, երբ որոշում կայացնել, թե արդյոք փորձել նախնական բուժման կովարացիաները ներառել նախագծման կամ վերլուծության փուլում (կամ երկուսն էլ), կան մի քանի գործոններ: Հետազոտողները ցանկանում են ցույց տալ, որ նրանք «ձկնորսություն» չեն (Humphreys, Sierra, and Windt 2013) , նախնական բուժման կովարացիաները օգտագործելով նախագծային փուլում կարող են օգտակար լինել (Higgins, Sävje, and Sekhon 2016) : Այն դեպքերում, երբ մասնակիցները հաջորդաբար գալիս են, հատկապես առցանց դաշտային փորձարկումները, նախնական բուժման տեղեկատվությունը նախագծման փուլում օգտագործելով, կարող են դժվար լինել լոգիստիկ կերպով. տես, օրինակ, Xie and Aurisset (2016) :
Հարկավոր է ավելացնել մի քիչ ինտուիցիա, թե ինչու է տարբերությունը տարբեր-տարբերությունների մոտեցումը կարող է լինել ավելի արդյունավետ, քան տարբերությունը, նշանակում է մեկը: Ինտերնետի շատ արդյունքներ շատ մեծ տարբերություն ունեն (տես, օրինակ, RA Lewis and Rao (2015) եւ Lamb et al. (2015) ) եւ համեմատաբար կայուն ժամանակի ընթացքում: Այս դեպքում փոփոխության հաշիվը կունենա զգալիորեն փոքր տարբերություն, բարձրացնելով վիճակագրական փորձարկման ուժը: Այս մոտեցման պատճառներից մեկը հաճախ օգտագործված չէ, այն է, որ թվային տարիքից առաջ սովորական չէ նախնական բուժման արդյունքներ ունենալ: Այս մասին մտածելու ավելի կոնկրետ միջոց է պատկերացնել, թե փորձարկումը չափելու համար որոշակի զորավարժությունների անցկացումն առաջացնում է քաշի կորուստ: Եթե դուք ընդունում եք տարբերության միջոցների մոտեցում, ձեր գնահատումը կունենա փոփոխականություն, որը կախված է բնակչության կշիռների փոփոխականությունից: Եթե դուք տարբերություն եք տեսնում տարբերությունների մեջ, ապա այն, որ բնականաբար տեղի է ունենում կշիռների փոփոխություն, եւ դուք կարող եք ավելի հեշտությամբ հայտնաբերել բուժման հետեւանքով առաջացած տարբերությունը:
Վերջիվերջո ես համարեցի չորրորդ R- ին ավելացնելով `« repurpose »: Այսինքն, եթե հետազոտողները ավելի շատ փորձարարական տվյալներ ունենան, քան նրանք պետք է անդրադառնան իրենց սկզբնական ուսումնասիրության հարցին, ապա նրանք պետք է վերացնեն տվյալները `նոր հարցեր տալ: Օրինակ, պատկերացրեք, որ Քրամերը եւ գործընկերները տարբեր տարբերակներով գնահատականներ են օգտագործել եւ ավելի շատ տվյալներ են հայտնաբերել, քան նրանք պետք է դիմեն իրենց հետազոտական հարցին: Փոխարենը, տվյալների օգտագործումը լիարժեք օգտագործելու փոխարեն, նրանք կարող էին ուսումնասիրել ազդեցության չափը, որպես նախնական բուժման հուզական արտահայտություն: Ինչպես եւ Schultz et al. (2007) Պարզել է, որ բուժման ազդեցությունը տարբերվում է թեթեւ եւ ծանր օգտագործողների համար, թերեւս News Feed- ի ազդեցությունները տարբեր էին այն մարդկանց համար, ովքեր արդեն հակված էին երջանիկ (կամ տխուր) հաղորդագրություններ գրել: Repurposing կարող է հանգեցնել «ձկնորսություն» (Humphreys, Sierra, and Windt 2013) եւ «p-hacking» (Simmons, Nelson, and Simonsohn 2011) , բայց դրանք հիմնականում հասցեավորված է համադրություն ազնիվ հաշվետվությունների (Simmons, Nelson, and Simonsohn 2011) , նախնական գրանցման (Humphreys, Sierra, and Windt 2013) եւ մեքենաների ուսուցման մեթոդները, որոնք փորձում են խուսափել գերադասելի տեղերից: