Sosial araşdırmalarda nəyə əsaslanan suallar tez-tez kompleks və mürəkkəbdir. Imbens and Rubin (2015) əsaslanan Imbens and Rubin (2015) əsaslı yanaşma üçün Pearl (2009) və potensial nəticələrə əsaslanan əsaslı bir yanaşma üçün " Imbens and Rubin (2015) bax. Bu iki yanaşma arasında müqayisə üçün Morgan and Winship (2014) . VanderWeele and Shpitser (2013) müəyyənləşdirilməsi üçün rəsmi bir yanaşma üçün VanderWeele and Shpitser (2013) baxın.
Bu fəsildə mən eksperimental və qeyri-təcrübi məlumatlardan nəyə görə qiymətləndirmələr etmək qabiliyyətimiz arasında parlaq bir xətt kimi göründüyünü yaratdım. Lakin, hesab edirəm ki, əslində, fərqlilik daha ləkədir. Məsələn, hər kəs siqaretin xərçəngə səbəb olduğunu qəbul edir, hətta insanların duman verməsinə mane olan heç bir təsadüfi yoxlamalı sınaq təcrübəsi olmur. Eksperimental olmayan məlumatlardan nəticə çıxarmaq üçün əla kitab uzunluğu müalicəsi üçün Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) və Dunning (2012) Shadish, Cook, and Campbell (2001) .
Freedman, Pisani, and Purves (2007) -nin 1-ci və 2-ci fəsillərində eksperimentlər, nəzarət edilən təcrübələr və randomizə edilmiş nəzarət təcrübələri arasındakı fərqlərə aydınlıq gətirilir.
Manzi (2012) , təsadüfi nəzarət edilən təcrübələrin fəlsəfi və statistik əsaslarını maraqlandırıcı və oxunaqlı bir giriş təqdim edir. Həm də biznesdə təcrübə gücünün maraqlı real-dünya nümunələrini təqdim edir. Issenberg (2012) siyasi kampaniyalarda eksperimentlərin istifadəsinə maraqlı bir giriş təqdim edir.
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008 və Athey and Imbens (2016b) eksperimental dizayn və analizin statistik aspektlərinə yaxşı tanışlıq təmin edir. Iqtisadiyyat: Əlavə, bir çox müxtəlif sahələrdə təcrübə istifadə əla müalicə var (Bardsley et al. 2009) , sosiologiya (Willer and Walker 2007; Jackson and Cox 2013) , psixologiya (Aronson et al. 1989) , siyasi elm (Morton and Williams 2010) və sosial siyasət (Glennerster and Takavarasha 2013) .
İştirakçının işə götürülməsinin əhəmiyyəti (məsələn, nümunə) eksperimental tədqiqatda tez-tez qiymətləndirilmir. Ancaq müalicənin təsiri əhali içində heterojen olduqda, nümunə alma kritikdir. Longford (1999) tədqiqatçıların təcrübəli düşüncələrə qənaət etdikləri zaman əhali araşdırması kimi təsadüfən nümunə götürmə kimi müdafiə edərkən bu nöqtəni açıq şəkildə göstərir.
Mən laboratoriya və sahə təcrübələri arasında bir davamlılıq olduğunu və digər tədqiqatçılar, xüsusilə müxtəlif sahə təcrübələrini (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) ayırdığınız daha ətraflı tipoloji təklif etdilər.
Bir sıra sənədlər mübahisədə (Falk and Heckman 2009; Cialdini 2009) və siyasi elmdə (Coppock and Green 2015) , iqtisadiyyatda (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) və psixologiya (Mitchell 2012) . Jerit, Barabas, and Clifford (2013) laboratoriya və sahə təcrübələrindəki nəticələri müqayisə etmək üçün gözəl bir araşdırma dizaynını təqdim edir. Parigi, Santana, and Cook (2017) onlayn sahədə təcrübələrin laboratoriya və sahə təcrübələrinin bəzi xüsusiyyətlərini necə birləşdirə biləcəyini təsvir edir.
Tənqid olunduqlarını bildikləri üçün davranışlarını dəyişdirən iştirakçılar haqqında narahatlıqlar bazən istək effektləri adlanır və onlar psixologiya (Orne 1962) və iqtisadiyyat (Zizzo 2010) kimi tədqiq edilmişdir. Əksər laboratoriya təcrübələri ilə əlaqəli olmasına baxmayaraq, eyni məsələlər də sahə təcrübələrində problem yarada bilər. Əslində, tələffüz təsirləri bəzən Hawthorne effektləri adlanır, 1924-cü ildə "Western Electric" şirkətinin Hawthorne əsərlərində başlayan məşhur işıqlandırma təcrübələrini (Adair 1984; Levitt and List 2011) əldə edən bir müddətdir. Hər iki tələb təsiri və Hawthorne təsiri fəsil 2-də müzakirə edilən reaktiv ölçülmə ideyası ilə yaxından əlaqələndirilir (həmçinin, Webb et al. (1966) ).
Alan təcrübələr iqtisadiyyatda (Levitt and List 2009) , siyasi elmdə (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , psixologiya (Shadish 2002) və ictimai siyasəti (Shadish and Cook 2009) . Sahə təcrübələrinin sürətlə inkişaf etdiyi bir sosial elm sahəsində beynəlxalq inkişafdır. İqtisadiyyat daxilində bu işin müsbət qiymətləndirilməsi üçün Banerjee and Duflo (2009) və kritik qiymətləndirmə üçün Deaton (2010) baxın. Siyasi elmdə bu işin nəzərdən keçirilməsi üçün Humphreys and Weinstein (2009) baxın. Nəhayət, sahə təcrübələrindən doğan etik problemlər siyasət elmləri (Humphreys 2015; Desposato 2016b) və inkişaf iqtisadiyyatı (Baele 2013) kontekstində araşdırılmışdır.
Bu bölmədə mən əvvəlcədən müalicə olunan məlumatların təxmin edilən müalicə effektlərinin dəqiqliyini yaxşılaşdırmaq üçün istifadə edə biləcəyini irəli sürmüşdüm, lakin bu yanaşma barədə bəzi müzakirələr var; Freedman (2008) , W. Lin (2013) , Berk et al. (2013) və Bloniarz et al. (2016) daha ətraflı məlumat üçün.
Nəhayət, laboratoriya sahəsində ölçüyə uyğun olmayan sosial elm adamları tərəfindən həyata keçirilən iki növ təcrübə var: araşdırma təcrübələri və sosial təcrübələr. Sorğu təcrübələri mövcud sorğuların infrastrukturundan istifadə edərək, eyni sualların alternativ versiyalarına cavab verən təcrübələrdir (bəzi tədqiqat təcrübələri Fəsil 3-də verilmişdir); araşdırma təcrübələri haqqında daha ətraflı məlumat üçün baxın Mutz (2011) . Sosial təcrübələr müalicənin yalnız bir hökumət tərəfindən həyata keçirilə biləcəyi bəzi sosial siyasət olduğu təcrübələrdir. Sosial təcrübələr proqram qiymətləndirmə ilə yaxından əlaqələndirilir. Siyasət təcrübələrində daha ətraflı məlumat üçün, Heckman and Smith (1995) , Orr (1998) və @ glennerster_running_2013.
Mən üç anlayışa diqqət yetirmişəm: etibarlılıq, müalicə effektlərinin heterojenliyi və mexanizmlər. Bu anlayışlar müxtəlif sahələrdə fərqli adlara sahibdir. Məsələn, psixoloqlar mediatorlar və moderatorlara diqqət göstərərək sadə təcrübələrdən kənara çıxırlar (Baron and Kenny 1986) . Mediatorların ideyası mexanizmlər adlandırdığım şeylə tutulur və moderator ideyası xarici etibarlılıq adlandırdığım (məsələn, müxtəlif hallarda baş verərsə, eksperimentin nəticələrindən fərqli olar) və tutulma effektlərinin heterojenliyi ilə tutulur ( məsələn, bəzi insanlar üçün başqalarından daha böyükdür).
Schultz et al. (2007) effektiv müdaxilələrin hazırlanması üçün sosial nəzəriyyələrin necə istifadə olacağını göstərir. Effektiv müdaxilələrin hazırlanmasında nəzəriyyə rolu ilə bağlı daha ümumi mübahisə üçün, Walton (2014) baxın.
Daxili və xarici etibarlılıq konsepsiyaları ilk dəfə Campbell (1957) tərəfindən Campbell (1957) təqdim olundu. Daha ətraflı tarix və statistik nəticələrin etibarlılığını, daxili etibarlılığını, etibarlılığını və xarici etibarlılığını diqqətlə hazırlamaq üçün Shadish, Cook, and Campbell (2001) baxın.
Təcrübələrdə statistik nəticələrin etibarlılığına dair məsələlərə dair ümumi məlumat üçün, Gerber and Green (2012) (sosial elm baxımından) və Imbens and Rubin (2015) (statistik baxımdan) baxın. Xüsusi olaraq onlayn sahə təcrübələrində yaranan statistik nəticələrin etibarlılığının bəzi məsələləri bağlı məlumatlarla etibarlı intervalları yaratmaq üçün hesablama üsullarından səmərəli üsullar (Bakshy and Eckles 2013) kimi məsələləri əhatə edir.
Daxili etibarlılıq kompleks sahə təcrübələrini təmin etmək çətin ola bilər. Gerber and Green (2000) , Imai (2005) və Gerber and Green (2005) səsvermə haqqında kompleks bir sahə təcrübəsinin həyata keçirilməsi ilə bağlı müzakirələrə baxın. Kohavi et al. (2012) və Kohavi et al. (2013) onlayn sahə təcrübələrində aralıq etibarlılıq problemlərinə giriş təmin edir.
Daxili etibarlılığa qarşı bir əsas təhlükə uğursuz randomizasiya imkanıdır. Randomizələşmə ilə bağlı problemlərin aşkarlanmasının bir potensial yolu müalicə və nəzarət qruplarını müşahidə olunan xüsusiyyətlərə müqayisə etməkdir. Bu cür müqayisə balans çeki deyilir. Hansen and Bowers (2008) balans yoxlamaları ilə bağlı narahatlıqlar üçün Mutz and Pemantle (2015) balans balansına statistik bir yanaşma baxın. Misal üçün, Allcott (2011) bir balans çekindən istifadə edərək, Opower təcrübələrinin üçində təsadüfən düzgün tətbiq olunmadığına dair bəzi sübutlar tapmışdır (baxın: 2-ci cədvəl, saytlar 2, 6 və 8). Digər yanaşmalar üçün, Imbens and Rubin (2015) 21-ci fəslinə baxın.
Daxili etibarlılığı ilə bağlı başlıca digər narahatlıqlar aşağıdakılardır: (1) müalicə qrupundakı hər kəs həqiqətən müalicə almadıqda, bir tərəfli uyğunsuzluq; (2) müalicə qrupundakı hər kəs müalicəyə daxil olmadıqda, nəzarət qrupu müalicəni alır, (3) nəticələr bəzi iştirakçılar üçün ölçülmür və (4) müalicənin müalicə vəziyyətində olan insanlardan nəzarət vəziyyətində olan insanlara dağıdıldığı müdaxilə. Gerber and Green (2012) 5, 6, 7 və 8-ci fəsillərinə bu məsələlərin hər biri haqqında ətraflı məlumat verin.
Westen and Rosenthal (2003) etibarlılığı haqqında daha ətraflı məlumat üçün bax: Westen and Rosenthal (2003) və böyük məlumat mənbələrində, Lazer (2015) və bu kitabın 2- Lazer (2015) fəslində quruluşun qüvvədə olması barədə daha ətraflı məlumat üçün.
Xarici etibarlılığının bir aspekti müdaxilənin sınaqdan keçirildiyi yerdir. Allcott (2015) , site seçimi önyargılığına diqqətli bir nəzəri və empirik müalicə təmin edir. Bu məsələ Deaton (2010) tərəfindən də müzakirə olunur. Xarici etibarlılığın digər bir aspekti də eyni müdaxilənin alternativ əməliyyatlarının oxşar təsirə malik olmağından ibarətdir. Bu halda, Schultz et al. (2007) və Allcott (2011) , Opower təcrübələrinin Schultz və həmkarlarının (1.7% ilə müqayisədə 5%) orijinal təcrübələrindən daha az təsir göstərmiş təsir göstərdiyini göstərir. Allcott (2011) , müalicənin fərqli olduğu üsullardan ötəri təqib təcrübələrinin daha kiçik bir təsir göstərdiyini iddia etdi: bir universitet tərəfindən maliyyələşdirilən bir işin bir hissəsi olaraq bir əlyazma ifadəsi, kütləvi istehsalın bir hissəsi Enerji şirkətindən hesabat.
Sahə təcrübələrində müalicə effektlərinin heterojenliyinə dair əla təfərrüatlı məlumat üçün, Gerber and Green (2012) 12-ci fəslinə baxın. Tibbi tədqiqatlarda müalicə effektlərinin heterojenliyini tanıtmaq üçün Kent and Hayward (2007) , Longford (1999) və Kravitz, Duan, and Braslow (2004) . Müalicə effektlərinin heterojenliyini nəzərə alaraq, ümumiyyətlə əvvəlcədən müalicə xüsusiyyətlərinə əsaslanan fərqlərə diqqət yetirilir. Əgər sonrakı müalicə nəticələrinə əsasən heterojenliklə maraqlanırsınızsa, əsas təbəqələşmə kimi daha kompleks yanaşmalara ehtiyacınız var (Frangakis and Rubin 2002) ; Page et al. (2015) bir araşdırma üçün.
Bir çox tədqiqatçılar lineer regresiyadan istifadə edərək müalicə effektlərinin heterojenliyini qiymətləndirirlər, lakin yeni üsullar maşın öyrənməsinə əsaslanır; Məsələn, Green and Kern (2012) , Imai and Ratkovic (2013) , Taddy et al. (2016) və Athey and Imbens (2016a) .
Çox müqayisə problemləri və "balıqçılıq" səbəbindən heterojenliğin təsiri haqqında bəzi şübhələr var. (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) müqayisədə narahatlıqların həllinə kömək edə biləcək müxtəlif statistik yanaşmalar var (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) . "Balıqçılıq" ilə bağlı narahatlığa bir yanaşma psixologiya (Nosek and Lakens 2014) , siyasət elmləri (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) və iqtisadiyyat (Olken 2015) .
Costa and Kahn (2013) tərəfindən edilən araşdırmada, sınaqda olan evlərin yalnız yarısı demoqrafik məlumatlarla əlaqələndirilə bilər. Bu məlumatlarla maraqlanan oxucular orijinal kağıza istinad etməlidirlər.
Mexanizmlər inanılmaz dərəcədə vacibdir, lakin öyrənmək çox çətin olur. VanderWeele (2009) mexanizmləri ilə bağlı tədqiqatlar psixologiyada mediatorların öyrənilməsi ilə sıx bağlıdır (həm də iki fikir arasında dəqiq bir müqayisə üçün VanderWeele (2009) bax). Baron and Kenny (1986) inkişaf etmiş yanaşma kimi mexanizmləri tapmaq üçün statistik yanaşmalar olduqca yaygındır. Təəssüf ki, bu prosedurlar bəzi güclü fərziyyələrə (Bullock, Green, and Ha 2010) (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) çox hallarda gözlənilən bir çox mexanizm olduğunda əziyyət çəkir (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) . Imai et al. (2011) və Imai and Yamamoto (2013) bəzi təkmilləşdirilmiş statistik metodlar təklif edir. Bundan əlavə, VanderWeele (2015) həssaslıq təhlili üçün hərtərəfli yanaşma daxil olmaqla, bir sıra mühüm nəticələrlə kitab uzunluğu müalicəsi təklif edir.
Ayrı bir yanaşma birbaşa mexanizmi manipulyasiya etməyə çalışdıqları təcrübələrə (məsələn, dənizçilərin C vitamini verilməsi) yönəlir. Təəssüf ki, bir çox sosial elm şəraitində tez-tez bir çox mexanizm var və başqalarını dəyişdirmədən bir dəyişən müalicəni dizayn etmək çətindir. Mütəşəkkil mexanizmlərin dəyişməsinə dair bəzi yanaşmalar Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) və Pirlott and MacKinnon (2016) tərəfindən təsvir edilmişdir.
Tam faktorial təcrübələri olan tədqiqatçılar bir çox fərziyyə testindən narahat olmalıdır; daha ətraflı məlumat üçün Fink, McConnell, and Vollmer (2014) və List, Shaikh, and Xu (2016) .
Nəhayət, mexanizmlər həmçinin Hedström and Ylikoski (2010) tərəfindən təsvir edilən elm fəlsəfəsində uzun bir tarixə malikdir.
Ayrı-seçkiliyin ölçülməsi üçün yazışmaların və audit işlərinin istifadəsi haqqında daha ətraflı məlumat üçün Pager (2007) -ə baxın.
Amazon Mexanika Türkü (MTurk), qurduğunuz təcrübələrə iştirakçıları cəlb etmək üçün ən ümumi üsuldur. MTurk, ənənəvi laboratoriya təcrübələrinin aspektlərini təqlid etdiyini, insanları ödənişsiz ödənməyəcək vəzifələrini yerinə yetirməyini ödəyərək, çoxlu tədqiqatçılar artıq Türkerləri (MTurk üzrə işçilər) eksperimental iştirakçılar kimi istifadə etməyə başlayıb, nəticədə daha sürətli və daha ucuz məlumat toplanmasına gətirib çıxara bilər (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) .
Ümumiyyətlə, MTurk-dan alınmış iştirakçıların istifadə olunmasının ən böyük üstünlüyü logistikdir. Laboratoriya təcrübələrində bir neçə həftə çəkə bilmək və sahə təcrübələrini təyin etmək üçün ay çəkə biləcəyinə baxmayaraq, MTurk-dan alınmış iştirakçılarla təcrübə günlərdə baş verə bilər. Məsələn Berinsky, Huber, and Lenz (2012) 8 dəqiqəlik bir sınaqda iştirak etmək üçün bir gündə 400 subyekti işə salıblar. Bundan əlavə, bu iştirakçılar faktiki olaraq hər hansı məqsəd üçün (anketlər və kütləvi əməkdaşlıq daxil olmaqla, 3 və 5-ci fəsillərdə müzakirə olunduğu kimi) işə qəbul edilə bilər. İşəgötürənin bu rahatlığı tədqiqatçıların sürətli ardıcıllıqla əlaqədar təcrübələrin ardıcıllığını işə sala biləcəyini bildirir.
MTurk iştirakçılarını öz təcrübələrinizə cəlb etmədən əvvəl, bilmək üçün lazım olan dörd vacib şey var. Birincisi, bir çox tədqiqatçılar, Türkerləri əhatə edən təcrübələrin qeyri-müəyyən bir skeptisiyasına malikdirlər. Bu şübhə xüsusi deyil, çünki sübutlarla qarşılaşmaq çətindir. Lakin, Türkerlərdən istifadə edən bir neçə il işdən sonra, bu şübhə xüsusilə haqlı deyildi. Türkerlərin demoqrafik göstəricilərini digər populyasiyalarla müqayisə edən bir çox tədqiqat və Türkerlərlə edilən təcrübələrin nəticələrini müqayisə edən bir çox tədqiqat digər əhali içərisindədir. Bütün bu işi nəzərə alaraq, düşünürəm ki, bu barədə düşünmək üçün ən yaxşı yol Türkerlərdən çox şagirdlar kimi bir qədər rahatdır (Berinsky, Huber, and Lenz 2012) . Beləliklə, tələbə bəzi insanlar üçün kifayət qədər əhali olduğu kimi, tədqiqatların hamısı deyil, Türkerlər bəziları üçün məqbul bir əhali, lakin hamısı yox, tədqiqatdır. Əgər siz Türkerlə işə gedirsinizsə, bu müqayisəli araşdırmaların bir çoxunu oxumaq və onların nüanslarını anlamaq mantiqidir.
İkincisi, tədqiqatçılar MTurk təcrübələrinin daxili etibarlılığının artırılması üçün ən yaxşı təcrübələr hazırlamışlar və bu ən yaxşı təcrübələri öyrənmək və onlara riayət etməlisiniz (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) . Məsələn, Türkerlərdən istifadə edən tədqiqatçılar diqqətsiz iştirakçıları (Berinsky, Margolis, and Sances 2014, 2016) aradan qaldırmaq üçün ekrançulardan istifadə etməyə təşviq (Berinsky, Margolis, and Sances 2014, 2016) (həm də DJ Hauser and Schwarz (2015b) və DJ Hauser and Schwarz (2015a) ). Diqqətsiz iştirakçıları aradan qaldırmazsanız, müalicənin hər hansı bir təsiri onlar tətbiq etdiyin səs-küylə yuyulub bilər və praktikada diqqətsiz iştirakçıların sayı əhəmiyyətli ola bilər. Huber və iş yoldaşlarının (2012) təcrübəsində, iştirakçıların təxminən 30% -i əsas diqqəti çəkənlərdən imtina etdi. Türkerlər istifadə edildikdə tez-tez ortaya çıxan digər problemlər qeyri-sadəlövh iştirakçılardır (Chandler et al. 2015) və yaltaqlıq (Zhou and Fishbach 2016) .
Üçüncüsü, rəqəmsal eksperimentlərin bəzi digər formalarına nisbətən, MTurk təcrübələri miqyaslı ola bilməz; Stewart et al. (2015) hər hansı bir zamanda MTürkdə təxminən 7000 nəfər var olduğunu təxmin edir.
Nəhayət, MTurk öz qaydalarına və normalarına əsasən bir cəmiyyətdir (Mason and Suri 2012) . Təcrübənizi davam etdirəcəyi bir ölkənin mədəniyyətini öyrənməyə çalışdığınız şəkildə, Türkerlərin mədəniyyəti və normaları haqqında daha çox məlumat əldə etməyə çalışmalısınız (Salehi et al. 2015) . Bilmək lazımdır ki, Türkerlər qeyri-etik və ya qeyri-etik bir şey etdiyiniz təqdirdə sizin təcrübənizlə danışacaqlar (Gray et al. 2016) .
MTurk, Huber, Hill, and Lenz (2012) və ya Mason and Watts (2009) kimi daha çox sahə kimi laboratoriyaya aid olub-olmadığını təcrübələrinizə iştirakçıları cəlb etmək üçün inanılmaz əlverişli bir yoldur. , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) və Mao et al. (2016) .
Öz məhsulunuzu yaratmağa çalışdığınızı düşünürsünüzsə, Harper and Konstan (2015) Konstanda Harper and Konstan (2015) MovieLens qrupunun təkliflərini oxumağınızı məsləhət görürəm. Təcrübələrindən əldə edilən əsas fikir hər müvəffəqiyyətli layihə üçün bir çox uğursuzluqdur. Məsələn, MovieLens qrupu, GopherAnswers kimi digər məhsullar, tam uğursuzluqlar (Harper and Konstan 2015) başladıldı. Bir məhsul qurmağa çalışarkən müvəffəqiyyətsiz bir tədqiqatçı nümunəsi Edward Castronovanın Arden adlı bir onlayn oyun qurma cəhdidir. Layihə 250 000 ABŞ dolları məbləğində olsa da, flop idi (Baker 2008) . GopherAnswers və Arden kimi layihələr film lensləri kimi layihələrdən daha təəssüf ki, daha çoxdur.
Pasteur'un Quadrantının texnologiya şirkətlərində tez-tez müzakirə etdiyi fikirini eşitdim və Google-da (Spector, Norvig, and Petrov 2012) tədqiqat işlərini təşkil etməyə kömək edir.
Bond və həmkarlarının çalışması (2012) də bu müalicələrin təsirini təsəvvür edənlərin dostlarına təslim etməyə çalışır. Təcrübənin dizaynı səbəbindən, bu dağılmaların təmiz şəkildə aşkarlanması çətindir; maraqlı oxucular Bond et al. (2012) daha ətraflı müzakirə üçün. Jones və həmkarları (2017) 2012 seçkilərində də çox bənzər bir təcrübə etdi. Bu təcrübələr səsverməni təşviq etmək üçün siyasət elmində uzun bir təcrübənin ənənəsidir (Green and Gerber 2015) . Bu səs-küylü səs-küy imtahanları ümumi olaraq ortada, çünki Pasteur'un Quadrant'ında. Yəni, səsvermənin artırılması üçün əsaslandırılmış bir çox insan var və səsvermə davranış dəyişikliyi və ictimai təsir haqqında daha ümumi nəzəriyyələri test etmək üçün maraqlı bir davranış ola bilər.
Siyasi partiyalar, QHT-lər və biznes kimi tərəfdaş təşkilatlarla sahə təcrübələrini tətbiq etmək üçün məsləhətlər üçün Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) və Gueron (2002) . Təşkilatlarla əməkdaşlıqların tədqiqat dizaynlarına təsir göstərə biləcəyi barədə düşüncələr üçün King et al. (2007) bax King et al. (2007) və Green, Calfano, and Aronow (2014) . Tərəfdaşlıq Humphreys (2015) və Nickerson and Hyde (2016) tərəfindən müzakirə edilən etik məsələlərə də gətirib çıxara bilər.
Denemenizi çalıştırmadan əvvəl bir analiz planı hazırlayırsanız, hesabat kurallarını okuyarak başlamanızı öneririm. CONSORT (Təcrübələrin Konsolidasiya Edilmiş Standartı Hesabatı) qaydaları tibbdə hazırlanmışdır (Schulz et al. 2010) və sosial tədqiqatlar üçün dəyişdirilmişdir (Mayo-Wilson et al. 2013) . Eksperimental Siyasi Elmlər jurnalı (Gerber et al. 2014) (həmçinin Mutz and Pemantle (2015) və Gerber et al. (2015) ) adlı redaktorları tərəfindən bir sıra qaydalar hazırlanmışdır. Nəhayət, hesabat təlimatları psixologiya (APA Working Group 2008) və Simmons, Nelson, and Simonsohn (2011) .
Bir analiz planı yaratsanız, onu əvvəlcədən qeydiyyatdan keçirməlisiniz, çünki əvvəlcədən qeydiyyat başqalarının nəticələrinizə olan əminliyini artıracaq. Bundan əlavə, bir tərəfdaşla işləyərkən, nəticəni gördükdən sonra tərəfdaşınızın təhlilini dəyişmək qabiliyyətini məhdudlaşdırır. Pre-qeydiyyat psixologiya (Nosek and Lakens 2014) , siyasət elmləri (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) və iqtisadiyyat (Olken 2015) (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) .
Konstan and Chen (2007) və Chen and Konstan (2015) onlayn sahə təcrübələrinə xüsusi olaraq dizayn məsləhətləri təqdim olunur.
Armada strategiyasını çağırdım, bəzən proqram tədqiqatları adlanır; Wilson, Aronson, and Carlsmith (2010) .
MusicLab eksperimentlərində daha ətraflı məlumat üçün Salganik Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) və Salganik (2007) . Qalib gələn bütün bazarlarda daha çox məlumat almaq üçün Frank and Cook (1996) -a baxın. Müvəffəqiyyət və bacarığı daha çox həll etmək üçün daha çox məlumat üçün, Mauboussin (2012) , Watts (2012) və Frank (2016) -a baxın.
Tədqiqatçıların ehtiyatla istifadə etməsi lazım olan iştirakçı ödənişlərini aradan qaldırmaq üçün başqa bir yanaşma var: çağırış. Bir çox online sahədə təcrübədə iştirakçılar əsasən təcrübələrə tərtib edilmiş və heç vaxt kompensasiya edilməmişdir. Bu yanaşma nümunələri Restivo və van de Rijt nin daxildir (2012) Vikipediya və Bond və həmkarı ilə mükafatların təcrübə (2012) səs insanları təşviq təcrübə. Bu təcrübələr, həqiqətən, sıfır dəyişən xərc deyil, tədqiqatçılara sıfır dəyişən xərcləri var. Belə təcrübələrdə, hər bir iştirakçı üçün xərc çox kiçik olsa belə, ümumi dəyəri olduqca böyük ola bilər. Kütləvi onlayn təcrübələri olan tədqiqatçılar, bu kiçik təsirlərin bir çox insanlara tətbiq edildiyi zaman əhəmiyyətli ola biləcəyini söyləyərək kiçik təsirə məruz qalan müalicə effektlərinin əhəmiyyətini tez-tez əsaslandırırlar. Tam düşüncə, tədqiqatçıların iştirakçılara tətbiq etdiyi xərclərə aiddir. Eksperimentiniz bir milyon insan bir dəqiqə sərf etməsinə səbəb olarsa, təcrübə hər hansı bir şəxs üçün çox zərərli deyil, ancaq ümumi olaraq təxminən iki il vaxt sərf etmişdir.
Tərəfdaşlara sıfır dəyişən xərclərin ödənilməsi üçün bir başqa yanaşma da, sorğu tədqiqatında da istifadə edilən bir lotereya istifadə etməkdir (Halpern et al. 2011) . Toomim et al. (2011) istifadəçi təcrübələrini tərtib Toomim et al. (2011) bağlı daha ətraflı məlumat üçün, bax: Toomim et al. (2011) . Sıfır dəyişən qiymətli eksperimentlər yaratmaq üçün botlardan istifadə haqqında daha ətraflı məlumat üçün bax ( ??? ) .
İlk olaraq Russell and Burch (1959) tərəfindən təklif olunan üç R:
"Dəyişdirilməsi hissiz maddi şüurlu yaşayan ali heyvanlar üçün əvəz deməkdir. Azaldılması bir məbləği və dəqiq məlumat əldə etmək üçün istifadə heyvanların sayının azalması deməkdir. Zəriflik hallarının və ya hələ istifadə etmək lazımdır ki, bu heyvanların tətbiq qeyri-insani prosedurların şiddəti hər hansı azalma deməkdir. "
Mən təklif etdiyim üç R-in fəsil 6-da təsvir olunan etik prinsipləri aşkara çıxarmırlar. Əksinə, bu prinsiplərdən birinə daha çox hazırlanmış versiya - faydalılıq, xüsusən də insan təcrübələrində müəyyənləşdirilmişdir.
Emosional (Kramer, Guillory, and Hancock 2014) və emosional böhran təbii təcrübəsi (Lorenzo Coviello et al. 2014) müqayisədə ilk R ("əvəzetmə") baxımından, məşğul olan ticarət haqqında bəzi ümumi dərslər təklif edir təcrübələrdən təbii təcrübələrə (və qeyri-eksperimental məlumatlarda eksperimentlərə təxminən yaxınlaşmaq cəhdinin uyğunlaşdırılması kimi digər yanaşmalar baxın. Etik faydalara əlavə olaraq, təcrübədən qeyri-eksperimental tədqiqatlara keçmək də tədqiqatçılara lojistik olaraq yerləşdirə bilmədikləri müalicələri öyrənməyə imkan verir. Bununla yanaşı, etik və lojistik xərclər bir xərclə gəlir. Təbiət təcrübələrində tədqiqatçılar iştirakçıların işə salınması, təsadüfiləşmə və müalicənin təbiəti kimi şeylərə daha az nəzarət edirlər. Məsələn, müalicə kimi yağışların bir məhdudlaşdırılması həm pozitivliyi artıran, həm də mənfi dərəcəni azaldır. Eksperimental araşdırmada, Kramer və yoldaşları, müsbət və mənfiliklərini müstəqil olaraq tənzimləyə bildi. Lorenzo Coviello et al. (2014) istifadə etdiyi xüsusi yanaşma Lorenzo Coviello et al. (2014) L. Coviello, Fowler, and Franceschetti (2014) tərəfindən hazırlanmışdır. Lorenzo Coviello et al. (2014) istifadə etdiyi yanaşma olan instrumental dəyişənlərə giriş üçün Lorenzo Coviello et al. (2014) , Angrist and Pischke (2009) (daha az rəsmi) və ya Angrist, Imbens, and Rubin (1996) (daha formal) bax. Instrumental dəyişkənlərin skeptik qiymətləndirilməsi üçün Deaton (2010) və zəif alətlərlə (yağış zəif bir alətdir) instrumental dəyişənlərə giriş üçün Murray (2006) baxın. Ümumiyyətlə, təbii eksperimentlər üçün yaxşı bir giriş ilə verilir Dunning (2012) isə Rosenbaum (2002) , ( ??? ) və Shadish, Cook, and Campbell (2001) eksperimentlər olmadan səbəbli təsiri qiymətləndirilməsi haqqında yaxşı fikir təklif edirik.
İkinci R ("zəriflik") baxımından, emosional zəhərlənmənin dizaynını dəyişdirmək məqsədi ilə postları maneə törətməkdən ötrü elmi və logistik ticarət əlaqələri mövcuddur. Məsələn, News Feed-in texniki həyata keçirilməsinin birbaşa yayımlandığı yerlərdən daha çox məhdudlaşdıran bir təcrübə etmək asanlaşdığına (qeydlərin bloklanması ilə bağlı bir təcrübənin tətbiq oluna bilər) əsas sistemin dəyişməsinə ehtiyac olmadan News Feed sisteminin üst hissəsi kimi). Lakin, elmi cəhətdən, eksperimentin həll etdiyi nəzəriyyə bir-birinin üstünə bir dizayn təklif etməmişdir. Təəssüf ki, News Feed-da məzmunun bloklaşdırılması və məzmununun artırılmasının nisbi əsasları barədə əvvəlcədən əhəmiyyətli tədqiqatlardan xəbərdar deyiləm. Bundan əlavə, onları daha az zərərli hala gətirmək üçün müalicə üsulları ilə əlaqədar çoxlu araşdırma görmədim; bir istisna İnternet senzurasının ölçülməsi məsələsini nəzərdən keçirən B. Jones and Feamster (2015) (Ben Encore tədqiqatı ilə əlaqədə (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) müzakirə mövzusu.
Üçüncü R ("azalma") baxımından ənənəvi güc analizinə yaxşı Cohen (1988) ( Cohen (1992) ) və Cohen (1992) (yazı), Gelman and Carlin (2014) isə bir qədər fərqli bir perspektiv təklif edir. Əvvəlcədən müalicə olunan kovaryatlar təcrübələrin dizayn və analiz mərhələsinə daxil edilə bilər; Gerber and Green (2012) 4-cü fəsli hər iki yanaşma üçün yaxşı bir giriş təqdim edir və Casella (2008) daha dərindən müalicə təmin edir. Randomizasiyada bu əvvəlcədən müalicə məlumatlarını istifadə edən üsullar tipik olaraq bloklanmış eksperimental dizaynlar və ya təbəqələşdirilmiş eksperimental dizaynlar (terminlər icmalar arasında ardıcıl istifadə edilmir) adlanır; bu texnika 3-cü fəsildə müzakirə edilən stratifikasiya edilmiş nümunə üsullarla yaxından əlaqələndirilir. Bu dizaynları kütləvi sınaqlarda daha çox istifadə etmək üçün Higgins, Sävje, and Sekhon (2016) baxın. Əvvəlcədən müalicə edilən şərtlər də analiz mərhələsinə daxil edilə bilər. McKenzie (2012) sahəsində təcrübələri təhlil etmək üçün fərqlər arasındakı fərqləri araşdırır. Müalicə təsirlərinin qiymətləndirilməsində həssaslığı artırmaq üçün müxtəlif yanaşmalar arasındakı qarşılıqlı əlaqələrə görə Carneiro, Lee, and Wilhelm (2016) baxın. Nəhayət, dizayn və ya analiz mərhələsində (və ya hər ikisində) əvvəlcədən müalicəvi şərtləri daxil etməyə çalışmaq istəmədikdə, nəzərə alınacaq bir neçə amil var. Tədqiqatçıların "balıqçılıq" deyil (Humphreys, Sierra, and Windt 2013) olmadığını göstərmək istədikləri bir vəziyyətdə, dizayn mərhələsində əvvəlcədən müalicəvi şərtləri istifadə edərək faydalı ola bilər (Higgins, Sävje, and Sekhon 2016) . İştirakçıların ardıcıl olaraq gəldiyi hallarda, xüsusilə onlayn sahədə təcrübələr, dizayn mərhələsində əvvəlcədən müalicə məlumatlarını istifadə edərək lojistik cəhətdən çətin ola bilər; məsələn, Xie and Aurisset (2016) .
Fərqli bir fərqlilik anlayışının bir-birindən fərqli olduğundan daha təsirli ola biləcəyi mövzusunda bir az intuisiya əlavə etmək lazımdır. Bir çox online nəticələr çox yüksək dəyişikliklərə malikdir (məsələn, RA Lewis and Rao (2015) və Lamb et al. (2015) ) və zamanla nisbətən sabitdir. Bu vəziyyətdə, dəyişmə skoru, statistik testin gücünü artıraraq əhəmiyyətli dərəcədə kiçik dəyişikliklərə sahib olacaqdır. Bu yanaşmanın daha tez-tez istifadə edilməməsinin bir səbəbi diaqnostik yaşdan əvvəl, əvvəlcədən müalicə nəticələrinin olması ümumi deyildir. Bu barədə düşünmək daha konkret bir yol, xüsusi bir məşq prosesinin kilo kaybına səbəb olub olmadığını ölçmək üçün bir sınaq təsəvvür etməkdir. Fərqli bir yolla yanaşmağı qəbul etsəniz, səyiniz əhalidə çəkilərin dəyişkənliyindən yaranan dəyişikliklərə səbəb olacaqdır. Ancaq fərqli bir fərqlilik anlayışını etsəniz, çəkilərdə təbii olaraq meydana gələn dəyişiklik aradan qaldırılır və müalicənin səbəb olduğu bir fərqi daha asan təsbit edə bilərsiniz.
Nəhayət, mən dördüncü bir R əlavə etdim: "repurpose". Yəni, tədqiqatçılar orijinal tədqiqat sualına cavab verməkdən daha çox eksperimental məlumatlarla qarşılaşırlarsa, onlar yeni suallar vermək üçün məlumatları təzələməlidirlər. Məsələn, Kramer və həmkarlarının fərqlilik-fərqlər kassir istifadə etdiklərini düşünün və onların tədqiqat sualına cavab verməkdən daha çox məlumatlar tapdılar. Məlumatları tam olaraq istifadə etməmək əvəzinə, onlar təsirlərin ölçüsünü əvvəlcədən müalicəvi bir ifadənin funksiyası kimi öyrənmiş ola bilərdi. Schultz et al. (2007) müalicənin təsiri yüngül və ağır istifadəçilər üçün fərqli olduğunu təsbit etdi, bəlkə də News Feed-in təsirləri artıq xoşbəxt (və ya kədərli) mesajlar göndərmək istəyən insanlar üçün fərqli idi. Repurposing "balıqçılıq" (Humphreys, Sierra, and Windt 2013) və "p-hacking" (Simmons, Nelson, and Simonsohn 2011) , lakin bunlar əsasən dürüst hesabatların (Simmons, Nelson, and Simonsohn 2011) , əvvəlcədən qeydiyyat (Humphreys, Sierra, and Windt 2013) və çox uyğunlaşmamaq üçün çalışan maşın öyrənmə metodları.