सामाजिक शोध में कारणता के बारे में प्रश्न अक्सर जटिल और जटिल होते हैं। कारण ग्राफ पर आधारित कारणता के आधारभूत दृष्टिकोण के लिए, Pearl (2009) , और संभावित परिणामों के आधार पर एक आधारभूत दृष्टिकोण के लिए, Imbens and Rubin (2015) । इन दो दृष्टिकोणों के बीच तुलना के लिए, Morgan and Winship (2014) । एक confounder को परिभाषित करने के लिए एक औपचारिक दृष्टिकोण के लिए, VanderWeele and Shpitser (2013) ।
इस अध्याय में, मैंने प्रयोगात्मक और गैर-प्रयोग डेटा से कारण अनुमान बनाने की हमारी क्षमता के बीच एक चमकदार रेखा की तरह लग रहा है। हालांकि, मुझे लगता है कि, वास्तव में, भेद अधिक धुंधला है। उदाहरण के लिए, हर कोई स्वीकार करता है कि धूम्रपान कैंसर का कारण बनता है, भले ही कोई यादृच्छिक नियंत्रित प्रयोग जो लोगों को धूम्रपान करने के लिए मजबूर नहीं करता है। गैर-प्रयोगात्मक डेटा से कारण अनुमान बनाने पर उत्कृष्ट पुस्तक-लंबाई उपचार के लिए Rosenbaum (2002) , ( ??? ) , Shadish, Cook, and Campbell (2001) , और Dunning (2012) ।
Freedman, Pisani, and Purves (2007) अध्याय 1 और 2 प्रयोगों, नियंत्रित प्रयोगों और यादृच्छिक नियंत्रित प्रयोगों के बीच अंतरों के लिए एक स्पष्ट परिचय प्रदान करते हैं।
Manzi (2012) यादृच्छिक नियंत्रित प्रयोगों के दार्शनिक और सांख्यिकीय आधार पर एक आकर्षक और पठनीय परिचय प्रदान करता है। यह व्यवसाय में प्रयोग की शक्ति के दिलचस्प वास्तविक दुनिया के उदाहरण भी प्रदान करता है। Issenberg (2012) राजनीतिक अभियानों में प्रयोग के उपयोग के लिए एक आकर्षक परिचय प्रदान करता है।
Box, Hunter, and Hunter (2005) , @ casella_statistical_2008, और Athey and Imbens (2016b) प्रायोगिक डिजाइन और विश्लेषण के सांख्यिकीय पहलुओं को अच्छी शुरुआत प्रदान करते हैं। इसके अलावा, कई अलग-अलग क्षेत्रों में प्रयोगों के उपयोग के उत्कृष्ट उपचार हैं: अर्थशास्त्र (Bardsley et al. 2009) , समाजशास्त्र (Willer and Walker 2007; Jackson and Cox 2013) , मनोविज्ञान (Aronson et al. 1989) , राजनीतिक विज्ञान (Morton and Williams 2010) , और सामाजिक नीति (Glennerster and Takavarasha 2013) ।
प्रतिभागी भर्ती (उदाहरण के लिए, नमूनाकरण) का महत्व प्रायः प्रयोगात्मक शोध में सराहना की जाती है। हालांकि, यदि उपचार का प्रभाव आबादी में विषम है, तो नमूना महत्वपूर्ण है। Longford (1999) इस बिंदु को स्पष्ट रूप से बनाता है जब वह शोधकर्ताओं को खतरनाक नमूनाकरण के साथ जनसंख्या सर्वेक्षण के रूप में प्रयोगों के बारे में सोचने की वकालत करता है।
मैंने सुझाव दिया है कि प्रयोगशाला और क्षेत्र प्रयोगों के बीच एक निरंतरता है, और अन्य शोधकर्ताओं ने अधिक विस्तृत टाइपोग्राफी का प्रस्ताव दिया है, विशेष रूप से उन क्षेत्रों के विभिन्न रूपों को अलग करते हैं (Harrison and List 2004; Charness, Gneezy, and Kuhn 2013) ।
कई कागजात ने अमूर्त (Falk and Heckman 2009; Cialdini 2009) में लैब और फील्ड प्रयोगों की तुलना की है और राजनीतिक विज्ञान (Coppock and Green 2015) में विशिष्ट प्रयोगों के परिणामों के संदर्भ में, अर्थशास्त्र (Levitt and List 2007a, 2007b; Camerer 2011; Al-Ubaydli and List 2013) , और मनोविज्ञान (Mitchell 2012) । Jerit, Barabas, and Clifford (2013) लैब और फील्ड प्रयोगों के परिणामों की तुलना करने के लिए एक अच्छा शोध डिजाइन प्रदान करते हैं। Parigi, Santana, and Cook (2017) वर्णन करता है कि कैसे ऑनलाइन क्षेत्र प्रयोग प्रयोगशाला और क्षेत्र प्रयोगों की कुछ विशेषताओं को जोड़ सकते हैं।
प्रतिभागियों के बारे में चिंताएं उनके व्यवहार को बदलती हैं क्योंकि उन्हें पता है कि उन्हें बारीकी से देखा जा रहा है कभी-कभी मांग प्रभाव कहा जाता है , और उनका मनोविज्ञान (Orne 1962) और अर्थशास्त्र (Zizzo 2010) में अध्ययन किया गया है। हालांकि ज्यादातर प्रयोगशाला प्रयोगों से जुड़े होते हैं, लेकिन ये वही मुद्दे क्षेत्र प्रयोगों के लिए भी समस्याएं पैदा कर सकते हैं। वास्तव में, मांग प्रभावों को कभी-कभी हौथोर्न प्रभाव भी कहा जाता है , एक ऐसा शब्द जो प्रसिद्ध रोशनी प्रयोगों को प्राप्त करता है जो 1 9 24 में वेस्टर्न इलेक्ट्रिक कंपनी (Adair 1984; Levitt and List 2011) के हौथर्न वर्क्स में शुरू हुआ था। दोनों मांग प्रभाव और हौथोर्न प्रभाव अध्याय 2 में चर्चा किए गए प्रतिक्रियाशील माप के विचार से निकटता से संबंधित हैं ( Webb et al. (1966) )।
क्षेत्रीय प्रयोगों में अर्थशास्त्र (Levitt and List 2009) , राजनीतिक विज्ञान (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) (Shadish 2002) और (Shadish 2002) (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) , मनोविज्ञान (Shadish 2002) , और सार्वजनिक नीति (Shadish and Cook 2009) में एक लंबा इतिहास है (Green and Gerber 2003; Druckman et al. 2006; Druckman and Lupia 2012) । सामाजिक विज्ञान का एक क्षेत्र जहां क्षेत्र प्रयोग तेजी से प्रमुख बन गए अंतरराष्ट्रीय विकास है। अर्थशास्त्र के भीतर है कि काम का एक सकारात्मक समीक्षा के लिए देखें Banerjee and Duflo (2009) , और एक महत्वपूर्ण मूल्यांकन के लिए देख Deaton (2010) । राजनीतिक विज्ञान में इस काम की समीक्षा के लिए Humphreys and Weinstein (2009) । अंत में, क्षेत्र प्रयोगों से उत्पन्न होने वाली नैतिक चुनौतियों का राजनीतिक विज्ञान (Humphreys 2015; Desposato 2016b) और विकास अर्थशास्त्र (Baele 2013) के संदर्भ में पता चला है।
इस खंड में, मैंने सुझाव दिया कि अनुमानित उपचार प्रभाव की परिशुद्धता में सुधार के लिए पूर्व-उपचार की जानकारी का उपयोग किया जा सकता है, लेकिन इस दृष्टिकोण के बारे में कुछ बहस है; Freedman (2008) , W. Lin (2013) , Berk et al. (2013) , और Bloniarz et al. (2016) अधिक जानकारी के लिए।
अंत में, सामाजिक वैज्ञानिकों द्वारा किए गए दो अन्य प्रकार के प्रयोग हैं जो लैब-फील्ड आयाम के साथ अच्छी तरह से फिट नहीं होते: सर्वेक्षण प्रयोग और सामाजिक प्रयोग। सर्वे प्रयोग मौजूदा सर्वेक्षणों के बुनियादी ढांचे का उपयोग करके प्रयोग हैं और एक ही प्रश्न के वैकल्पिक संस्करणों के जवाबों की तुलना करते हैं (कुछ सर्वेक्षण प्रयोग अध्याय 3 में प्रस्तुत किए जाते हैं); सर्वेक्षण प्रयोगों पर अधिक जानकारी के लिए Mutz (2011) । सामाजिक प्रयोग प्रयोग हैं जहां उपचार कुछ सामाजिक नीति है जिसे केवल सरकार द्वारा लागू किया जा सकता है। सामाजिक प्रयोग कार्यक्रम मूल्यांकन से निकटता से संबंधित हैं। नीति प्रयोगों के बारे में अधिक जानकारी के लिए, Heckman and Smith (1995) , Orr (1998) , और @ ग्लेनररस्टर_रिंग_2013 देखें।
मैंने तीन अवधारणाओं पर ध्यान केंद्रित करना चुना है: वैधता, उपचार प्रभावों की विषमता, और तंत्र। इन अवधारणाओं के अलग-अलग क्षेत्रों में अलग-अलग नाम हैं। उदाहरण के लिए, मनोवैज्ञानिक मध्यस्थों और मॉडरेटर (Baron and Kenny 1986) पर ध्यान केंद्रित करके सरल प्रयोगों से आगे बढ़ते हैं। मध्यस्थों का विचार जिसे मैं तंत्र कहता हूं, द्वारा कब्जा कर लिया जाता है, और मॉडरेटर का विचार जिसे मैं बाहरी वैधता कहता हूं, द्वारा प्रयोग किया जाता है (उदाहरण के लिए, यदि प्रयोग अलग-अलग परिस्थितियों में चलाया जाता है तो प्रयोग के परिणाम अलग होंगे) और उपचार प्रभावों की विषमता ( उदाहरण के लिए, कुछ लोगों के लिए कुछ लोगों के लिए प्रभाव बड़े हैं)।
Schultz et al. (2007) द्वारा प्रयोग Schultz et al. (2007) दिखाता है कि प्रभावी हस्तक्षेपों को डिजाइन करने के लिए सामाजिक सिद्धांतों का उपयोग कैसे किया जा सकता है। प्रभावी हस्तक्षेपों को डिजाइन करने में सिद्धांत की भूमिका के बारे में अधिक सामान्य तर्क के लिए, Walton (2014) ।
आंतरिक और बाहरी वैधता की अवधारणाओं को पहली बार Campbell (1957) द्वारा पेश किया गया था। अधिक विस्तृत इतिहास और सांख्यिकीय निष्कर्ष वैधता, आंतरिक वैधता, वैधता निर्माण और बाहरी वैधता के सावधानीपूर्वक विस्तार के लिए Shadish, Cook, and Campbell (2001) देखें।
प्रयोगों में सांख्यिकीय निष्कर्ष वैधता से संबंधित मुद्दों के एक सिंहावलोकन के लिए Gerber and Green (2012) (एक सामाजिक विज्ञान परिप्रेक्ष्य से) और Imbens and Rubin (2015) (एक सांख्यिकीय परिप्रेक्ष्य से) देखें। सांख्यिकीय निष्कर्ष वैधता के कुछ मुद्दे जो विशेष रूप से ऑनलाइन क्षेत्र प्रयोगों में उत्पन्न होते हैं उनमें निर्भर डेटा (Bakshy and Eckles 2013) साथ आत्मविश्वास अंतराल बनाने के लिए कम्प्यूटेशनल रूप से कुशल तरीकों जैसे मुद्दों शामिल हैं।
जटिल क्षेत्र प्रयोगों में आंतरिक वैधता सुनिश्चित करना मुश्किल हो सकता है। उदाहरण के लिए, उदाहरण के लिए, Gerber and Green (2000) , Imai (2005) , और Gerber and Green (2005) मतदान के बारे में एक जटिल क्षेत्र प्रयोग के कार्यान्वयन के बारे में बहस के लिए देखें। Kohavi et al. (2012) और Kohavi et al. (2013) ऑनलाइन क्षेत्र प्रयोगों में अंतराल वैधता की चुनौतियों में एक परिचय प्रदान करते हैं।
आंतरिक वैधता के लिए एक बड़ा खतरा असफल यादृच्छिकता की संभावना है। यादृच्छिकरण के साथ समस्याओं का पता लगाने का एक संभावित तरीका उपचार और नियंत्रण समूहों की तुलना करने योग्य गुणों पर तुलना करना है। इस तरह की तुलना को बैलेंस चेक कहा जाता है। बैलेंस चेक के बारे में चिंताओं के लिए चेक Mutz and Pemantle (2015) को संतुलित करने के लिए एक सांख्यिकीय दृष्टिकोण के लिए Mutz and Pemantle (2015) Hansen and Bowers (2008) देखें। उदाहरण के लिए, बैलेंस चेक का उपयोग करके, Allcott (2011) ने कुछ सबूत पाया कि तीन ओपॉवर प्रयोगों में यादृच्छिकरण सही ढंग से लागू नहीं किया गया था (तालिका 2 देखें; साइट 2, 6, और 8)। अन्य दृष्टिकोणों के लिए, Imbens and Rubin (2015) अध्याय 21 देखें।
आंतरिक वैधता से संबंधित अन्य प्रमुख चिंताओं हैं: (1) एक तरफा गैर-अनुपालन, जहां उपचार समूह में सभी को वास्तव में उपचार नहीं मिला, (2) दो तरफा असंगतता, जहां उपचार समूह में हर कोई इलाज नहीं करता है और कुछ लोग नियंत्रण समूह उपचार प्राप्त करता है, (3) दुर्घटना, जहां कुछ प्रतिभागियों के लिए नतीजे नहीं मापा जाता है, और (4) हस्तक्षेप, जहां इलाज की स्थिति में लोगों से उपचार की स्थिति में लोगों के लिए उपचार फैलता है। इन मुद्दों में से प्रत्येक के लिए Gerber and Green (2012) के अध्याय 5, 6, 7, और 8 देखें।
निर्माण वैधता के बारे में अधिक जानकारी के लिए, Westen and Rosenthal (2003) , और बड़े डेटा स्रोतों, Lazer (2015) और इस पुस्तक के अध्याय 2 में निर्माण वैधता पर अधिक जानकारी के लिए।
बाहरी वैधता का एक पहलू वह सेटिंग है जिसमें हस्तक्षेप का परीक्षण किया जाता है। Allcott (2015) साइट चयन पूर्वाग्रह का सावधानीपूर्वक सैद्धांतिक और अनुभवजन्य उपचार प्रदान करता है। इस मुद्दे पर Deaton (2010) द्वारा भी चर्चा की गई है। बाहरी वैधता का एक और पहलू यह है कि एक ही हस्तक्षेप के वैकल्पिक संचालन के समान प्रभाव होंगे। इस मामले में, Schultz et al. (2007) बीच तुलना Schultz et al. (2007) और Allcott (2011) पता चलता है कि विपक्षी प्रयोगों का शल्ट्ज़ और सहयोगियों (1.7% बनाम 5%) के मूल प्रयोगों के मुकाबले एक छोटा अनुमानित इलाज प्रभाव था। Allcott (2011) ने अनुमान लगाया कि उपचार के मतभेदों के कारण फॉलो-अप प्रयोगों का एक छोटा सा प्रभाव पड़ा: एक हस्तलिखित इमोटिकॉन एक विश्वविद्यालय द्वारा प्रायोजित अध्ययन के हिस्से के रूप में, एक मुद्रित इमोटिकॉन की तुलना में बड़े पैमाने पर उत्पादित एक बिजली कंपनी से रिपोर्ट।
क्षेत्र प्रयोगों में उपचार प्रभावों की विषमता के उत्कृष्ट अवलोकन के लिए, Gerber and Green (2012) अध्याय 12 देखें। मेडिकल परीक्षणों में उपचार प्रभावों की विषमता के परिचय के लिए, Kent and Hayward (2007) , Kravitz, Duan, and Braslow (2004) Longford (1999) Kravitz, Duan, and Braslow (2004) । उपचार प्रभावों की विषमता की विचार आमतौर पर पूर्व-उपचार विशेषताओं के आधार पर मतभेदों पर ध्यान केंद्रित करती है। यदि आप उपचार के परिणामों के आधार पर विषमता में रूचि रखते हैं, तो अधिक जटिल दृष्टिकोण की आवश्यकता होती है, जैसे प्रिंसिपल स्तरीकरण (Frangakis and Rubin 2002) ; Page et al. (2015) देखें Page et al. (2015) एक समीक्षा के लिए।
कई शोधकर्ता रैखिक प्रतिगमन का उपयोग कर उपचार प्रभावों की विषमता का अनुमान लगाते हैं, लेकिन नए तरीके मशीन सीखने पर भरोसा करते हैं; उदाहरण के लिए, Green and Kern (2012) , Imai and Ratkovic (2013) , Imai and Ratkovic (2013) Taddy et al. (2016) , और Athey and Imbens (2016a) ।
कई तुलनात्मक समस्याओं और "मछली पकड़ने" के कारण प्रभावों की विषमता के निष्कर्षों के बारे में कुछ संदेह है। कई सांख्यिकीय दृष्टिकोण हैं जो कई तुलनाओं (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) बारे में चिंताओं को हल करने में मदद कर सकते हैं (Fink, McConnell, and Vollmer 2014; List, Shaikh, and Xu 2016) । "मछली पकड़ने" के बारे में चिंताओं का एक दृष्टिकोण पूर्व पंजीकरण है, जो मनोविज्ञान (Nosek and Lakens 2014) में राजनीतिक विज्ञान (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) (Nosek and Lakens 2014) (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) (Nosek and Lakens 2014) में तेजी से आम हो रहा है (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , और अर्थशास्त्र (Olken 2015) ।
Costa and Kahn (2013) के अध्ययन में प्रयोग में केवल आधे परिवारों को जनसांख्यिकीय जानकारी से जोड़ा जा सकता है। इन विवरणों में रुचि रखने वाले पाठकों को मूल पत्र का संदर्भ लेना चाहिए।
तंत्र अविश्वसनीय रूप से महत्वपूर्ण हैं, लेकिन वे अध्ययन करना बहुत मुश्किल हो जाते हैं। तंत्र के बारे में अनुसंधान मनोविज्ञान में मध्यस्थों के अध्ययन से निकटता से संबंधित है (लेकिन दो विचारों के बीच एक सटीक तुलना के लिए VanderWeele (2009) भी देखें)। Baron and Kenny (1986) में विकसित दृष्टिकोण जैसे तंत्र खोजने के लिए सांख्यिकीय दृष्टिकोण काफी आम हैं। दुर्भाग्यवश, यह पता चला है कि ये प्रक्रियाएं कुछ मजबूत धारणाओं (Bullock, Green, and Ha 2010) पर निर्भर करती हैं और जब कई तंत्र होते हैं तो पीड़ित होते हैं, क्योंकि कई स्थितियों में (Imai and Yamamoto 2013; VanderWeele and Vansteelandt 2014) उम्मीद हो सकती है। Imai et al. (2011) और Imai and Yamamoto (2013) कुछ बेहतर सांख्यिकीय तरीकों की पेशकश करते हैं। इसके अलावा, VanderWeele (2015) संवेदनशीलता विश्लेषण के लिए एक व्यापक दृष्टिकोण सहित कई महत्वपूर्ण परिणामों के साथ एक पुस्तक-लंबाई उपचार प्रदान करता है।
एक अलग दृष्टिकोण उन प्रयोगों पर केंद्रित है जो सीधे तंत्र को कुशलतापूर्वक उपयोग करने का प्रयास करते हैं (उदाहरण के लिए, नाविक विटामिन सी देना)। दुर्भाग्यवश, कई सामाजिक विज्ञान सेटिंग्स में, अक्सर कई तंत्र होते हैं और उन उपचारों को डिजाइन करना मुश्किल होता है जो दूसरों को बदलने के बिना बदलते हैं। प्रयोगात्मक रूप से तंत्र को बदलने के कुछ दृष्टिकोण Imai, Tingley, and Yamamoto (2013) Ludwig, Kling, and Mullainathan (2011) Imai, Tingley, and Yamamoto (2013) , Ludwig, Kling, and Mullainathan (2011) , और Pirlott and MacKinnon (2016) ।
पूरी तरह से फैक्टोरियल प्रयोग चलाने वाले शोधकर्ताओं को कई परिकल्पना परीक्षणों के बारे में चिंतित होने की आवश्यकता होगी; अधिक जानकारी के लिए Fink, McConnell, and Vollmer (2014) और List, Shaikh, and Xu (2016) देखें।
अंत में, Hedström and Ylikoski (2010) द्वारा वर्णित विज्ञान के दर्शन में तंत्र का एक लंबा इतिहास भी है।
भेदभाव को मापने के लिए पत्राचार अध्ययन और लेखापरीक्षा अध्ययन के उपयोग पर अधिक जानकारी के लिए, Pager (2007) ।
आपके द्वारा बनाए गए प्रयोगों में प्रतिभागियों को भर्ती करने का सबसे आम तरीका अमेज़ॅन मैकेनिकल तुर्क (एमटीर्क) है। चूंकि एमटीर्क पारंपरिक प्रयोगशाला प्रयोगों के पहलुओं की नकल करता है- लोगों को उन कार्यों को पूरा करने के लिए भुगतान करना जो वे मुफ्त में नहीं करेंगे- कई शोधकर्ताओं ने पहले ही तुर्कर्स (एमटीर्क पर श्रमिकों) का प्रयोग प्रायोगिक प्रतिभागियों के रूप में शुरू कर दिया है, जिसके परिणामस्वरूप तेज़ और सस्ता डेटा संग्रह हासिल किया जा सकता है परंपरागत ऑन-कैंपस प्रयोगशाला प्रयोगों में (Paolacci, Chandler, and Ipeirotis 2010; Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012; Rand 2012; Berinsky, Huber, and Lenz 2012) ।
आम तौर पर, एमटीर्क से भर्ती प्रतिभागियों का उपयोग करने का सबसे बड़ा लाभ तार्किक है। जबकि प्रयोगशाला प्रयोगों को चलाने के लिए सप्ताह लग सकते हैं और फील्ड प्रयोगों को सेट अप करने में महीनों लग सकते हैं, एमटीर्क से भर्ती प्रतिभागियों के साथ प्रयोग दिन में चल सकते हैं। उदाहरण के लिए, Berinsky, Huber, and Lenz (2012) 8 मिनट के प्रयोग में भाग लेने के लिए एक दिन में 400 विषयों की भर्ती करने में सक्षम थे। इसके अलावा, इन प्रतिभागियों को लगभग किसी भी उद्देश्य (सर्वेक्षण और जन सहयोग सहित, अध्याय 3 और 5 में चर्चा के अनुसार) भर्ती किया जा सकता है। भर्ती की यह आसानी का अर्थ है कि शोधकर्ता तेजी से उत्तराधिकार में संबंधित प्रयोगों के अनुक्रम चला सकते हैं।
अपने स्वयं के प्रयोगों के लिए एमटीर्क से प्रतिभागियों की भर्ती से पहले, चार महत्वपूर्ण चीजें हैं जिन्हें आपको जानना आवश्यक है। सबसे पहले, कई शोधकर्ताओं के पास तुर्कर्स से जुड़े प्रयोगों का एक संदिग्ध संदेह है। चूंकि यह संदेह विशिष्ट नहीं है, इसलिए सबूतों का सामना करना मुश्किल है। हालांकि, तुर्कर्स का उपयोग करके कई वर्षों के अध्ययन के बाद, हम अब निष्कर्ष निकाल सकते हैं कि यह संदेह विशेष रूप से उचित नहीं है। अन्य आबादी के साथ तुर्कर्स की जनसांख्यिकी की तुलना में कई अध्ययन हुए हैं और अन्य आबादी वाले तुर्कियों के साथ प्रयोगों के परिणामों की तुलना में कई अध्ययनों की तुलना में कई अध्ययन हुए हैं। इस सब काम को देखते हुए, मुझे लगता है कि इसके बारे में सोचने का सबसे अच्छा तरीका यह है कि तुर्कर्स एक उचित सुविधा नमूना हैं, जो छात्रों की तरह हैं लेकिन थोड़ा अधिक विविध (Berinsky, Huber, and Lenz 2012) । इस प्रकार, जैसे कि छात्रों के लिए कुछ उचित आबादी है, लेकिन सभी नहीं, अनुसंधान, तुर्क कुछ लोगों के लिए उचित आबादी हैं, लेकिन सभी नहीं, अनुसंधान। यदि आप तुर्कर्स के साथ काम करने जा रहे हैं, तो इन तुलनात्मक अध्ययनों में से कई को पढ़ने और उनकी बारीकियों को समझना समझ में आता है।
दूसरा, शोधकर्ताओं ने एमटीर्क प्रयोगों की आंतरिक वैधता बढ़ाने के लिए सर्वोत्तम प्रथाओं का विकास किया है, और आपको इन सर्वोत्तम प्रथाओं (Horton, Rand, and Zeckhauser 2011; Mason and Suri 2012) बारे में जानना चाहिए और उनका पालन करना चाहिए। उदाहरण के लिए, तुर्कर्स का उपयोग करने वाले शोधकर्ताओं को अनावश्यक प्रतिभागियों (Berinsky, Margolis, and Sances 2014, 2016) को हटाने के लिए स्क्रीनर्स का उपयोग करने के लिए प्रोत्साहित किया जाता है (लेकिन DJ Hauser and Schwarz (2015b) और DJ Hauser and Schwarz (2015a) )। यदि आप अपरिवर्तनीय प्रतिभागियों को नहीं हटाते हैं, तो उपचार के किसी भी प्रभाव को उनके द्वारा पेश किए जाने वाले शोर से धोया जा सकता है, और व्यावहारिक प्रतिभागियों की संख्या पर्याप्त हो सकती है। ह्यूबर और सहयोगियों (2012) , लगभग 30% प्रतिभागियों ने मूल ध्यान स्क्रीनर्स में असफल रहा। तुर्कर्स का उपयोग होने पर आम तौर पर उत्पन्न होने वाली अन्य समस्याएं गैर-बेवकूफ प्रतिभागियों (Chandler et al. 2015) (Zhou and Fishbach 2016) ।
तीसरा, डिजिटल प्रयोगों के कुछ अन्य रूपों के सापेक्ष, एमटीर्क प्रयोग स्केल नहीं कर सकते हैं; Stewart et al. (2015) अनुमान है कि किसी भी समय एमटीर्क पर केवल 7,000 लोग हैं।
अंत में, आपको पता होना चाहिए कि एमटीर्क एक समुदाय है जो अपने नियमों और मानदंडों (Mason and Suri 2012) । इसी तरह से आप उस देश की संस्कृति के बारे में पता लगाने की कोशिश करेंगे जहां आप अपने प्रयोग चलाने जा रहे थे, आपको तुर्कर्स (Salehi et al. 2015) सलीही (Salehi et al. 2015) की संस्कृति और मानदंडों के बारे में और जानने का प्रयास करना चाहिए। और आपको पता होना चाहिए कि यदि आप कुछ अनुचित या अनैतिक (Gray et al. 2016) करते हैं तो तुर्कर्स आपके प्रयोग के बारे में बात करेंगे।
एमटीर्क आपके प्रयोगों में प्रतिभागियों की भर्ती के लिए एक अविश्वसनीय रूप से सुविधाजनक तरीका है, भले ही वे प्रयोगशाला की तरह हों, जैसे Huber, Hill, and Lenz (2012) , या Mason and Watts (2009) जैसे अधिक फ़ील्ड की तरह, , Goldstein, McAfee, and Suri (2013) , Goldstein et al. (2014) , Horton and Zeckhauser (2016) , और Mao et al. (2016) ।
यदि आप अपना खुद का उत्पाद बनाने की कोशिश कर रहे हैं, तो मैं अनुशंसा करता हूं कि आप Harper and Konstan (2015) कोनस्तान Harper and Konstan (2015) में मूवीलेन्स समूह द्वारा दी गई सलाह पढ़ें। उनके अनुभव से एक महत्वपूर्ण अंतर्दृष्टि यह है कि प्रत्येक सफल परियोजना के लिए कई असफलताएं होती हैं। उदाहरण के लिए, मूवीलेन्स समूह ने अन्य उत्पादों को लॉन्च किया, जैसे कि गोफरअनर्स, जो पूर्ण विफलताओं (Harper and Konstan 2015) । एक उत्पाद बनाने का प्रयास करते समय एक शोधकर्ता का एक और उदाहरण विफल रहा है एडवर्ड कास्त्रोनोवा ने आर्डेन नामक एक ऑनलाइन गेम बनाने का प्रयास किया है। वित्त पोषण में $ 250,000 के बावजूद, परियोजना एक फ्लॉप (Baker 2008) । गोफरअनर्स और आर्डेन जैसी परियोजनाएं दुर्भाग्य से मूवीलेन्स जैसी परियोजनाओं की तुलना में अधिक आम हैं।
मैंने तकनीक कंपनियों पर अक्सर चर्चा की गई पाश्चर क्वाड्रंट के विचार को सुना है, और यह Google (Spector, Norvig, and Petrov 2012) शोध प्रयासों को व्यवस्थित करने में मदद करता है।
बॉन्ड और सहयोगियों का अध्ययन (2012) उन लोगों के दोस्तों पर इन उपचारों के प्रभाव का पता लगाने का भी प्रयास करता है जिन्होंने उन्हें प्राप्त किया था। प्रयोग के डिजाइन के कारण, इन spillovers साफ पता लगाने के लिए मुश्किल हैं; दिलचस्पी पाठकों को Bond et al. (2012) देखना चाहिए Bond et al. (2012) एक और अधिक व्यापक चर्चा के लिए। जोन्स और सहयोगियों (2017) ने 2012 के चुनाव के दौरान भी एक बहुत ही समान प्रयोग किया। ये प्रयोग वोटिंग (Green and Gerber 2015) को प्रोत्साहित करने के प्रयासों पर राजनीतिक विज्ञान में प्रयोगों की एक लंबी परंपरा का हिस्सा हैं। ये आउट-द-वोट प्रयोग आम हैं, क्योंकि कुछ हिस्सों में वे पाश्चर के क्वाड्रंट में हैं। यही है, ऐसे कई लोग हैं जो वोटिंग बढ़ाने के लिए प्रेरित हैं और मतदान व्यवहार और सामाजिक प्रभाव के बारे में अधिक सामान्य सिद्धांतों का परीक्षण करने के लिए एक दिलचस्प व्यवहार हो सकता है।
राजनीतिक दलों, गैर सरकारी संगठनों और व्यवसायों जैसे साझेदार संगठनों के साथ क्षेत्रीय प्रयोगों के बारे में सलाह के लिए, Loewen, Rubenson, and Wantchekon (2010) , JA List (2011) , और Gueron (2002) । संगठनों के साथ भागीदारी कैसे अनुसंधान डिजाइन को प्रभावित कर सकती है, इस बारे में विचारों के लिए, King et al. (2007) और Green, Calfano, and Aronow (2014) । Humphreys (2015) और Nickerson and Hyde (2016) द्वारा चर्चा के अनुसार साझेदारी नैतिक प्रश्नों का भी कारण बन सकती है।
यदि आप अपना प्रयोग चलाने से पहले एक विश्लेषण योजना बना रहे हैं, तो मेरा सुझाव है कि आप रिपोर्टिंग दिशानिर्देश पढ़ना शुरू करें। कंसोर्ट (परीक्षणों की समेकित मानक रिपोर्टिंग) दिशानिर्देश दवाओं (Schulz et al. 2010) में विकसित किए गए थे और सामाजिक शोध (Mayo-Wilson et al. 2013) लिए संशोधित किए गए थे। जर्नल ऑफ़ प्रायोगिक पॉलिटिकल साइंस (Gerber et al. 2014) के संपादकों द्वारा दिशानिर्देशों का एक संबंधित सेट विकसित किया गया है ( Mutz and Pemantle (2015) और Gerber et al. (2015) )। अंत में, मनोविज्ञान (APA Working Group 2008) में रिपोर्टिंग दिशानिर्देश विकसित किए गए हैं, और Simmons, Nelson, and Simonsohn (2011) ।
यदि आप एक विश्लेषण योजना बनाते हैं, तो आपको इसे पूर्व-पंजीकरण करने पर विचार करना चाहिए क्योंकि प्री-रजिस्ट्रेशन उन विश्वासों को बढ़ाएगा जो आपके परिणामों में हैं। इसके अलावा, यदि आप एक साथी के साथ काम कर रहे हैं, तो यह परिणाम देखने के बाद आपके साथी की विश्लेषण को बदलने की क्षमता को सीमित कर देगा। पूर्व-पंजीकरण मनोविज्ञान (Nosek and Lakens 2014) , राजनीतिक विज्ञान (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) (Nosek and Lakens 2014) (Humphreys, Sierra, and Windt 2013; Monogan 2013; Anderson 2013; Gelman 2013; Laitin 2013) , और अर्थशास्त्र (Olken 2015) ।
विशेष रूप से ऑनलाइन क्षेत्र प्रयोगों के लिए डिजाइन सलाह Konstan and Chen (2007) और Chen and Konstan (2015) में भी प्रस्तुत की जाती है।
जिसे मैंने आर्मडा रणनीति कहा है जिसे कभी-कभी प्रोग्रामेटिक शोध कहा जाता है ; Wilson, Aronson, and Carlsmith (2010) ।
म्यूजिकलैब प्रयोगों के बारे में अधिक जानकारी के लिए, Salganik, Dodds, and Watts (2006) , Salganik and Watts (2008) , Salganik and Watts (2009b) , Salganik and Watts (2009a) , और Salganik (2007) । विजेता लेने वाले सभी बाजारों के लिए, Frank and Cook (1996) । अधिक आम तौर पर भाग्य और कौशल पर अधिक जानकारी के लिए, Mauboussin (2012) , Watts (2012) , और Frank (2016) ।
प्रतिभागियों के भुगतान को समाप्त करने के लिए एक और तरीका है जिसे शोधकर्ताओं को सावधानी के साथ उपयोग करना चाहिए: शिलालेख। कई ऑनलाइन क्षेत्र प्रयोगों में प्रतिभागियों को मूल रूप से प्रयोगों में तैयार किया जाता है और कभी मुआवजा नहीं दिया जाता है। इस दृष्टिकोण के उदाहरण Restivo और वैन डे Rijt के शामिल (2012) विकिपीडिया और बॉन्ड और सहकर्मी के पुरस्कार पर प्रयोग (2012) वोट करने के लिए लोगों को प्रोत्साहित करने पर प्रयोग। इन प्रयोगों में वास्तव में शून्य परिवर्तनीय लागत नहीं है, बल्कि उनके पास शोधकर्ताओं के लिए शून्य परिवर्तनीय लागत है । ऐसे प्रयोगों में, भले ही प्रत्येक प्रतिभागी की लागत बेहद छोटी हो, कुल लागत काफी बड़ी हो सकती है। बड़े पैमाने पर ऑनलाइन प्रयोग चलाने वाले शोधकर्ता अक्सर छोटे अनुमानित उपचार प्रभावों के महत्व को औचित्य देते हैं कि कई छोटे लोगों पर लागू होने पर ये छोटे प्रभाव महत्वपूर्ण हो सकते हैं। सटीक वही सोच उन लागतों पर लागू होती है जो शोधकर्ता प्रतिभागियों पर लगाते हैं। यदि आपका प्रयोग दस लाख लोगों को एक मिनट बर्बाद करने का कारण बनता है, तो प्रयोग किसी विशेष व्यक्ति के लिए बहुत हानिकारक नहीं होता है, लेकिन कुल मिलाकर यह लगभग दो साल बर्बाद हो जाता है।
प्रतिभागियों को शून्य परिवर्तनीय लागत भुगतान बनाने का एक और तरीका लॉटरी का उपयोग करना है, एक दृष्टिकोण जिसका प्रयोग सर्वेक्षण अनुसंधान (Halpern et al. 2011) । आनंददायक उपयोगकर्ता अनुभवों को डिजाइन करने के बारे में अधिक जानकारी के लिए, Toomim et al. (2011) देखें Toomim et al. (2011) । शून्य परिवर्तनीय लागत प्रयोग बनाने के लिए बॉट्स का उपयोग करने के बारे में अधिक जानकारी के लिए देखें ( ??? ) ।
मूल रूप से Russell and Burch (1959) द्वारा प्रस्तावित तीन आर इस प्रकार हैं:
"रिप्लेसमेंट बेसुध सामग्री के प्रति सचेत रहने वाले उच्च जानवरों के लिए प्रतिस्थापन का मतलब है। कमी एक निश्चित राशि और परिशुद्धता के बारे में जानकारी प्राप्त करने के लिए इस्तेमाल जानवरों की संख्या में कमी का मतलब है। शोधन घटना या उन जानवरों को अभी भी इस्तेमाल किया जा रहा है जो करने के लिए लागू अमानवीय प्रक्रियाओं की गंभीरता में कोई कमी का मतलब है। "
मेरे द्वारा प्रस्तावित तीन आर अध्याय 6 में वर्णित नैतिक सिद्धांतों को ओवरराइड नहीं करते हैं। बल्कि, वे उन सिद्धांतों में से एक विस्तृत संस्करण हैं-लाभप्रदता - विशेष रूप से मानव प्रयोगों की स्थापना में।
पहले आर ("प्रतिस्थापन") के मामले में, भावनात्मक संक्रम प्रयोग (Kramer, Guillory, and Hancock 2014) और भावनात्मक संक्रम प्राकृतिक प्रयोग (Lorenzo Coviello et al. 2014) व्यापार-बंद के बारे में कुछ सामान्य सबक प्रदान करता है प्रयोगों से प्राकृतिक प्रयोगों में जाने में (और गैर-प्रयोगात्मक डेटा में प्रयोगों का अनुमान लगाने के प्रयास से मेल खाने वाले अन्य दृष्टिकोण; अध्याय 2 देखें)। नैतिक लाभों के अतिरिक्त, प्रयोगात्मक से गैर-प्रयोगात्मक अध्ययनों में स्विच करने से शोधकर्ताओं को उपचार का अध्ययन करने में भी सक्षम बनाता है कि वे तैनात करने में असमर्थ हैं। हालांकि, ये नैतिक और तर्कसंगत लाभ लागत पर आते हैं। प्राकृतिक प्रयोगों के साथ शोधकर्ताओं की प्रतिभागियों, यादृच्छिकरण और उपचार की प्रकृति जैसी भर्ती जैसी चीजों पर कम नियंत्रण होता है। उदाहरण के लिए, उपचार के रूप में वर्षा की एक सीमा यह है कि यह सकारात्मकता को बढ़ाता है और नकारात्मकता को कम करता है। प्रयोगात्मक अध्ययन में, हालांकि, क्रैमर और सहयोगी स्वतंत्रता और नकारात्मकता को स्वतंत्र रूप से समायोजित करने में सक्षम थे। Lorenzo Coviello et al. (2014) द्वारा उपयोग किया जाने वाला विशेष दृष्टिकोण Lorenzo Coviello et al. (2014) L. Coviello, Fowler, and Franceschetti (2014) द्वारा आगे विस्तारित किया गया था। वाद्ययंत्र चर के परिचय के लिए, जो Lorenzo Coviello et al. (2014) द्वारा उपयोग किया जाने वाला दृष्टिकोण है Lorenzo Coviello et al. (2014) , Angrist, Imbens, and Rubin (1996) Angrist and Pischke (2009) (कम औपचारिक) या Angrist, Imbens, and Rubin (1996) (अधिक औपचारिक) देखें। वाद्ययंत्र चर के एक संदिग्ध मूल्यांकन के लिए, Deaton (2010) , और कमजोर उपकरणों के साथ वाद्ययंत्र चर के परिचय के लिए (बारिश एक कमजोर साधन है), Murray (2006) । अधिक आम तौर पर, Dunning (2012) द्वारा प्राकृतिक प्रयोगों के लिए एक अच्छा परिचय दिया जाता है, जबकि Rosenbaum (2002) , ( ??? ) , और Shadish, Cook, and Campbell (2001) प्रयोगों के बिना कारण प्रभावों का अनुमान लगाने के बारे में अच्छे विचार प्रस्तुत करते हैं।
दूसरी आर ("परिशोधन") के संदर्भ में, पदों को बढ़ाने के लिए पदों को अवरुद्ध करने से भावनात्मक संक्रमण के डिजाइन को बदलने पर विचार करते समय वैज्ञानिक और तार्किक व्यापार-बंद होते हैं। उदाहरण के लिए, यह मामला हो सकता है कि न्यूज़ फीड के तकनीकी कार्यान्वयन से यह एक ऐसा प्रयोग करना काफी आसान हो जाता है जिसमें पदों को अवरुद्ध किया जाता है, जिसके बजाय उन्हें बढ़ाया जाता है (ध्यान दें कि पदों को अवरुद्ध करने वाला एक प्रयोग लागू किया जा सकता है अंतर्निहित प्रणाली में बदलाव की आवश्यकता के बिना समाचार फ़ीड सिस्टम के शीर्ष पर एक परत के रूप में)। वैज्ञानिक रूप से, हालांकि, प्रयोग द्वारा संबोधित सिद्धांत ने स्पष्ट रूप से दूसरे पर एक डिजाइन का सुझाव नहीं दिया। दुर्भाग्यवश, मुझे समाचार फ़ीड में सामग्री को अवरुद्ध करने और बढ़ाने के सापेक्ष गुणों के बारे में पर्याप्त पूर्व शोध से अवगत नहीं है। इसके अलावा, मैंने उन्हें कम हानिकारक बनाने के लिए उपचार को परिष्कृत करने के बारे में बहुत अधिक शोध नहीं देखा है; एक अपवाद B. Jones and Feamster (2015) , जो इंटरनेट सेंसरशिप के माप के मामले को मानता है (एक विषय जो मैं दोहराना अध्ययन (Burnett and Feamster 2015; Narayanan and Zevenbergen 2015) संबंध में अध्याय 6 में चर्चा करता हूं)।
तीसरे आर ("कमी") के संदर्भ में, पारंपरिक ऊर्जा विश्लेषण के लिए अच्छे परिचय Cohen (1988) (पुस्तक) और Cohen (1992) (लेख) द्वारा दिया गया है, जबकि Gelman and Carlin (2014) थोड़ा अलग परिप्रेक्ष्य प्रदान करते हैं। पूर्व उपचार covariates प्रयोगों के डिजाइन और विश्लेषण चरण में शामिल किया जा सकता है; Gerber and Green (2012) अध्याय 4 दोनों दृष्टिकोणों के लिए एक अच्छा परिचय प्रदान करता है, और Casella (2008) एक अधिक गहन उपचार प्रदान करता है। यादृच्छिकरण में इस पूर्व-उपचार की जानकारी का उपयोग करने वाली तकनीकें आमतौर पर अवरुद्ध प्रयोगात्मक डिज़ाइन या स्तरीकृत प्रयोगात्मक डिज़ाइन कहलाती हैं (शब्दावली का उपयोग लगातार समुदायों में नहीं किया जाता है); ये तकनीक अध्याय 3 में चर्चा की गई स्तरीकृत नमूना तकनीक से निकटता से संबंधित हैं। बड़े पैमाने पर प्रयोगों में इन डिज़ाइनों का उपयोग करने के लिए Higgins, Sävje, and Sekhon (2016) देखें। प्री-ट्रीटमेंट कॉवरिएट्स को विश्लेषण चरण में भी शामिल किया जा सकता है। McKenzie (2012) क्षेत्र के प्रयोगों का अधिक विस्तार से विश्लेषण करने के अंतर-अंतर-अंतर दृष्टिकोण की पड़ताल करता है। उपचार प्रभावों के अनुमान में सटीकता बढ़ाने के लिए विभिन्न दृष्टिकोणों के बीच व्यापार-बंद पर Carneiro, Lee, and Wilhelm (2016) देखें। आखिरकार, यह तय करते समय कि डिज़ाइन या विश्लेषण चरण (या दोनों) में प्री-ट्रीटमेंट कॉवरिएट्स को शामिल करने का प्रयास करना है, पर विचार करने के कुछ कारक हैं। एक सेटिंग में जहां शोधकर्ता यह दिखाना चाहते हैं कि वे "मछली पकड़ने" (Humphreys, Sierra, and Windt 2013) , डिजाइन चरण में प्री-ट्रीटमेंट कॉवरिएट्स का उपयोग करके सहायक हो सकते हैं (Higgins, Sävje, and Sekhon 2016) । ऐसी परिस्थितियों में जहां प्रतिभागी अनुक्रमिक रूप से आते हैं, विशेष रूप से ऑनलाइन क्षेत्र के प्रयोग, डिजाइन चरण में पूर्व-उपचार जानकारी का उपयोग करके तर्कसंगत रूप से कठिन हो सकते हैं; उदाहरण के लिए, Xie and Aurisset (2016) ।
यह अंतर्दृष्टि जोड़ने के लायक है कि अंतर-अंतर-अंतर दृष्टिकोण अंतर-इन-साधनों की तुलना में इतना अधिक प्रभावी क्यों हो सकता है। कई ऑनलाइन परिणामों में बहुत अधिक भिन्नता है (उदाहरण के लिए, RA Lewis and Rao (2015) और Lamb et al. (2015) ) और समय के साथ अपेक्षाकृत स्थिर हैं। इस मामले में, परिवर्तन स्कोर में सांख्यिकीय परीक्षण की शक्ति में वृद्धि, काफी भिन्न भिन्नता होगी। एक कारण यह दृष्टिकोण अधिक बार उपयोग नहीं किया जाता है कि डिजिटल युग से पहले, पूर्व उपचार परिणामों के लिए आम बात नहीं थी। इसके बारे में सोचने का एक और ठोस तरीका एक प्रयोग की कल्पना करना है कि एक विशिष्ट व्यायाम नियमित वजन घटाने का कारण बनता है या नहीं। यदि आप अंतर-इन-साधन दृष्टिकोण अपनाते हैं, तो आपके अनुमान में आबादी में वजन में परिवर्तनशीलता से उत्पन्न होने वाली विविधता होगी। यदि आप अंतर-अंतर-भिन्नता दृष्टिकोण करते हैं, हालांकि, वजन में स्वाभाविक रूप से होने वाली भिन्नता को हटा दिया जाता है, और आप उपचार के कारण अंतर को आसानी से पहचान सकते हैं।
अंत में, मैंने चौथा आर जोड़ने का विचार किया: "पुनर्विचार"। यही है, यदि शोधकर्ता अपने मूल शोध प्रश्न को संबोधित करने की आवश्यकता से अधिक प्रयोगात्मक डेटा के साथ खुद को पाते हैं, तो उन्हें नए प्रश्न पूछने के लिए डेटा का पुनर्व्यवस्थित करना चाहिए। उदाहरण के लिए, कल्पना करें कि क्रैमर और सहयोगियों ने अंतर-अंतर-अंतर अनुमानक का उपयोग किया था और अपने शोध प्रश्न को संबोधित करने के लिए उन्हें आवश्यक डेटा से अधिक डेटा मिला था। डेटा को पूरी तरह से उपयोग करने के बजाय, वे प्रभाव के आकार का अध्ययन पूर्व उपचार भावनात्मक अभिव्यक्ति के एक समारोह के रूप में कर सकते थे। जैसे Schultz et al. (2007) ने पाया कि उपचार का प्रभाव हल्के और भारी उपयोगकर्ताओं के लिए अलग था, शायद समाचार फ़ीड के प्रभाव उन लोगों के लिए अलग थे जो पहले से ही खुश (या उदास) संदेश पोस्ट करने के इच्छुक थे। Repurposing "मछली पकड़ने" (Humphreys, Sierra, and Windt 2013) और "पी-हैकिंग" (Simmons, Nelson, and Simonsohn 2011) , लेकिन ये ईमानदार रिपोर्टिंग (Simmons, Nelson, and Simonsohn 2011) संयोजन के साथ काफी हद तक संबोधित करने योग्य हैं (Simmons, Nelson, and Simonsohn 2011) (Simmons, Nelson, and Simonsohn 2011) , प्री-रजिस्ट्रेशन (Humphreys, Sierra, and Windt 2013) , और मशीन लर्निंग विधियां जो ओवर-फिटिंग से बचने का प्रयास करती हैं।