वैधता कितना एक प्रयोग के परिणाम एक अधिक सामान्य निष्कर्ष का समर्थन करने के लिए संदर्भित करता है।
कोई प्रयोग सही नहीं है, और शोधकर्ताओं ने संभावित समस्याओं का वर्णन करने के लिए एक व्यापक शब्दावली विकसित की है। वैधता उस सीमा तक संदर्भित करती है जिस पर किसी विशेष प्रयोग के परिणाम कुछ सामान्य निष्कर्षों का समर्थन करते हैं। सामाजिक वैज्ञानिकों ने वैधता को चार मुख्य प्रकारों में विभाजित करने में मददगार पाया है: सांख्यिकीय निष्कर्ष वैधता, आंतरिक वैधता, वैधता निर्माण, और बाहरी वैधता (Shadish, Cook, and Campbell 2001, chap. 2) । इन अवधारणाओं को महारत हासिल करने से आपको एक प्रयोग के डिजाइन और विश्लेषण की आलोचना और सुधार के लिए मानसिक जांच मिल जाएगी, और यह आपको अन्य शोधकर्ताओं के साथ संवाद करने में मदद करेगा।
सांख्यिकीय निष्कर्ष वैधता केंद्र के आसपास केंद्रित है कि प्रयोग का सांख्यिकीय विश्लेषण सही ढंग से किया गया था या नहीं। Schultz et al. (2007) के संदर्भ में Schultz et al. (2007) , इस तरह का एक प्रश्न इस बात पर केंद्रित हो सकता है कि उन्होंने अपने \(p\) -values सही तरीके से गणना की है या नहीं। सांख्यिकीय सिद्धांतों को प्रयोगों को डिजाइन और विश्लेषण करने की आवश्यकता है, इस पुस्तक के दायरे से बाहर हैं, लेकिन डिजिटल मूल में वे मूल रूप से परिवर्तित नहीं हुए हैं। हालांकि, क्या बदल गया है, डिजिटल प्रयोगों में डेटा पर्यावरण ने उपचार के प्रभावों (Imai and Ratkovic 2013) विषमता का अनुमान लगाने के लिए मशीन सीखने के तरीकों का उपयोग करने के नए अवसर पैदा किए हैं।
आंतरिक वैधता केंद्रों के आसपास केंद्रित है कि प्रयोगात्मक प्रक्रियाओं को सही ढंग से किया गया था या नहीं। Schultz et al. (2007) के प्रयोग पर लौट रहे हैं Schultz et al. (2007) , आंतरिक वैधता के बारे में प्रश्न यादृच्छिकरण, उपचार की डिलीवरी, और परिणामों के माप के आसपास केंद्रित हो सकते हैं। उदाहरण के लिए, आप चिंतित हो सकते हैं कि शोध सहायकों ने बिजली मीटर को विश्वसनीय रूप से नहीं पढ़ा। वास्तव में, इस समस्या के बारे में शल्ट्ज़ और सहयोगी चिंतित थे, और उनके पास मीटर का नमूना दो बार पढ़ा गया था; सौभाग्य से, परिणाम अनिवार्य रूप से समान थे। आम तौर पर, शल्ट्ज़ और सहयोगियों के प्रयोग में उच्च आंतरिक वैधता प्रतीत होती है, लेकिन यह हमेशा ऐसा नहीं होता है: जटिल क्षेत्र और ऑनलाइन प्रयोग अक्सर सही लोगों को सही उपचार देने और हर किसी के परिणामों को मापने में समस्याओं में भाग लेते हैं। सौभाग्य से, डिजिटल युग आंतरिक वैधता के बारे में चिंताओं को कम करने में मदद कर सकती है क्योंकि अब यह सुनिश्चित करना आसान है कि उपचार उन लोगों को दिया जाता है जो इसे प्राप्त करना चाहते हैं और सभी प्रतिभागियों के परिणामों को मापने के लिए।
डेटा और सैद्धांतिक संरचनाओं के बीच मैच के आसपास वैधता केंद्रों का निर्माण। जैसा कि अध्याय 2 में चर्चा की गई है, संरचनाएं अमूर्त अवधारणाएं हैं जिनके बारे में सामाजिक वैज्ञानिकों का कारण है। दुर्भाग्य से, इन अमूर्त अवधारणाओं में हमेशा स्पष्ट परिभाषाएं और माप नहीं होते हैं। Schultz et al. (2007) पर लौट रहा है Schultz et al. (2007) , दावा है कि निषेध सामाजिक मानदंड बिजली के उपयोग को कम कर सकते हैं शोधकर्ताओं को ऐसे उपचार को डिजाइन करने की आवश्यकता होती है जो "निषेध सामाजिक मानदंडों" (उदाहरण के लिए, एक इमोटिकॉन) में छेड़छाड़ करे और "बिजली के उपयोग" को माप सके। एनालॉग प्रयोगों में, कई शोधकर्ताओं ने अपने स्वयं के उपचार तैयार किए और अपने स्वयं के परिणामों को माप लिया। यह दृष्टिकोण सुनिश्चित करता है कि, जितना संभव हो, प्रयोगों का अध्ययन किए जाने वाले अमूर्त संरचनाओं से मेल खाता है। डिजिटल प्रयोगों में जहां शोधकर्ता कंपनियां या सरकारों के साथ उपचार देने और परिणामों को मापने के लिए हमेशा डेटा सिस्टम पर उपयोग करते हैं, प्रयोग और सैद्धांतिक संरचनाओं के बीच का मिलान कम तंग हो सकता है। इस प्रकार, मैं उम्मीद करता हूं कि अनुरूपता प्रयोगों की तुलना में डिजिटल प्रयोगों में निर्माण वैधता एक बड़ी चिंता होगी।
अंत में, बाहरी वैधता केंद्र इस क्षेत्र के परिणामों को अन्य स्थितियों में सामान्यीकृत किया जा सकता है या नहीं। Schultz et al. (2007) पर लौट रहा है Schultz et al. (2007) , कोई यह पूछ सकता है कि क्या यह वही विचार है जो लोगों को उनके साथियों के संबंध में उनके ऊर्जा उपयोग के बारे में जानकारी प्रदान करता है और निषेध मानदंडों (जैसे, एक इमोटिकॉन) का संकेत देता है - अगर यह अलग तरीके से किया जाता है तो ऊर्जा उपयोग को कम कर देगा एक अलग सेटिंग में। अधिकांश अच्छी तरह से डिज़ाइन किए गए और अच्छी तरह से चलने वाले प्रयोगों के लिए, बाहरी वैधता के बारे में चिंताओं को संबोधित करना सबसे मुश्किल है। अतीत में, बाहरी वैधता के बारे में इन बहसों में अक्सर एक कमरे में बैठे लोगों के समूह से अधिक कुछ भी शामिल नहीं था, यह सोचने की कोशिश कर रहा था कि क्या होगा यदि प्रक्रिया अलग-अलग तरीके से की जाती है, या अलग-अलग जगहों पर या विभिन्न प्रतिभागियों के साथ । सौभाग्य से, डिजिटल युग शोधकर्ताओं को इन डेटा-मुक्त अटकलों से आगे बढ़ने और अनुभवी बाहरी वैधता का आकलन करने में सक्षम बनाता है।
क्योंकि Schultz et al. (2007) के परिणाम Schultz et al. (2007) इतने रोमांचक थे, ओपॉवर नाम की एक कंपनी ने संयुक्त राज्य अमेरिका में यूटिलिटीज के साथ भागीदारी को अधिक व्यापक रूप से तैनात करने के लिए भागीदारी की। Schultz et al. (2007) के डिजाइन के आधार पर Schultz et al. (2007) , ओपॉवर ने अनुकूलित गृह ऊर्जा रिपोर्टों का निर्माण किया जिसमें दो मुख्य मॉड्यूल थे: एक व्यक्ति अपने पड़ोसियों के साथ एक इमोटिकॉन के साथ घरेलू बिजली का उपयोग दिखा रहा है और एक ऊर्जा उपयोग को कम करने के लिए सुझाव प्रदान करता है (आंकड़ा 4.6)। फिर, शोधकर्ताओं के साथ साझेदारी में, ओपॉवर ने इन गृह ऊर्जा रिपोर्टों के प्रभाव का आकलन करने के लिए यादृच्छिक नियंत्रित प्रयोगों को चलाया। हालांकि इन प्रयोगों में उपचार आमतौर पर शारीरिक रूप से वितरित किए जाते थे-आमतौर पर पुराने फैशन वाले घोंघा मेल के माध्यम से-परिणाम भौतिक दुनिया (जैसे बिजली मीटर) में डिजिटल उपकरणों का उपयोग करके मापा जाता था। इसके अलावा, प्रत्येक घर पर जाने वाले शोध सहायकों के साथ मैन्युअल रूप से इस जानकारी को इकट्ठा करने के बजाय, ओपॉवर प्रयोग सभी बिजली कंपनियों के साथ भागीदारी में किए गए थे ताकि शोधकर्ताओं को बिजली रीडिंग तक पहुंच मिल सके। इस प्रकार, ये आंशिक रूप से डिजिटल क्षेत्र प्रयोग कम परिवर्तनीय लागत पर बड़े पैमाने पर चल रहे थे।
10 अलग-अलग साइटों से 600,000 परिवारों के प्रयोगों के पहले सेट में, Allcott (2011) ने पाया कि गृह ऊर्जा रिपोर्ट ने बिजली की खपत कम कर दी है। दूसरे शब्दों में, अधिक बड़े, भौगोलिक दृष्टि से विविध अध्ययन के परिणाम गुणात्मक रूप से Schultz et al. (2007) के परिणामों के समान थे Schultz et al. (2007) । इसके अलावा, 101 विभिन्न साइटों से आठ मिलियन अतिरिक्त परिवारों के बाद के शोध में, Allcott (2015) फिर से पाया कि गृह ऊर्जा रिपोर्ट ने बिजली की खपत को लगातार कम किया है। प्रयोगों के इस बड़े सेट ने एक दिलचस्प नया पैटर्न भी प्रकट किया जो किसी भी प्रयोग में दिखाई नहीं देगा: बाद के प्रयोगों में प्रभाव का आकार घट गया (आंकड़ा 4.7)। Allcott (2015) ने अनुमान लगाया कि यह गिरावट इसलिए हुई क्योंकि समय के साथ, उपचार विभिन्न प्रकार के प्रतिभागियों पर लागू किया जा रहा था। अधिक विशेष रूप से, अधिक पर्यावरण केंद्रित केंद्रित ग्राहकों के साथ उपयोगिताएं पहले कार्यक्रम को अपनाने की संभावना थीं, और उनके ग्राहक उपचार के लिए अधिक प्रतिक्रियाशील थे। कम पर्यावरणीय केंद्रित ग्राहकों के साथ उपयोगिता के रूप में कार्यक्रम को अपनाया, इसकी प्रभावशीलता में गिरावट आई। इस प्रकार, जैसे प्रयोगों में यादृच्छिकरण सुनिश्चित करता है कि उपचार और नियंत्रण समूह समान हैं, शोध साइटों में यादृच्छिकरण यह सुनिश्चित करता है कि अनुमानों को प्रतिभागियों के एक समूह से अधिक आम जनसंख्या में सामान्यीकृत किया जा सके (नमूनाकरण के बारे में अध्याय 3 पर वापस विचार करें)। यदि शोध साइटों को यादृच्छिक रूप से नमूना नहीं दिया जाता है, तो सामान्यीकरण-यहां तक कि पूरी तरह डिज़ाइन किए गए और आयोजित प्रयोग से भी समस्याग्रस्त हो सकता है।
Allcott (2011) 101 में से 111 प्रयोग -10 और Allcott (2015) में 101 ने संयुक्त राज्य अमेरिका के 8.5 मिलियन परिवारों को विकसित किया। वे लगातार दिखाते हैं कि गृह ऊर्जा रिपोर्ट औसत बिजली की खपत को कम करती है, जिसके परिणामस्वरूप कैलिफोर्निया में 300 घरों से शल्ट्ज़ और सहयोगियों के मूल निष्कर्षों का समर्थन होता है। इन मूल परिणामों की प्रतिलिपि बनाने के अलावा, अनुवर्ती प्रयोगों से यह भी पता चलता है कि प्रभाव का आकार स्थान के अनुसार भिन्न होता है। प्रयोगों का यह सेट आंशिक रूप से डिजिटल क्षेत्र प्रयोगों के बारे में दो और सामान्य बिंदुओं को भी दर्शाता है। सबसे पहले, शोधकर्ता बाहरी वैधता के बारे में चिंताओं को अनुभव करने में सक्षम होंगे जब प्रयोग चलने की लागत कम है, और यह तब हो सकता है जब परिणाम पहले से ही डेटा सिस्टम द्वारा मापा जा रहा हो। इसलिए, यह सुझाव देता है कि शोधकर्ताओं को अन्य रोचक और महत्वपूर्ण व्यवहारों की तलाश में होना चाहिए जो पहले ही रिकॉर्ड किए जा रहे हैं, और फिर इस मौजूदा मापने के बुनियादी ढांचे के शीर्ष पर प्रयोगों का डिजाइन करें। दूसरा, प्रयोगों का यह सेट हमें याद दिलाता है कि डिजिटल फ़ील्ड प्रयोग केवल ऑनलाइन नहीं हैं; तेजी से, मुझे उम्मीद है कि वे हर जगह होंगे जहां निर्मित वातावरण में सेंसर द्वारा मापा गया कई परिणाम होंगे।
चार प्रकार की वैधता-सांख्यिकीय निष्कर्ष वैधता, आंतरिक वैधता, वैधता निर्माण, और बाहरी वैधता - शोधकर्ताओं को यह आकलन करने में सहायता करने के लिए एक मानसिक चेकलिस्ट प्रदान करती है कि किसी विशेष प्रयोग के परिणाम अधिक सामान्य निष्कर्ष का समर्थन करते हैं या नहीं। डिजिटल आयु के प्रयोगों में, एनालॉग-आयु प्रयोगों की तुलना में, बाह्य वैधता को अनुभवी रूप से संबोधित करना आसान होना चाहिए, और आंतरिक वैधता सुनिश्चित करना भी आसान होना चाहिए। दूसरी तरफ, निर्माण वैधता के मुद्दे शायद डिजिटल आयु के प्रयोगों में अधिक चुनौतीपूर्ण होंगे, विशेष रूप से डिजिटल क्षेत्र के प्रयोग जिनमें कंपनियों के साथ साझेदारी शामिल है।