हम उन प्रयोगों का अनुमान लगा सकते हैं जिन्हें हमने नहीं किया है या नहीं कर सकते हैं। दो दृष्टिकोण जो विशेष रूप से बड़े डेटा स्रोतों से लाभान्वित होते हैं वे प्राकृतिक प्रयोग और मेल खाते हैं।
कुछ महत्वपूर्ण वैज्ञानिक और नीति प्रश्न कारण हैं। उदाहरण के लिए, मजदूरी पर नौकरी प्रशिक्षण कार्यक्रम का क्या प्रभाव है? इस प्रश्न का उत्तर देने का प्रयास करने वाले एक शोधकर्ता उन लोगों की कमाई की तुलना कर सकते हैं जिन्होंने प्रशिक्षण के लिए साइन अप किया था। लेकिन इन समूहों के बीच मजदूरी में कितना अंतर प्रशिक्षण के कारण है और साइन अप करने वाले लोगों के बीच पूर्ववर्ती मतभेदों के कारण कितना है और जो नहीं करते हैं? यह एक कठिन सवाल है, और यह वह है जो स्वचालित रूप से अधिक डेटा से दूर नहीं जाता है। दूसरे शब्दों में, संभावित पूर्ववर्ती मतभेदों के बारे में चिंता इससे कोई फर्क नहीं पड़ता कि आपके डेटा में कितने कर्मचारी हैं।
कई परिस्थितियों में, नौकरी प्रशिक्षण जैसे कुछ उपचार के कारण प्रभाव का अनुमान लगाने का सबसे मजबूत तरीका एक यादृच्छिक नियंत्रित प्रयोग चलाने के लिए है जहां एक शोधकर्ता यादृच्छिक रूप से कुछ लोगों को उपचार प्रदान करता है, न कि दूसरों को। मैं सभी अध्याय 4 प्रयोगों में समर्पित करूंगा, इसलिए यहां मैं दो रणनीतियों पर ध्यान केंद्रित करने जा रहा हूं जिनका उपयोग गैर-प्रयोगात्मक डेटा के साथ किया जा सकता है। पहली रणनीति दुनिया में कुछ घटित होने पर निर्भर करती है जो यादृच्छिक रूप से (या लगभग यादृच्छिक रूप से) कुछ लोगों को उपचार सौंपती है, न कि दूसरों को। दूसरी रणनीति उन लोगों के बीच पूर्ववर्ती मतभेदों के लिए जिम्मेदार प्रयास करने के प्रयास में गैर-प्रयोगात्मक डेटा को सांख्यिकीय रूप से समायोजित करने पर निर्भर करती है जिन्होंने उपचार प्राप्त नहीं किया था।
एक संदिग्ध दावा कर सकता है कि इन दोनों रणनीतियों से बचा जाना चाहिए क्योंकि उन्हें मजबूत मान्यताओं, धारणाओं की आकलन करना मुश्किल होता है और, व्यावहारिक रूप से, अक्सर उल्लंघन किया जाता है। जबकि मैं इस दावे से सहानुभूतिशील हूं, मुझे लगता है कि यह थोड़ा दूर चला जाता है। यह निश्चित रूप से सच है कि विश्वसनीय रूप से गैर-प्रयोगात्मक डेटा से कारण अनुमान बनाना मुश्किल है, लेकिन मुझे नहीं लगता कि इसका मतलब है कि हमें कभी भी प्रयास नहीं करना चाहिए। विशेष रूप से, गैर-प्रयोगात्मक दृष्टिकोण उपयोगी हो सकते हैं यदि तर्कसंगत बाधा आपको प्रयोग करने से रोकती है या नैतिक बाधाओं का मतलब है कि आप एक प्रयोग नहीं करना चाहते हैं। इसके अलावा, यदि आप एक यादृच्छिक नियंत्रित प्रयोग को डिजाइन करने के लिए पहले से मौजूद डेटा का लाभ उठाना चाहते हैं तो गैर-प्रयोगात्मक दृष्टिकोण सहायक हो सकते हैं।
आगे बढ़ने से पहले, यह भी ध्यान देने योग्य है कि मौलिक अनुमान बनाना सामाजिक शोध में सबसे जटिल विषयों में से एक है, और वह जो तीव्र और भावनात्मक बहस का कारण बन सकता है। इस प्रकार, मैं इसके बारे में अंतर्ज्ञान बनाने के लिए प्रत्येक दृष्टिकोण का आशावादी विवरण प्रदान करूंगा, फिर मैं उस दृष्टिकोण का उपयोग करते समय उत्पन्न होने वाली कुछ चुनौतियों का वर्णन करूंगा। इस अध्याय के अंत में सामग्री में प्रत्येक दृष्टिकोण के बारे में और जानकारी उपलब्ध है। यदि आप अपने स्वयं के शोध में इन दृष्टिकोणों में से किसी एक का उपयोग करने की योजना बना रहे हैं, तो मैं अत्यधिक कारणों (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) पर कई उत्कृष्ट पुस्तकों में से एक को पढ़ने की सलाह देता हूं।
गैर-प्रयोगात्मक डेटा से कारण अनुमान बनाने का एक दृष्टिकोण यह है कि किसी ऐसे व्यक्ति की तलाश करें जिसने यादृच्छिक रूप से कुछ लोगों को इलाज सौंपा है, न कि दूसरों के लिए। इन परिस्थितियों को प्राकृतिक प्रयोग कहा जाता है। एक प्राकृतिक प्रयोग के सबसे स्पष्ट उदाहरणों में से एक जोशुआ Angrist (1990) के शोध से कमाई पर सैन्य सेवाओं के प्रभाव को मापने के शोध से आता है। वियतनाम में युद्ध के दौरान, संयुक्त राज्य अमेरिका ने अपने सशस्त्र बलों के आकार को एक मसौदे के माध्यम से बढ़ा दिया। यह तय करने के लिए कि कौन से नागरिक सेवा में बुलाए जाएंगे, अमेरिकी सरकार ने लॉटरी आयोजित की थी। प्रत्येक जन्मतिथि कागज के टुकड़े पर लिखी गई थी, और जैसा कि आंकड़ा 2.7 में दिखाया गया है, कागज के इन टुकड़ों को एक समय में चुना गया था ताकि आदेश निर्धारित किया जा सके कि युवा पुरुषों को सेवा के लिए बुलाया जाएगा (युवा महिलाएं विषय नहीं थीं मसौदे के लिए)। परिणामों के आधार पर, 14 सितंबर को पैदा हुए पुरुषों को पहले कहा जाता था, 24 अप्रैल को पैदा हुए पुरुषों को दूसरा कहा जाता था, और इसी तरह। आखिरकार, इस लॉटरी में, 1 9 5 अलग-अलग दिनों में पैदा हुए पुरुषों का मसौदा तैयार किया गया, जबकि 171 दिनों में पैदा हुए पुरुष नहीं थे।
यद्यपि यह तुरंत स्पष्ट नहीं हो सकता है, मसौदा लॉटरी में यादृच्छिक नियंत्रित प्रयोग के लिए एक समान समानता है: दोनों स्थितियों में, प्रतिभागियों को उपचार प्राप्त करने के लिए यादृच्छिक रूप से असाइन किया जाता है। इस यादृच्छिक उपचार के प्रभाव का अध्ययन करने के लिए, एग्रीस्ट ने हमेशा एक बड़ी डेटा प्रणाली का लाभ उठाया: यूएस सोशल सिक्योरिटी एडमिनिस्ट्रेशन, जो रोजगार से लगभग हर अमेरिकी की कमाई पर जानकारी एकत्र करता है। सरकारी प्रशासनिक अभिलेखों में एकत्रित आय डेटा के साथ मसौदे लॉटरी में यादृच्छिक रूप से चुने गए लोगों के बारे में जानकारी के संयोजन से, विश्लेषक ने निष्कर्ष निकाला कि तुलनात्मक गैर-दिग्गजों की कमाई से दिग्गजों की कमाई लगभग 15% कम थी।
जैसा कि इस उदाहरण से पता चलता है, कभी-कभी सामाजिक, राजनीतिक, या प्राकृतिक शक्तियां ऐसे तरीकों से उपचार करती हैं जिन्हें शोधकर्ताओं द्वारा लीवरेज किया जा सकता है, और कभी-कभी इन उपचारों के प्रभाव हमेशा बड़े डेटा स्रोतों पर कब्जा कर लिया जाता है। इस शोध रणनीति को संक्षेप में सारांशित किया जा सकता है: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
डिजिटल युग में इस रणनीति को स्पष्ट करने के लिए, आइए अलेक्जेंड्रे मास और एनरिको मोरेटी (2009) द्वारा एक अध्ययन पर विचार करें, जिसने एक कार्यकर्ता की उत्पादकता पर उत्पादक सहयोगियों के साथ काम करने के प्रभाव का अनुमान लगाने की कोशिश की। परिणामों को देखने से पहले, यह इंगित करने लायक है कि आपके पास विवादित अपेक्षाएं हैं जो आपके पास हो सकती हैं। एक तरफ, आप उम्मीद कर सकते हैं कि उत्पादक सहयोगियों के साथ काम करने से एक कर्मचारी श्रमिक दबाव के कारण अपनी उत्पादकता में वृद्धि करेगा। या, दूसरी तरफ, आप उम्मीद कर सकते हैं कि कड़ी मेहनत करने वाले साथी होने से एक कर्मचारी को ढीला हो सकता है क्योंकि काम उसके साथियों द्वारा किया जाएगा। उत्पादकता पर सहकर्मी प्रभावों का अध्ययन करने का सबसे स्पष्ट तरीका एक यादृच्छिक नियंत्रित प्रयोग होगा जहां श्रमिकों को यादृच्छिक रूप से विभिन्न उत्पादकता स्तर के श्रमिकों के साथ शिफ्ट करने के लिए असाइन किया जाता है और परिणामस्वरूप उत्पादकता सभी के लिए मापा जाता है। हालांकि, शोधकर्ता किसी भी वास्तविक व्यापार में श्रमिकों के कार्यक्रम को नियंत्रित नहीं करते हैं, और इसलिए मास और मोरेटी को एक सुपरमार्केट में कैशियर से जुड़े प्राकृतिक प्रयोग पर भरोसा करना पड़ा।
इस विशेष सुपरमार्केट में, जिस तरह से शेड्यूलिंग की गई थी और जिस तरह से बदलाव आया था, प्रत्येक कैशियर के दिन के अलग-अलग समय में अलग-अलग सहकर्मी थे। इसके अलावा, इस विशेष सुपरमार्केट में, कैशियर का असाइनमेंट उनके साथियों की उत्पादकता से संबंधित था या दुकान कितनी व्यस्त थी। दूसरे शब्दों में, भले ही कैशियर की शेड्यूलिंग लॉटरी द्वारा निर्धारित नहीं की गई थी, ऐसा लगता है कि श्रमिकों को कभी-कभी उच्च (या कम) उत्पादकता सहकर्मियों के साथ काम करने के लिए यादृच्छिक रूप से असाइन किया जाता था। सौभाग्य से, इस सुपरमार्केट में डिजिटल-एज चेकआउट सिस्टम भी था जिसने आइटम को ट्रैक किया था कि प्रत्येक कैशियर हर समय स्कैनिंग कर रहा था। इस चेकआउट लॉग डेटा से, मास और मोरेटी उत्पादकता के एक सटीक, व्यक्तिगत, और हमेशा-मापने में सक्षम थे: प्रति सेकंड स्कैन किए गए आइटमों की संख्या। इन दो चीजों का मिश्रण - सहकर्मी उत्पादकता में स्वाभाविक रूप से होने वाली भिन्नता और उत्पादकता के हमेशा-माप पर मास और मोरेटी ने अनुमान लगाया कि यदि एक कैशियर को सहकर्मियों को असाइन किया गया था जो औसत से 10% अधिक उत्पादक थे, तो उनकी उत्पादकता 1.5% । इसके अलावा, उन्होंने दो महत्वपूर्ण मुद्दों का पता लगाने के लिए अपने डेटा के आकार और समृद्धि का उपयोग किया: इस प्रभाव की विषमता (किस प्रकार के श्रमिक प्रभाव बड़े हैं?) और प्रभाव के पीछे तंत्र (उच्च उत्पादकता वाले सहकर्मी क्यों होते हैं उच्चतर उत्पादकता?)। हम इन दो महत्वपूर्ण मुद्दों पर वापस आ जाएंगे- उपचार प्रभाव और तंत्र की विषमता - अध्याय 4 में जब हम अधिक विस्तार से प्रयोगों पर चर्चा करते हैं।
इन दो अध्ययनों से सामान्यीकृत, तालिका 2.3 अन्य अध्ययनों को सारांशित करता है जिनके पास समान संरचना है: कुछ यादृच्छिक विविधता के प्रभाव को मापने के लिए हमेशा डेटा स्रोत का उपयोग करना। अभ्यास में, शोधकर्ता प्राकृतिक प्रयोगों को खोजने के लिए दो अलग-अलग रणनीतियों का उपयोग करते हैं, जिनमें से दोनों उपयोगी हो सकते हैं। कुछ शोधकर्ता हमेशा डेटा स्रोत के साथ शुरू होते हैं और दुनिया में यादृच्छिक घटनाओं की खोज करते हैं; अन्य दुनिया में एक यादृच्छिक घटना शुरू करते हैं और डेटा स्रोतों की तलाश करते हैं जो इसके प्रभाव को पकड़ते हैं।
पर्याप्त फोकस | प्राकृतिक प्रयोग का स्रोत | हमेशा डेटा स्रोत पर | संदर्भ |
---|---|---|---|
उत्पादकता पर सहकर्मी प्रभाव | निर्धारण प्रक्रिया | चेकआउट डेटा | Mas and Moretti (2009) |
दोस्ती गठन | तूफान | फेसबुक | Phan and Airoldi (2015) |
भावनाओं का विस्तार | बारिश | फेसबुक | Lorenzo Coviello et al. (2014) |
पीयर-टू-पीयर आर्थिक स्थानान्तरण | भूकंप | मोबाइल पैसा डेटा | Blumenstock, Fafchamps, and Eagle (2011) |
व्यक्तिगत खपत व्यवहार | 2013 अमेरिकी सरकार बंद | व्यक्तिगत वित्त डेटा | Baker and Yannelis (2015) |
सिफारिशकर्ता प्रणाली का आर्थिक प्रभाव | विभिन्न | अमेज़ॅन पर ब्राउज़िंग डेटा | Sharma, Hofman, and Watts (2015) |
नवजात शिशुओं पर तनाव का असर | 2006 इज़राइल-हेज़बुल्ला युद्ध | जन्म रिकॉर्ड | Torche and Shwed (2015) |
विकिपीडिया पर व्यवहार पढ़ना | Snowden रहस्योद्घाटन | विकिपीडिया लॉग | Penney (2016) |
अभ्यास पर सहकर्मी प्रभाव | मौसम | स्वास्थ्य ट्रैकर्स | Aral and Nicolaides (2017) |
प्राकृतिक प्रयोगों के बारे में अब तक चर्चा में, मैंने एक महत्वपूर्ण बिंदु छोड़ा है: जो प्रकृति आपने जो चाहती है उससे जाकर कभी-कभी काफी मुश्किल हो सकती है। आइए वियतनाम के मसौदे उदाहरण पर लौटें। इस मामले में, Angrist कमाई पर सैन्य सेवा के प्रभाव का अनुमान लगाने में रुचि थी। दुर्भाग्यवश, सैन्य सेवा को यादृच्छिक रूप से असाइन नहीं किया गया था; बल्कि इसे ड्राफ्ट किया जा रहा था जिसे यादृच्छिक रूप से असाइन किया गया था। हालांकि, ड्राफ्ट किए गए हर किसी को सेवा नहीं मिली थी (वहां कई प्रकार की छूट थी), और जो लोग सेवा करते थे, वे ड्राफ्ट नहीं किए गए थे (लोग सेवा करने के लिए स्वयंसेवक हो सकते थे)। क्योंकि मसौदा तैयार किया गया था यादृच्छिक रूप से असाइन किया गया था, एक शोधकर्ता मसौदे में सभी पुरुषों के लिए तैयार किए जाने के प्रभाव का अनुमान लगा सकता है। लेकिन विश्लेषक मसौदे के प्रभाव को जानना नहीं चाहते थे; वह सेना में सेवा करने के प्रभाव को जानना चाहता था। इस अनुमान को बनाने के लिए, हालांकि, अतिरिक्त मान्यताओं और जटिलताओं की आवश्यकता है। सबसे पहले, शोधकर्ताओं को यह मानने की आवश्यकता है कि प्रभावित आय का मसौदा तैयार करने का एकमात्र तरीका सैन्य सेवा के माध्यम से है, एक धारणा जिसे बहिष्करण प्रतिबंध कहा जाता है। यह धारणा गलत हो सकती है, उदाहरण के लिए, जो लोग मसौदे तैयार किए गए थे, वे सेवा से बचने के लिए लंबे समय तक स्कूल में रहे थे या नियोक्ता उन लोगों को किराए पर लेने की संभावना कम थे, जिन्हें ड्राफ्ट किया गया था। आम तौर पर, बहिष्करण प्रतिबंध एक महत्वपूर्ण धारणा है, और आमतौर पर इसे सत्यापित करना मुश्किल होता है। भले ही बहिष्करण प्रतिबंध सही है, फिर भी सभी पुरुषों पर सेवा के प्रभाव का आकलन करना अभी भी असंभव है। इसके बजाए, यह पता चला है कि शोधकर्ता केवल शिकायतों नामक पुरुषों के एक विशिष्ट उप-समूह पर प्रभाव का अनुमान लगा सकते हैं (जो लोग मसौदे तैयार करते हैं, लेकिन ड्राफ्ट किए जाने पर सेवा नहीं करेंगे) (Angrist, Imbens, and Rubin 1996) । हालांकि, शिकायतकर्ता ब्याज की मूल आबादी नहीं थे। ध्यान दें कि मसौदा लॉटरी के अपेक्षाकृत साफ मामले में भी ये समस्याएं उत्पन्न होती हैं। जटिलता का एक और सेट तब उठता है जब उपचार भौतिक लॉटरी द्वारा असाइन नहीं किया जाता है। उदाहरण के लिए, मास और मोरेटी के कैशियर के अध्ययन में, अतिरिक्त प्रश्न इस धारणा के बारे में उठते हैं कि सहकर्मियों का असाइनमेंट अनिवार्य रूप से यादृच्छिक है। अगर इस धारणा का जोरदार उल्लंघन किया गया था, तो यह उनके अनुमानों को पूर्वाग्रह दे सकता है। निष्कर्ष निकालने के लिए, प्राकृतिक प्रयोग गैर-प्रयोगात्मक डेटा से कारण अनुमान बनाने के लिए एक शक्तिशाली रणनीति हो सकते हैं, और बड़े डेटा स्रोत प्राकृतिक प्रयोगों पर पूंजीकरण करने की हमारी क्षमता को बढ़ाते हैं। हालांकि, संभवतः आपको उस अनुमान के मुताबिक जो प्रकृति प्रदान की गई है, उससे जाने के लिए इसे बहुत अच्छी देखभाल और कभी-कभी मजबूत धारणाओं की आवश्यकता होगी।
दूसरी रणनीति जो मैं आपको गैर-प्रयोगात्मक डेटा से कारण अनुमान बनाने के बारे में बताना चाहता हूं, उन लोगों के बीच पूर्ववर्ती मतभेदों के कारण खाते में गैर-प्रयोगात्मक डेटा को सांख्यिकीय रूप से समायोजित करने पर निर्भर करता है जिन्होंने उपचार नहीं किया और प्राप्त नहीं किया। ऐसे कई समायोजन दृष्टिकोण हैं, लेकिन मैं मिलान करने वाले एक पर ध्यान केंद्रित करूंगा। मिलान में, शोधकर्ता गैर-प्रयोगात्मक डेटा देखता है ताकि लोगों के जोड़े बन सकें जो कि समान हैं, सिवाय इसके कि किसी को इलाज प्राप्त हुआ है और कोई नहीं है। मिलान की प्रक्रिया में, शोधकर्ता वास्तव में भी छंटनी कर रहे हैं; अर्थात, ऐसे मामलों को त्यागना जहां कोई स्पष्ट मिलान नहीं है। इस प्रकार, इस विधि को मिलान-और-छंटनी के रूप में अधिक सटीक रूप से जाना जाएगा, लेकिन मैं पारंपरिक शब्द के साथ रहूंगा: मिलान।
भारी गैर-प्रयोगात्मक डेटा स्रोतों के साथ मिलान करने वाली रणनीतियों की शक्ति का एक उदाहरण लिरेन इनाव और सहयोगियों (2015) द्वारा उपभोक्ता व्यवहार पर शोध से आता है। वे ईबे पर होने वाली नीलामियों में रुचि रखते थे, और उनके काम का वर्णन करने में, नीलामी के परिणामों जैसे बिक्री मूल्य या बिक्री की संभावना पर नीलामी के प्रभाव पर ध्यान केंद्रित करेंगे।
बिक्री मूल्य पर मूल्य शुरू करने के प्रभाव का अनुमान लगाने का सबसे बेवकूफ तरीका अलग-अलग शुरुआती कीमतों के साथ नीलामी के लिए अंतिम मूल्य की गणना करना होगा। यदि आप शुरुआती मूल्य के अनुसार बिक्री मूल्य की भविष्यवाणी करना चाहते हैं तो यह दृष्टिकोण ठीक होगा। लेकिन यदि आपका प्रश्न शुरुआती मूल्य के प्रभाव से संबंधित है, तो यह दृष्टिकोण काम नहीं करेगा क्योंकि यह उचित तुलनाओं पर आधारित नहीं है; कम शुरूआती कीमतों वाली नीलामी उच्च प्रारंभिक कीमतों वाले लोगों से काफी भिन्न हो सकती है (उदाहरण के लिए, वे विभिन्न प्रकार के सामानों के लिए हो सकते हैं या विभिन्न प्रकार के विक्रेताओं को शामिल कर सकते हैं)।
यदि आप पहले से ही उन समस्याओं के बारे में जानते हैं जो गैर-प्रयोगात्मक डेटा से कारण अनुमान बनाते समय उत्पन्न हो सकते हैं, तो आप निष्पक्ष दृष्टिकोण को छोड़ सकते हैं और एक फील्ड प्रयोग चलाने पर विचार कर सकते हैं जहां आप एक विशिष्ट आइटम-कहेंगे, एक गोल्फ क्लब-फिक्स्ड के साथ नीलामी मानकों का सेट-कहते हैं, मुफ्त शिपिंग और नीलामी दो हफ्तों के लिए खुली है- लेकिन यादृच्छिक रूप से निर्धारित कीमतों के साथ। परिणामी बाजार परिणामों की तुलना करके, यह क्षेत्र प्रयोग बिक्री मूल्य पर मूल्य शुरू करने के प्रभाव का एक बहुत स्पष्ट माप प्रदान करेगा। लेकिन यह माप केवल एक विशेष उत्पाद और नीलामी मानकों के सेट पर लागू होगा। परिणाम अलग-अलग प्रकार के उत्पादों के लिए अलग-अलग हो सकते हैं। एक मजबूत सिद्धांत के बिना, इस एकल प्रयोग से संभव प्रयोगों की पूरी श्रृंखला में इसे निकालना मुश्किल हो सकता है। इसके अलावा, क्षेत्र के प्रयोग पर्याप्त रूप से महंगे हैं कि हर भिन्नता को चलाने के लिए यह संभव नहीं होगा जिसे आप आजमा सकते हैं।
निष्पक्ष और प्रयोगात्मक दृष्टिकोण के विपरीत, इनाव और सहयोगियों ने एक तीसरा दृष्टिकोण लिया: मिलान। उनकी रणनीति में मुख्य चाल उन क्षेत्रों के प्रयोगों की तरह चीजों को खोजना है जो eBay पर पहले से ही हो चुके हैं। उदाहरण के लिए, आंकड़ा 2.8 बिल्कुल उसी गोल्फ क्लब के लिए 31 लिस्टिंग में से कुछ दिखाता है- एक Taylormade बर्नर 09 ड्राइवर-बिल्कुल उसी विक्रेता द्वारा बेचा जा रहा है- "budgetgolfer।" हालांकि, इन 31 लिस्टिंग में अलग-अलग विशेषताएं हैं, जैसे विभिन्न प्रारंभ मूल्य, समाप्ति तिथियां, और शिपिंग शुल्क। दूसरे शब्दों में, ऐसा लगता है कि "budgetgolfer" शोधकर्ताओं के लिए प्रयोग चला रहा है।
"बजटगोल्फर" द्वारा बेचा जाने वाला Taylormade बर्नर 09 ड्राइवर की ये लिस्टिंग लिस्टिंग के मिलान किए गए सेट का एक उदाहरण है, जहां सटीक वही वस्तु उसी विक्रेता द्वारा बेची जा रही है, लेकिन प्रत्येक बार थोड़ा अलग विशेषताओं के साथ। ईबे के बड़े पैमाने पर लॉग में लाखों लिस्टिंग शामिल हैं, जिसमें सैकड़ों हजार मिलान किए गए सेट हैं। इस प्रकार, किसी दिए गए शुरुआती मूल्य के साथ सभी नीलामी के लिए अंतिम मूल्य की तुलना करने के बजाय, इनाव और सहयोगियों ने मिलान किए गए सेटों की तुलना में तुलना की। इन सैकड़ों हजारों मिलान किए गए सेटों के भीतर तुलनाओं के परिणामों को गठबंधन करने के लिए, इनाव और सहयोगियों ने प्रत्येक आइटम के संदर्भ मूल्य (उदाहरण के लिए, इसकी औसत बिक्री मूल्य) के संदर्भ में प्रारंभिक मूल्य और अंतिम मूल्य को फिर से व्यक्त किया। उदाहरण के लिए, यदि Taylormade बर्नर 09 चालक के पास $ 100 (इसकी बिक्री के आधार पर) का संदर्भ मूल्य था, तो $ 10 की शुरुआती कीमत 0.1 के रूप में व्यक्त की जाएगी और 120 डॉलर की अंतिम कीमत 1.2 के रूप में व्यक्त की जाएगी।
याद रखें कि नीलामी के परिणामों पर प्रारंभ मूल्य के प्रभाव में इनाव और सहयोगियों को रुचि थी। सबसे पहले, उन्होंने अनुमान लगाने के लिए रैखिक प्रतिगमन का उपयोग किया कि उच्च प्रारंभिक कीमतें बिक्री की संभावना को कम करती हैं, और उच्च प्रारंभिक कीमतें अंतिम बिक्री मूल्य (बिक्री पर सशर्त) बढ़ जाती हैं। अपने आप से, ये अनुमान-जो एक रैखिक संबंध का वर्णन करते हैं और सभी उत्पादों पर औसत होते हैं-वे सभी दिलचस्प नहीं हैं। फिर, इनाव और सहयोगियों ने विभिन्न प्रकार के सूक्ष्म अनुमान बनाने के लिए अपने डेटा के बड़े आकार का उपयोग किया। उदाहरण के लिए, अलग-अलग शुरुआती कीमतों के लिए अलग-अलग प्रभाव का आकलन करके, उन्होंने पाया कि मूल्य और बिक्री मूल्य के बीच संबंध nonlinear (आंकड़ा 2.9) है। विशेष रूप से, 0.05 और 0.85 के बीच कीमतें शुरू करने के लिए, शुरुआती कीमत पर बिक्री मूल्य पर बहुत कम प्रभाव पड़ता है, एक ऐसा खोज जो उनके पहले विश्लेषण से पूरी तरह से चूक गया था। इसके अलावा, सभी वस्तुओं के औसत के बजाय, इनाव और सहयोगियों ने वस्तुओं की 23 विभिन्न श्रेणियों (जैसे पालतू आपूर्ति, इलेक्ट्रॉनिक्स, और खेल यादगार) (आंकड़ा 2.10) के लिए मूल्य शुरू करने के प्रभाव का अनुमान लगाया। इन अनुमानों से पता चलता है कि अधिक विशिष्ट वस्तुओं के लिए- जैसे यादगार-प्रारंभिक मूल्य बिक्री की संभावना पर एक छोटा प्रभाव पड़ता है और अंतिम बिक्री मूल्य पर एक बड़ा प्रभाव पड़ता है। इसके अलावा, अधिक कमोडिटीकृत वस्तुओं के लिए- जैसे डीवीडी- शुरुआती कीमत का अंतिम मूल्य पर लगभग कोई प्रभाव नहीं पड़ता है। दूसरे शब्दों में, औसत जो 23 विभिन्न श्रेणियों के परिणामों को जोड़ती है, इन वस्तुओं के बीच महत्वपूर्ण अंतर छुपाती है।
यहां तक कि यदि आप ईबे पर विशेष रूप से नीलामी में दिलचस्पी नहीं रखते हैं, तो आपको 2.9 और आंकड़ा 2.10 के आंकड़े की प्रशंसा करना है, जो साधारण अनुमानों से ईबे की समृद्ध समझ प्रदान करते हैं जो वस्तुओं के कई अलग-अलग श्रेणियों को जोड़ते हैं। इसके अलावा, हालांकि यह क्षेत्र प्रयोगों के साथ इन और सूक्ष्म अनुमान उत्पन्न करने के लिए वैज्ञानिक रूप से संभव होगा, लागत इस तरह के प्रयोगों को अनिवार्य रूप से असंभव बना देगी।
प्राकृतिक प्रयोगों के साथ, मिलान करने के कई तरीके हैं जो खराब अनुमानों का कारण बन सकते हैं। मुझे लगता है कि मिलान अनुमानों के साथ सबसे बड़ी चिंता यह है कि वे उन चीज़ों से पक्षपातपूर्ण हो सकते हैं जिनका मिलान मिलान में नहीं किया गया था। उदाहरण के लिए, उनके मुख्य परिणामों में, इनाव और सहयोगियों ने चार विशेषताओं पर सटीक मिलान किया: विक्रेता आईडी संख्या, आइटम श्रेणी, आइटम शीर्षक, और उपशीर्षक। यदि आइटम उन तरीकों से अलग थे जिनका उपयोग मिलान के लिए नहीं किया गया था, तो यह एक अनुचित तुलना कर सकता है। उदाहरण के लिए, यदि "बजटीगोल्फर" ने सर्दियों में Taylormade बर्नर 09 चालक के लिए कीमतें कम कर दी हैं (जब गोल्फ क्लब कम लोकप्रिय होते हैं), तो यह प्रतीत होता है कि कम शुरूआती कीमतें कम अंतिम कीमतों की ओर ले जाती हैं, जब वास्तव में यह एक आर्टिफैक्ट होगा मांग में मौसमी बदलाव। इस चिंता को संबोधित करने के लिए एक दृष्टिकोण कई अलग-अलग प्रकार के मिलान की कोशिश कर रहा है। उदाहरण के लिए, इनाव और सहयोगियों ने मिलान के लिए उपयोग की जाने वाली समय खिड़की को अलग करते हुए अपने विश्लेषण को दोहराया (मिलान किए गए सेट में एक वर्ष के भीतर, एक महीने के भीतर, और समकालीन रूप से बिक्री पर आइटम शामिल थे)। सौभाग्य से, वे सभी समय खिड़कियों के लिए इसी तरह के परिणाम मिल गया। मिलान के साथ एक और चिंता व्याख्या से उत्पन्न होती है। मिलान से अनुमान केवल मिलान किए गए डेटा पर लागू होते हैं; वे उन मामलों पर लागू नहीं होते हैं जिन्हें मिलान नहीं किया जा सका। उदाहरण के लिए, कई शोधों वाले आइटमों पर अपने शोध को सीमित करके, इनाव और सहयोगी पेशेवर और अर्ध-पेशेवर विक्रेताओं पर ध्यान केंद्रित कर रहे हैं। इस प्रकार, इन तुलनाओं को समझते समय हमें याद रखना चाहिए कि वे केवल ईबे के इस सबसेट पर लागू होते हैं।
मिलान गैर-प्रयोगात्मक डेटा में निष्पक्ष तुलना खोजने के लिए एक शक्तिशाली रणनीति है। कई सामाजिक वैज्ञानिकों के लिए, मिलान प्रयोगों के लिए सबसे अच्छा लगता है, लेकिन यह एक धारणा है जिसे थोड़ा संशोधित किया जा सकता है। बड़े पैमाने पर डेटा में मिलान करना क्षेत्र प्रयोगों की एक छोटी संख्या से बेहतर हो सकता है जब (1) प्रभाव में विषमता महत्वपूर्ण है और (2) मिलान के लिए आवश्यक महत्वपूर्ण चर मापा गया है। तालिका 2.4 कुछ अन्य उदाहरण प्रदान करता है कि बड़े डेटा स्रोतों के साथ मिलान का उपयोग कैसे किया जा सकता है।
पर्याप्त फोकस | बड़ा डेटा स्रोत | संदर्भ |
---|---|---|
पुलिस हिंसा पर शूटिंग का असर | स्टॉप-एंड-फ़्रीस्क रिकॉर्ड | Legewie (2016) |
11 सितंबर 2001 को परिवारों और पड़ोसियों पर प्रभाव | वोटिंग रिकॉर्ड और दान रिकॉर्ड | Hersh (2013) |
सामाजिक संयोग | संचार और उत्पाद गोद लेने का डेटा | Aral, Muchnik, and Sundararajan (2009) |
निष्कर्ष में, गैर-प्रयोगात्मक डेटा से कारण प्रभाव का आकलन करना मुश्किल है, लेकिन प्राकृतिक प्रयोगों और सांख्यिकीय समायोजन जैसे दृष्टिकोण (उदाहरण के लिए, मिलान) का उपयोग किया जा सकता है। कुछ स्थितियों में, ये दृष्टिकोण बुरी तरह गलत हो सकते हैं, लेकिन ध्यान से तैनात किए जाने पर, ये दृष्टिकोण प्रयोगात्मक दृष्टिकोण के लिए एक उपयोगी पूरक हो सकते हैं जो मैं अध्याय 4 में वर्णित करता हूं। इसके अलावा, इन दो दृष्टिकोणों को विशेष रूप से हमेशा के विकास से लाभ होने की संभावना है- पर, बड़े डेटा सिस्टम।