हामी अनुमानित प्रयोगहरू गर्न सक्छौं जुन हामीले छैनौं वा सक्दैनौं। ठूला डेटा स्रोतहरूबाट विशेष गरी लाभकारी दुई तरिकाहरू प्राकृतिक प्रयोगहरू र मिल्दो छन्।
केहि महत्त्वपूर्ण वैज्ञानिक र नीति प्रश्नहरू कारण छन्। उदाहरणका लागि, मजदुरहरूको जागिर प्रशिक्षण कार्यक्रम कस्तो छ? यस प्रश्नको जवाफ दिने एक शोधकर्ताले ती व्यक्तिहरूको कमाई गर्ने व्यक्तिहरूको तुलना गर्न सक्नेहरूको लागि तुलना गर्न सक्ने व्यक्तिहरूको तुलना तुलना गर्न सक्दछ। तर यी समूहहरू बीच मजदूरीमा कति फरक फरक छ किनकि साइन अप र ती गर्नेहरू बीचको भिन्नताको कारण प्रशिक्षण र कतिको कारण हो? यो एक कठिन प्रश्न छ, र यो एक हो कि स्वचालित रूपमा अधिक डेटा संग दूर छैन। अन्य शब्दहरुमा, सम्भव छ सम्भवतया भिन्न मतभेदहरूको बारेमा चिन्ता कुनै कुरामा तपाईको डेटा मा कति कामदारहरू छन्।
धेरै स्थितियों मा, केहि उपचार को कारण प्रभाव को प्रभावशाली तरीका अनुमान गर्न को लागी नौकरी प्रशिक्षण को रूप मा एक यादृच्छिक नियंत्रण प्रयोग को चलान छ जहां एक शोधकर्ता ले अनियमित रूपमा केहि मान्छे को उपचार को उद्धार गर्दछ र अन्य नहीं। म प्रयोगका सबै अध्याय 4 लाई समर्पित गर्नेछु, त्यसैले यहाँ म दुई प्रयोगशालाहरूमा ध्यान केन्द्रित गर्न जाँदैछु जुन प्रयोगात्मक डेटा प्रयोग गर्न सकिन्छ। पहिलो रणनीतिले संसारमा हुने केहि चीजहरू खोज्दै निर्भर गर्दछ जुन अनियमित रूपमा (वा लगभग अनियमित रूपमा) केही व्यक्तिलाई उपचार गर्दछ र अन्यलाई। दोस्रो रणनीतिले प्राविधिक समायोजन गैर-प्रयोगात्मक डाटामा निर्भर गर्दछ जुन उनीहरूले गरे र उपचार प्राप्त गरेन बीचको भिन्नताको भिन्नताका कारण खाता बनाउन प्रयास गरे।
एक शंकास्पद हुन सक्छ कि यिनी दुवै रणनीतिहरु देखि टाढा हुनु पर्छ किनकी उनि बलियो धारणाहरु को आवश्यकता हो, मान्य गर्न को लागी मुश्किल हो कि मान्यताओं र कि, व्यवहार मा, अक्सर उल्लङ्घन गरिन्छ। जब म यो दाबी गर्न सहानुभूति हुँ, मलाई लाग्छ यो एकदम धेरै टाढा जान्छ। यो निश्चित रूपमा सच छ कि गैर-प्रयोगात्मक डाटा बाट विश्वसनीय अनुमानहरू अनुमान गर्न कठिन छ, तर मलाई सोच्दैन कि हामीले कहिल्यै प्रयास गर्नुपर्दैन। विशेष गरी गैर-प्रयोगात्मक दृष्टिकोण उपयोगी हुन सक्छ यदि तपाईले प्रयोगको प्रयोगबाट तर्कसंगत रोकथाम रोक्न वा यदि नैतिक बाधाहरू मतलब छ कि तपाइँ एक प्रयोग चलाउन चाहनुहुन्न। साथै, अनियमित प्रयोगात्मक दृष्टिकोण उपयोगी हुन सक्छ यदि तपाईं बेतरतीब नियन्त्रण प्रयोग डिजाइन गर्न पहिल्यै अवस्थित डाटाको फाइदा लिन चाहानुहुन्छ।
अगाडि बढ्नु अघि, यो पनि उल्लेखनीय छ कि कारण अनुमान अनुमान गर्दा सोशल रिसर्चको सबैभन्दा जटिल विषयहरू हो, र जसले तीव्र र भावनात्मक छलफल गर्न सक्छ। कुन कुरामा, म यसको बारेमा अन्तर्वार्ताको निर्माण गर्न हरेक दृष्टिकोणको आशावादी विवरण प्रदान गर्नेछु, त्यसपछि मैले यो दृष्टिकोण प्रयोग गर्दा केही चुनौतीहरू वर्णन गर्नेछु। प्रत्येक सन्दर्भको बारेमा थप विवरण यस अध्यायको अन्त्यमा सामग्रीमा उपलब्ध छन्। यदि तपाईं आफ्नो आफ्नै अनुसन्धानमा यी दृष्टिकोणहरू मध्ये कुनै पनि प्रयोग गर्ने योजना बनाउनुहुन्छ भने, म अत्यधिक कारणले गर्दा धेरै उत्कृष्ट किताबहरू पढ्न सिफारिस गर्छु (Imbens and Rubin 2015; Pearl 2009; Morgan and Winship 2014) ।
गैर-प्रयोगात्मक डाटाको कारण अनुमान अनुमान गर्ने एक दृष्टिकोण एक कार्यक्रमको लागि हेर्नु भएको छ जुन अनियमित रूपमा केहि मानिसहरूको उपचार गराईएको छ र अन्यलाई। यी परिस्थितिहरू प्राकृतिक प्रयोगहरू भनिन्छ। प्राकृतिक प्रयोग को एक स्पष्ट उदाहरण मध्ये एक जोशू एंग्रिस्ट (1990) कमाई मा सैन्य सेवा को प्रभाव को माप को शोध देखि आउँछ। वियतनाममा युद्धको बेला, संयुक्त राज्यले यसको सशस्त्र सेनाको आकारमा ड्राफ्ट मार्फत वृद्धि गर्यो। निर्णय गर्नको लागि कुन नागरिकलाई सेवामा पुर्याइनेछ, अमेरिकी सरकारले लटरीमा राख्यो। प्रत्येक जन्मेको मिति कागजको टुक्रामा लेखिएको थियो, र, जस्तै आंकडा 2.7 मा देखाईएको छ, पेपरका टुक्राहरू एकै समयमा एक पटक चयन गरिएको थियो जसलाई क्रमबद्ध गर्न कुन जवान पुरुषहरू सेवा गर्न सकिन्छ (युवा महिलाहरु ड्राफ्टमा)। नतिजाहरूमा आधारित, सेप्टेम्बर 14 मा जन्मेको पुरुषलाई पहिलो भनिन्थ्यो, अप्रिल 24 मा जन्मेका पुरुषहरू दोस्रो र अन्यमा भनिन्छ। अंततः, यस लटरीमा, 1 9 57 मा विभिन्न दिनहरू जन्मिएका थिए, जबकि 171 दिनमा जन्म भएका पुरुषहरू थिएनन्।
यद्यपि यो तुरुन्तै स्पष्ट हुन सक्दैन, एक मस्यौदा लटरीमा अनियमित नियन्त्रण प्रयोगको लागि एक समान समानता छ: दुवै अवस्थामा, सहभागीहरू अनियमित रूपमा उपचार प्राप्त गर्न असाइन गरिन्छ। यस randomized उपचार को प्रभाव को अध्ययन गर्न को लागि, एंस्ट्र्रिस्ट ले संधै ठूलो मा ठूलो डाटा प्रणाली को लाभ उठायो: अमेरिका सोशल सुरक्षा एडमिनिस्ट्रेशन, जो लगभग हरेक अमेरिकी रोजगार को बारे मा जानकारी को एकत्रित गर्दछ। सरकारी प्रशासनिक रेकर्डमा एकत्रित डाटाको साथ ड्राफ्ट लटरीमा अनियमित रूपमा चयन गरिएको बारे जानकारी को संयोजन गरेर, एन्ग्रिस्टले निष्कर्ष निकालेको थियो कि दिग्गजोंका आय तुलनात्मक गैर-दिग्गजहरूको आय भन्दा 15% कम थियो।
यस उदाहरणको रूपमा, उदाहरणका लागि कहिलेकाँही सामाजिक, राजनैतिक वा प्राकृतिक शक्तिहरूले शोधकर्ताहरू द्वारा लेभेजेज हुन सक्छ जसमा उपचार प्रदान गर्दछ, र कहिलेकाहीँ यी उपचारका असरहरू सधैं-मा ठूलो डाटा स्रोतहरूमा कब्जा गरिन्छ। यो अनुसन्धान रणनीति निम्न रूपमा संक्षेप गर्न सकिन्छ: \[\text{random (or as if random) variation} + \text{always-on data} = \text{natural experiment}\]
डिजिटल युगमा यो रणनीतिको वर्णन गर्न, एलेक्स्रेज मास र एन्रिको मोर्टेटी (2009) एक अध्ययनलाई विचार गरौं जसले उत्पादक सहयोगीहरूको साथ कामदारको उत्पादकतामा काम गर्ने प्रभावको अनुमान गर्न खोज्यो। नतीजाहरू हेर्न अघि, यो बिन्दुको लायक छ कि तपाइँसँग हुन सक्ने विवादित आशाहरू छन्। एकै ओर, तपाईं आशा गर्न सक्नुहुनेछ कि उत्पादक साथीहरुसँग काम गर्ने साथीहरुले दबाबको कारण श्रमिकको नेतृत्व गर्नका लागि कामदारको नेतृत्व गर्नेछन्। वा, अर्कोतर्फ, तपाईं आशा गर्न सक्नुहुनेछ कि कडा मेहनत सहकर्मीहरू एक कर्मचारीलाई सुस्त गर्नका लागि नेतृत्व गर्न सक्छन् किनभने काम पनि साथीहरूको साथ गरिनेछ। उत्पादकतामा साथीहरूको प्रभावहरूको अध्ययन गर्ने स्पष्ट तरिका एक randomized नियन्त्रण प्रयोग हुनेछ जहाँ कार्यकर्ताहरूले अनियमित रूपमा उत्पादक स्तरका कामदारहरूसँग परिवर्तन गर्न असाइन गरेका छन् र परिणामस्वरूप उत्पादकता सबैको लागि मापन गरिन्छ। तथापि, अनुसन्धानकर्ताहरूले कुनै पनि वास्तविक व्यवसायमा कार्यकर्ताको तालिका नियन्त्रण गर्न सक्दैनन्, र यसैले मास र मोर्टेटीले एक सुपरमार्केटमा क्याशरहरू समावेश गरेको प्राकृतिक प्रयोगमा निर्भर रहन थाल्छन्।
यस विशेष सुपरमार्केटमा, अनुसूची गर्ने तरिका र ओभरल्याप गर्ने तरिकाको कारणले गर्दा, प्रत्येक कैशियरले दिनको विभिन्न समयमा विभिन्न सहकर्मीहरू थिए। यसबाहेक, यस विशेष सुपरमार्केटमा, क्याकर्सहरूको असाइनमेन्ट तिनीहरूको साथीहरूको उत्पादकतासँग वा भण्डार कसरी व्यस्त थियो। अन्य शब्दहरुमा, भले ही लटरी को अनुसूची को लटरी द्वारा निर्धारित नहीं गरेको थियो, जस्तै कि कार्यकर्ता कहिलेकाहीं अनियमित रूप देखि उच्च (या कम) उत्पादकता साथीहरु संग काम गर्न को लागि आवंटित गरियो। सौभाग्यवश, यो सुपरमार्केट पनि डिजिटल-उमेर चेकआउट प्रणाली थियो जसले प्रत्येक क्रेडियर स्क्यानिंग सबै चीजहरु लाई पनी वस्तुहरु को ट्रैक गर्यो। यस चेकआउट लग डेटाबाट, मास र मोर्टेटीले उत्पादकताको सटीक, व्यक्तिगत र सदामा आधारित उपाय सिर्जना गर्न सकेन: प्रति सेकेन्ड स्क्यान गरिएको वस्तुहरूको संख्या। यी दुई चीजहरु को संयोजन - सहकर्मी उत्पादन मा स्वाभाविक रूप देखि उत्पन्न विविधता र लगातार मापन को उत्पादन मा - मास र मोर्टेटी अनुमानित छ कि यदि एक कैशियर सहकर्मीहरु लाई नियुक्त गरिएको थियो, जो 10% लाई औसत भन्दा बढी उत्पादक थिए, उनको उत्पादकता 1.5% । यसबाहेक, तिनीहरूले दुईवटा महत्वपूर्ण समस्याहरू पत्ता लगाउनको लागि उनीहरूको डेटाको आकार र धनी प्रयोग गरे: यस प्रभावको विरूपणता (कस्ता प्रकारको कार्यकर्ताको प्रभाव ठूलो छ?) र प्रभाव पछि तंत्र (किन उच्च उत्पादक साथीहरूको साथ हुन्छ उच्च उत्पादनकता?)। हामी यी दुइटा महत्त्वपूर्ण मुद्दाहरूमा फर्किनेछौं - उपचारको प्रभाव र तंत्रहरूको विरूपणता - 4 अध्यायमा हामी अधिक विस्तारमा प्रयोगहरूमा चर्चा गर्दछौं।
यी दुई अध्ययनहरु बाट सामान्यतया, तालिका 2.3 यस संरचनामा अन्य अध्ययनहरु सारांश गर्दछ: केहि यादृच्छिक भिन्नता को प्रभाव को मापने को लागि एक संधै डेटा स्रोत को प्रयोग गरेर। अभ्यासमा, शोधकर्ताहरूलाई प्राकृतिक प्रयोगहरू खोज्न दुईवटा रणनीतिहरू प्रयोग गर्छन्, दुवै दुवै फलदायी हुन सक्छन्। केही शोधकर्ताहरूको सधैं सँधै डेटा स्रोतको साथ सुरू हुन्छ र संसारमा अनियमित घटनाहरू हेर्छन्; अरुले संसारमा एक अनियमित घटना सुरू गर्छन् र डेटा स्रोतहरू हेर्ने जुन यसको प्रभाव खिच्न सक्छ।
व्यावहारिक फोकस | प्राकृतिक प्रयोगको स्रोत | सँधै डाटा स्रोत | सन्दर्भ |
---|---|---|---|
उत्पादनकतामा सहकर्मीहरू | अनुसूची प्रक्रिया | चेकआउट डाटा | Mas and Moretti (2009) |
मित्रताको गठन | हरिनिक्स | फेसबुक | Phan and Airoldi (2015) |
भावनाहरु फैलिन्छ | वर्षा | फेसबुक | Lorenzo Coviello et al. (2014) |
सह-साथीहरु लाई आर्थिक स्थानान्तरण | भूकम्प | मोबाइल पैसा डेटा | Blumenstock, Fafchamps, and Eagle (2011) |
व्यक्तिगत खपत व्यवहार | 2013 अमेरिकी सरकार बन्द | व्यक्तिगत वित्त डेटा | Baker and Yannelis (2015) |
सिफारिशकर्ता प्रणालीको आर्थिक प्रभाव | विभिन्न | Amazon मा ब्राउजिंग डेटा | Sharma, Hofman, and Watts (2015) |
विनाश बच्चाहरु मा तनाव को प्रभाव | 2006 इजरायल-हिज्जेलाह युद्ध | जन्म रेकर्ड | Torche and Shwed (2015) |
विकिपीडियामा पढ्ने व्यवहार | स्नोडेन खुलासाहरू | विकिपीडिया लगहरू | Penney (2016) |
व्यायाममा सहकर्मीहरू | मौसम | फिटनेस ट्रयाकहरू | Aral and Nicolaides (2017) |
छलफलमा अब प्राकृतिक प्रयोगहरूको बारेमा, मैले एक महत्वपूर्ण बिन्दु छोडेको छु: तपाईले कहिले चाहानुहुन्छ जुन तपाईले कहिले चाहानुहुन्छ त्यो प्रकृतिले प्रदान गरिरहेको छ। भियतनाम ड्राफ्ट उदाहरणको लागि फर्कनुहोस्। यस अवस्थामा, एन्जिस्टले कमाईमा सैन्य सेवाको प्रभावको अनुमान लगाएको थियो। दुर्भाग्यवश, सैन्य सेवा अनियमित रूपमा नियुक्त गरिएको थिएन; बरु यो ड्राफ्ट गरिएको थियो कि अनियमित रूपमा नियुक्त गरिएको थियो। तथापि, सबैलाई जसले ड्राफ्ट गरिएको थियो (त्यहाँ छुटहरू विभिन्न प्रकारका थिए), र सेवा गर्ने सबैलाई ड्राफ्ट गरिएको थिएन (मान्छे सेवा गर्न स्वयंसेवक हुन सक्छ)। ड्राफ्ट भएको कारण अनियमित रूपमा नियुक्त गरिएको थियो, एक शोधकर्ताले मस्यौदामा सबै पुरुषहरूको लागि ड्राफ्टको प्रभावको अनुमान गर्न सक्दछन्। तर एरिगिस्टले ड्राफ्ट हुनुको प्रभावलाई थाहा थिएन; उनले सेनामा सेवा गर्ने प्रभावलाई जान्न चाहन्थे। यस अनुमान बनाउन को लागी, अतिरिक्त धारणाहरु र जटिलताओं को आवश्यकता हो। पहिलो, शोधकर्ताहरूलाई मान्न आवश्यक छ कि आय मा असर पर्ने एकमात्र तरिका सैन्य सेवा मार्फत छ, बहिष्कार प्रतिबन्ध भनिन्छ एक धारणा। यो धारणा गलत हुन सक्छ यदि, उदाहरणका लागि, मस्यौदा गरीएको विद्यालयले सेवा नछोड्नदेखि टाढाको लागि वा यदि नियोक्ताहरूले कम्तीमा मर्मत गरेका व्यक्तिहरूलाई भाँडामा लिने सम्भावना भएको थियो। सामान्यमा, बहिष्कार प्रतिबन्ध एक महत्वपूर्ण धारणा हो, र यो सामान्यतया प्रमाणित गर्न कठिन छ। यदि बहिष्कार प्रतिबन्ध सही छ भने पनि, सबै पुरुषहरूमा सेवाको प्रभाव अनुमान गर्न अझै असंभव छ। यसको सट्टा, यो थाहा पाउँछ कि शोधकर्ताहरू पुरुषहरूको विशिष्ट सबसेटमा प्रभावकारी रूपमा बोलाउन सक्दछ (पुरुषहरू जसले मस्यौदा गर्दा सेवा गर्थे, तर ड्राफ्ट गरेनन् सेवा छैन) (Angrist, Imbens, and Rubin 1996) । तथापि, चासोको मूल जनसंख्या थिएनन्। ध्यान दिनुहोस् कि यी समस्याहरू ड्राफ्ट लटरीको अपेक्षाकृत सफाक मामलामा पनि उत्पन्न हुन्छ। उपचारको थप सेट उत्पन्न हुन्छ जब उपचार एक भौतिक लटरीले तोक्न सक्दैन। उदाहरणको लागि, मास र मोर्टेटीको क्यासियरहरूको अध्ययनमा, अतिरिक्त प्रश्नहरू अनुमानको बारेमा उठाइन्छ कि साथका साथीहरू अनिवार्य रूप देखि अनियमित हुन्छ। यदि यो धारणा दृढतापूर्वक उल्लङ्घन गरियो भने, यसले तिनीहरूको अनुमान पक्षपात गर्न सक्छ। निष्कर्ष निकाल्न, प्राकृतिक प्रयोग गैर-प्रयोगात्मक डेटाको कारण अनुमान गर्न को लागी एक शक्तिशाली रणनीति हुन सक्छ, र ठूला डेटा स्रोतले हाम्रो प्राकृतिक अनुभवहरूमा पूंजीकृत गर्ने क्षमतालाई अझ बढाउँछ। तथापि, यो शायद ठूलो हेरविचार र कहिलेकाहीं बलियो धारणाहरु को आवश्यकता हुनेछ - जाने चाहिएको अनुमानमा कुन प्रकृतिलाई प्रदान गरिएको छ।
गैर प्रयोगात्मक डेटाको कारण अनुमान अनुमान गर्न को लागी दोस्रो रणनीतिको बारेमा तपाईले बताउन चाहानुहुन्छ जुन उनीहरूले गरे र उपचार पाएका छैनन् बीचको भिन्नताका लागि खातामा प्रयास गर्न गैर-प्रायोगिक डेटालाई स्थिर रूपमा समायोजन गर्दछ। त्यहाँ धेरै यस्तो समायोजन गर्ने दृष्टिकोणहरू छन्, तर म फोकसलाई मेल खान्छ मा फोकस गर्नेछु। मिल्दोमा, शोधकर्ताले गैर-प्रयोगात्मक डेटा हेर्ने व्यक्तिहरूको जोडा सिर्जना गर्न खोज्छ जुन बाहेक एक हो कि उपचारले पाएको छ र एक छैन। मिल्दो प्रक्रियामा, शोधकर्ताहरू वास्तवमा पनि प्रिन्डिङ छन् ; त्यो छ, घटनाहरू खारेज गर्न जहाँ त्यहाँ कुनै स्पष्ट मिलान छैन। यसकारण, यस विधिलाई अधिक सही रूपमा मिल्दो-र-प्रिन्सिंग भनिन्छ, तर म पारंपरिक शब्दसँग मेल खान्छु: मिल्दो।
ठूलो गैर प्रयोगात्मक डेटा स्रोतहरु संग मेल खाने रणनीतिहरु को एक उदाहरण को रूप मा उपभोक्ता व्यवहार को बारे मा लेयर ईनव र सहकर्मीहरु (2015) आउँछ। तिनीहरू eBay मा लिइएको नीलामीहरूमा रूचि राख्थे र उनीहरूको काम वर्णन गर्दै, म नीलामीको परिणाममा सुरुवात मूल्य, जस्तै कि बिक्री मूल्य वा बिक्रीको सम्भावनामा ध्यान केन्द्रित गर्नेछु।
बिक्रि मूल्यमा सुरु हुने मूल्यको प्रभावको अनुमान गर्ने सबैभन्दा सुन्दर तरीका मात्र बिभिन्न सुरुवात मूल्यहरु संग नीलामीहरूको लागि अन्तिम मूल्य गणना गरिनेछ। यदि तपाईले सुरुवात मूल्य को बिक्री मूल्य को भविष्यवाणी गर्न चाहानु भएको यो दृष्टिकोण ठीक हुनेछ। तर यदि तपाईंको प्रश्न शुरुवात मूल्य को प्रभाव मा चिन्ता छ भने, यो यो दृष्टिकोण काम गर्दैन किनभने यो निष्पक्ष तुलनामा आधारित छैन; निम्न सुरूवात मूल्यहरु संग नीलामी उच्च शुरुवात मूल्यहरु (जस्तै, तिनीहरू विभिन्न प्रकारको सामानको लागि हुन सक्छन् वा विभिन्न प्रकारका विक्रेताहरू समावेश हुन सक्छन्) बाट धेरै फरक हुन सक्छ।
यदि तपाईं गैर-प्रयोगात्मक डाटाबाट causal अनुमान गर्दा समस्या उत्पन्न गर्न पहिले नै जागरूक हुनुहुन्छ भने, तपाईंले नयाँ दृष्टिकोण छोड्न सक्नुहुन्छ र एक क्षेत्र प्रयोग चलाउन विचार गर्नुहुन्छ जहाँ तपाइँ एक विशिष्ट वस्तु-भन्नुहुन्छ, एक गोल्फ क्लब-निश्चित नीलामी परिमितिहरू सेट गर्नुहोस् - भन्नुहोस्, निःशुल्क ढुवानी र नीलामी दुई हप्ताको लागि खुल्ला हुन्छ - तर अनियमित रूपमा शुरुवात मूल्यहरू निर्धारण गरी। परिणामस्वरूप बजार परिणामहरूको तुलना गरेर, यो क्षेत्र प्रयोगले बिक्री मूल्यमा मूल्य निर्धारणको प्रभावको धेरै स्पष्ट माप प्रदान गर्दछ। तर यो माप केवल एक विशेष उत्पादमा लागू हुनेछ र नीलामी परिमितिहरूको सेट। परिणाम फरक हुन सक्छ, उदाहरणका लागि, विभिन्न प्रकारका उत्पादनहरूको लागि। बलियो सिद्धान्तको बिना, यो एक प्रयोगबाट निकाल्न सम्भव छ कि सम्भव प्रयोगहरूको पूर्ण दायरामा चलिरहेको हुन सक्छ। यसबाहेक, फिल्ड प्रयोगहरू पर्याप्त महँगो छन् जुन यो हरेक भिन्नता चलाउनका लागी अपरिहार्य हुनेछ जुन तपाईले प्रयास गर्न चाहानुहुन्छ।
न्युयोर्क र प्रयोगात्मक दृष्टिकोणको विपरीत, इइनव र सहकर्मीहरूले तेस्रो दृष्टिकोण लिइन्: मिल्दो। आफ्नो रणनीति मा मुख्य चाल चीजहरु को खोज गर्न को लागी त्यहि चीजहरु को खोज को छ जो ईबे मा पहिले नै भयो। उदाहरणका लागि, तथ्याङ्क 2.8 ले केहि 31 सूचीहरू देखाउँछ जुन वास्तवमा एउटै गोल्फ क्लबको लागि टालर्मर्मेड ब्रेकर 09 चालकले बेचेको - "बजेटगोलफ्रेन्ड" बाट बिक्रेतालाई बेचेको छ। तथापि, यी 31 सूचीहरूमा केही भिन्न विशेषताहरू छन्, जस्तै विभिन्न सुरू मूल्य, अन्त मिति, र ढुवानी फीस। अन्य शब्दहरुमा, यो यदि "budgetgolfer" शोधकर्ताहरु को लागि प्रयोग चलिरहेको छ।
यी सूचीहरू टेललिर्मेड बर्नर 09 चालकले "budgetgolfer" द्वारा बेचेको सूचीमा सेट सूचीहरूको एक उदाहरण हो, जहाँ सटीक उही वस्तुले समान वस्तु बेचेको छ, तर प्रत्येक पटक केहि फरक गुणहरूसँग बेच्न सकिन्छ। ईबेको ठूलो लगइन भित्र भित्रको सङ्ग्रह हजारौं मेल खाने सेटहरू लाखौं सूचीमा समावेश छन्। त्यसकारण, दिइएको शुरूवात मूल्यको साथ सबै नीलामीहरूको अन्तिम मूल्य तुलना गर्नु, इइनव र सहकर्मीले मिलान समूहको तुलनामा तुलना गरे। यी सैकड़ों हजार मिल्दो सेटहरूमा तुलनात्मक परिणामबाट परिणामहरू संयोजन गर्न, इइनव र सहकर्मीहरूले प्रत्येक वस्तुको सन्दर्भ मूल्यको सुरुवाती मूल्य र अन्तिम मूल्य (जस्तै यसको औसत बिक्री मूल्य)। उदाहरणको लागि, यदि Taylormade बर्नर 09 चालकले $ 100 को बिक्री मूल्य राखेको छ (यसको बिक्रीमा आधारित), त्यसपछि $ 10 को शुरुवात मूल्य 0.1 र 1.2 को रूपमा $ 120 को अन्तिम मूल्य व्यक्त गरिनेछ।
इइनव र सहकर्मी नीलामी परिणामहरुमा शुरुवात मूल्य को प्रभाव मा रुचि राखछ कि सम्झना। पहिलो, तिनीहरूले रैखिक रिफ्रेसको अनुमान गर्नको लागि कि उच्च शुरुवात मूल्यहरू बिक्रीको सम्भावना घटाउँछन्, र त्यो शुरुवाती मूल्यहरुले अन्तिम बिक्री मूल्य (बिक्री हुने घटनामा सशर्त) मा वृद्धि गर्दछ। आफ्नै अनुसार, यी अनुमानहरू - जो एक रैखिक सम्बन्ध वर्णन गर्दछ र सबै उत्पादनहरूमा औसत हुन्छ - सबै त्यो रोचक होइनन्। त्यसपछि, इनाव र सहकर्मीले उनीहरूको डेटाको विशाल आकार प्रयोग गरी विभिन्न सूक्ष्म अनुमानहरू सिर्जना गर्नका लागि प्रयोग गरे। उदाहरणका लागि, विभिन्न सुरुवात मूल्यहरूको लागि अलग-अलग प्रभावहरूको अनुमान गरेर, उनीहरूले फेला पारे कि मूल्य र बिक्री मूल्यको बीचको सम्बन्ध nonlinear (2.9 अंक) हो। विशेष गरी, 0.05 र 0.85 बीचको मूल्य सुरू गर्न, शुरुवात मूल्य मा बिक्री मूल्यमा धेरै कम प्रभाव छ, एक खोज को पुरा तरिकाले आफ्नो पहिलो विश्लेषण देखि छुटेको थियो। यसबाहेक, सबै वस्तुहरूको तुलनामा इइनव र सहकर्मीहरूको अनुमानअनुसार मूल्यको 23 विभिन्न प्रकारका वस्तुहरू (उदाहरणका लागि, पिटर आपूर्ति, इलेक्ट्रोनिक्स र स्पोर्ट्स मेमोरेबिया) को मूल्य निर्धारण (अनुमान 2.10)। यी अनुमानहरूले देखाउँछ कि अधिक विशिष्ट वस्तुहरूको लागि - जस्तै सम्झौता-सुरुवात मूल्यको बिक्रीको सम्भावना र अन्तिम बिक्री मूल्यमा ठूलो प्रभावमा सानो प्रभाव छ। यसबाहेक, थप वस्तु वस्तुहरूको लागि जस्तै - डीभिडी-सुरुवाती मूल्यको अन्तिम मूल्यमा लगभग कुनै असर छैन। अन्य शब्दहरूमा, औसतले 23 वटा विभिन्न श्रेणीबाट परिणामहरू मिलाउँछ यी वस्तुहरूको बीचमा महत्वपूर्ण फरक फरक छ।
यदि तपाईं ईबेमा नीलामीमा विशेष चासो राख्नु भएन भने, तपाईले 2.9 अंक र अंक 2.10 को eBay को अमीर समझ प्रदान गर्नुपर्दछ जुन साधारण अनुमानको तुलनामा एक रैखिक सम्बन्धको वर्णन गर्दछ र वस्तुहरूको धेरै फरक किसिमको संयोजन गर्दछ। यसबाहेक, यद्यपि यो क्षेत्रीय प्रयोगहरूको साथ यी अधिक सूक्ष्म अनुमान उत्पन्न गर्न वैज्ञानिक रूपमा संभव हुन सक्दछ, लागतले यस्ता प्रयोगहरू अनिवार्य रुपमा असंभव बनाउँछ।
प्राकृतिक प्रयोगहरू जस्तै, त्यहाँ धेरै तरिकाहरू छन् जुन मेल खाने खराब अनुमानहरूको नेतृत्व गर्न सक्छ। मलाई लाग्छ कि मिल्दो अनुमानको साथमा सबैभन्दा ठूलो चिन्ता भनेको मिल्दोमा प्रयोग गरिएका चीजहरू द्वारा पूर्वाधार हुन सक्दछ। उदाहरणका लागि, तिनीहरूको मुख्य नतिजाहरूमा इइनव र सहकर्मीहरूले चारवटा गुणहरूमा सही मिलान गरे: बिक्रेता आईडी नम्बर, वस्तु कोटि, वस्तु शीर्षक, र उपशीर्षक। यदि वस्तुहरू फरक तरिकामा मिल्ने थिए जुन मिल्दोको लागि प्रयोग भएन, त्यसपछि यसले अनुचित तुलना सिर्जना गर्न सक्छ। उदाहरणका लागि, यदि "बजेटगोलफर" सर्दहरूमा Taylormade बर्नर 09 चालकको लागि मूल्यहरू (गोल्फ क्लबहरू कम लोकप्रिय हुँदा), त्यसपछि देखा पर्न सक्छ कि कम सुरुवात मूल्यहरूले अन्तिम अन्तिम मूल्यको नेतृत्व गर्दछ, वास्तवमा यो एउटा कलाकृति मौसमी भिन्नता मा मांग। यस चिन्तालाई सम्बोधन गर्ने एउटा तरिका धेरै फरक प्रकारको मेल खाने प्रयास गर्दैछ। उदाहरणका लागि, इइनव र सहकर्मीले मिल्दोको लागि प्रयोग हुने समय विन्डो फरक पार्दा आफ्नो विश्लेषण दोहोर्याए (मिलान गरिएको सेट एक वर्ष भित्र, वस्तुहरू एक महिना भित्र, र समकालीन रूपमा) समावेश गर्दछ। सौभाग्य देखि, उनि सबै समय खिडकियों को लागि समान परिणाम पाए। मिलानको साथ एक थप चिन्ता व्याख्याबाट उत्पन्न हुन्छ। मिल्दोको अनुमानले मात्र मिलान डाटामा लागू गर्दछ; तिनीहरू त्यस्ता परिस्थितिहरूमा लागू हुँदैन जुन मेल खाँदैनन्। उदाहरणको लागि, धेरै सूचीहरू भएको वस्तुहरूमा उनीहरूको अनुसन्धान सीमित गरेर इइनव र सहकर्मीहरू पेशेवर र अर्ध-व्यावसायिक बिक्रेताहरूमा ध्यान केन्द्रित गर्दैछन्। यसकारण, यी तुलनाहरूको व्याख्या गर्दा हामी याद गर्नुपर्छ कि तिनीहरू केवल eBay को यस उपसेटमा लागू हुन्छन्।
मिल्ने निष्पक्ष तुलना गैर-प्रयोगात्मक डेटामा फेला पार्न शक्तिशाली रणनीति हो। धेरै सामाजिक वैज्ञानिकहरूले, मिल्ने दोस्रो-सर्वोत्तम अनुभवहरूको अनुभव गर्दछ, तर यो एक विश्वास हो जुन संशोधित गर्न सकिन्छ। जब ठूलो मात्रा मा मिलान गर्दा सानो क्षेत्र को प्रयोग को तुलना मा बेहतर हुन सक्छ जब (1) प्रभावमा विरूपणता महत्त्वपूर्ण छ (2) मिल्दोको लागि आवश्यक चर चरहरू। तालिका 2.4 ले ठूलो डाटा स्रोतहरूसँग मिल्दो कसरी प्रयोग गर्न सकिन्छ भन्ने केही अन्य उदाहरणहरू प्रदान गर्दछ।
व्यावहारिक फोकस | ठूलो डेटा स्रोत | सन्दर्भ |
---|---|---|
प्रहरी हिंसामा गोली मारने को प्रभाव | स्टक-फ्र्याक रेकर्डहरू | Legewie (2016) |
परिवार र छिमेकीहरूलाई सेप्टेम्बर 11, 2001 को प्रभाव | मतदान रेकर्ड र दान रेकर्ड | Hersh (2013) |
सामाजिक अवरोध | संचार र उत्पाद गोद लेने को डेटा | Aral, Muchnik, and Sundararajan (2009) |
अन्तमा, गैर-प्रयोगात्मक डेटाको कारणले गर्दा प्रभावकारी प्रभावहरू अनुमान लगाउन गाह्रो छ, तर प्राकृतिक प्रयोगहरू र सांख्यिकीय समायोजन जस्ता उदाहरणहरू (जस्तै, मिल्दो) प्रयोग गर्न सकिन्छ। केही परिस्थितिमा, यी दृष्टिकोणहरू खराब रूपमा जान सक्छ, तर जब सावधानीपूर्वक तैनात गरिन्छ, यी दृष्टिकोणहरू प्रयोगात्मक दृष्टिकोणको लागि मैले अध्याय 4 मा वर्णन गर्न उपयोगी पूरै हुन सक्छ। यसका साथै, यी दुई दृष्टिकोणहरू विशेष गरी सधैंको विकासबाट लाभ उठाउन सम्भव देखिन्छ। मा, ठूलो डेटा प्रणाली।