दूर मामलों छंटाई द्वारा निष्पक्ष तुलना बनाने मिलान।
मेले तुलना या तो बेतरतीब नियंत्रित प्रयोगों या प्राकृतिक प्रयोगों से आ सकते हैं। लेकिन, कई स्थितियों में, जहां आप आदर्श प्रयोग नहीं चला सकते हैं और प्रकृति एक प्राकृतिक प्रयोग नहीं प्रदान की गई हैं। इन सेटिंग्स में, सबसे अच्छा तरीका एक निष्पक्ष तुलना मेल खाता है बनाने के लिए। मिलान में, शोधकर्ता है कि लोगों को इसी तरह के हैं, सिवाय इसके कि एक उपचार प्राप्त हुआ है के जोड़े बनाने के लिए गैर-प्रयोगात्मक डेटा के माध्यम से लग रहा है और एक ही नहीं है। मिलान की प्रक्रिया में, शोधकर्ताओं ने वास्तव में भी छंटाई कर रहे हैं; कि उन मामलों में जहां कोई स्पष्ट तुलना देखते हैं discarding है। इस प्रकार, इस विधि अधिक सही मिलान-और-छंटाई बुलाया जाएगा, लेकिन मैं पारंपरिक अवधि के साथ रहना होगा: मिलान।
बड़े पैमाने पर गैर प्रयोगात्मक डेटा स्रोतों के साथ रणनीतियों मिलान की शक्ति का एक सुंदर उदाहरण Liran Einav और उनके सहयोगियों द्वारा उपभोक्ता व्यवहार पर अनुसंधान से आते हैं (2015) । Einav और उनके सहयोगियों ने ईबे पर जगह लेने की नीलामी में रुचि रखते थे, और उनके काम का वर्णन करने में, मैं एक खास पहलू पर ध्यान केंद्रित करेंगे: इस तरह के बिक्री मूल्य या बिक्री की संभावना के रूप में नीलामी के परिणामों, पर नीलामी शुरू कीमत का असर।
बिक्री मूल्य पर शुरुआती कीमत के प्रभाव के बारे में सवाल का जवाब करने के लिए सबसे अनुभवहीन तरह से बस अलग-अलग कीमतों के साथ शुरू की नीलामी के लिए अंतिम कीमत की गणना करने के लिए किया जाएगा। इस दृष्टिकोण से ठीक हो सकता है अगर आप बस एक भी आइटम है कि एक निश्चित मूल्य उस कीमत के साथ eBay पर डाल दिया गया था के बिक्री मूल्य की भविष्यवाणी करना चाहते हैं। लेकिन, अगर आपके सवाल है क्योंकि यह निष्पक्ष तुलना पर आधारित नहीं है काम नहीं करेगा इस दृष्टिकोण के बाजार मूल्य के परिणामों पर शुरू करने का प्रभाव क्या है; कम कीमतों के साथ शुरू की नीलामी उच्च प्रारंभिक मूल्य (जैसे, वे माल के विभिन्न प्रकार के लिए हो सकता है या विक्रेताओं के विभिन्न प्रकार के शामिल हो सकता है) के साथ नीलामी से काफी अलग हो सकता है।
कहते मानकों आप पहले से ही निष्पक्ष तुलना कर के बारे में चिंतित हैं, तो आप अनुभवहीन दृष्टिकोण को छोड़ और एक क्षेत्र प्रयोग आप जहां एक विशेष आइटम कहते हैं बेचना होगा, एक गोल्फ क्लब के साथ-नीलामी की एक निश्चित सेट चलाने पर विचार हो सकता है, मुफ्त शिपिंग, नीलामी दो सप्ताह के लिए खुले आदि-लेकिन साथ बेतरतीब ढंग से शुरू की कीमतों की स्थापना की। जिसके परिणामस्वरूप बाजार परिणामों की तुलना करके, इस क्षेत्र को प्रयोग बिक्री मूल्य पर कीमत शुरू के प्रभाव का एक बहुत ही स्पष्ट माप की पेशकश करेगा। लेकिन, इस माप केवल एक विशेष उत्पाद के लिए और नीलामी मापदंडों के सेट होगा। परिणाम अलग हो सकता है, उदाहरण के लिए, उत्पादों के विभिन्न प्रकार के लिए। मजबूत सिद्धांत के बिना, यह इस ही प्रयोग संभव प्रयोगों की पूरी रेंज है कि हो सकता है चलाया जा रहा है से एक्सट्रपलेशन के लिए मुश्किल है। इसके अलावा, क्षेत्र प्रयोगों पर्याप्त महंगा है कि आईटी उत्पादों और नीलामी प्रकार के पूरे पैरामीटर स्थान को कवर करने के लिए पर्याप्त उनमें से चलाने के लिए अव्यवहार्य हो जाएगा रहे हैं।
भोली दृष्टिकोण और प्रयोगात्मक दृष्टिकोण के विपरीत, Einav और उनके सहयोगियों के एक तिहाई दृष्टिकोण रखना: मिलान। उनकी रणनीति का मुख्य चाल क्षेत्र प्रयोगों कि पहले से ही ईबे पर हुआ है इसी तरह की बातें की जाती है। उदाहरण के लिए, चित्रा 2.6 वास्तव में एक ही गोल्फ क्लब-एक Taylormade बर्नर 09 चालक-जा रहा है वास्तव में एक ही विक्रेता- "budgetgolfer" द्वारा बेचा के लिए 31 लिस्टिंग के कुछ पता चलता है। हालांकि, इन लिस्टिंग से थोड़ा अलग विशेषताएं हैं। उनमें से ग्यारह $ 124,99 की एक निश्चित मूल्य के लिए ड्राइवर की पेशकश करते हैं, जबकि अन्य 20 विभिन्न समाप्ति तिथि के साथ नीलामी कर रहे हैं। इसके अलावा, लिस्टिंग, अलग शिपिंग शुल्क है या तो $ 7.99 या $ 9.99। दूसरे शब्दों में, ऐसा लगता है जैसे "budgetgolfer" शोधकर्ताओं के लिए प्रयोगों चल रहा है।
Taylormade बर्नर 09 चालक की लिस्टिंग "budgetgolfer" द्वारा बेचा जा रहा लिस्टिंग, जहां सटीक एक ही मद में सटीक एक ही विक्रेता द्वारा बेचा जा रहा है की एक सेट मिलान लेकिन थोड़ा अलग विशेषताओं के साथ प्रत्येक के लिए समय की एक उदाहरण हैं। ईबे के बड़े पैमाने पर लॉग के भीतर वहाँ सचमुच लिस्टिंग के लाखों लोगों को शामिल मिलान सेट के हजारों की सैकड़ों रहे हैं। इस प्रकार, बल्कि एक दिया कीमत शुरू के भीतर सभी की नीलामी के लिए अंतिम कीमत की तुलना से, Einav और उनके सहयोगियों से मिलान सेट के भीतर तुलना करें। आदेश से मिलान सेट के हजारों के इन सैकड़ों भीतर तुलना से परिणाम गठबंधन करने के लिए, Einav और उनके सहयोगियों के शुरुआती कीमत और प्रत्येक आइटम (जैसे, इसकी औसत बिक्री मूल्य) के संदर्भ मूल्य के संदर्भ में अंतिम कीमत फिर से व्यक्त करते हैं। उदाहरण के लिए, यदि Taylormade बर्नर 09 चालक $ 100 का एक संदर्भ मूल्य है (इसकी बिक्री पर आधारित), तो $ 10 की एक शुरुआती कीमत 0.1 के रूप में व्यक्त किया जाएगा और $ 120 की अंतिम कीमत 1.2 के रूप में व्यक्त किया जाएगा।
याद है कि Einav और उनके सहयोगियों ने नीलामी के परिणामों पर शुरुआती मूल्य के प्रभाव में रुचि रखते थे। सबसे पहले, रेखीय प्रतिगमन का उपयोग कर वे अनुमान है कि उच्च प्रारंभिक कीमतों में एक बिक्री की संभावना कम होती है, और उच्च प्रारंभिक कीमतों अंतिम बिक्री मूल्य, एक बिक्री से होने वाली वृद्धि पर सशर्त है। स्वयं से, इन अनुमानों-जो सभी उत्पादों पर औसतन रहे हैं और शुरुआती कीमत और अंतिम बीच एक रैखिक संबंध मान भी दिलचस्प नहीं है परिणामों कर रहे हैं। लेकिन, Einav और उनके सहयोगियों को भी अपने डेटा का भारी आकार का उपयोग अधिक सूक्ष्म निष्कर्षों की एक किस्म का अनुमान है। सबसे पहले, Einav और उनके सहयोगियों के अलग अलग कीमतों के मदों के लिए और रेखीय प्रतिगमन का उपयोग किए बिना इन अनुमानों बनाया है। उन्होंने पाया कि जब शुरुआती मूल्य और बिक्री की संभावना के बीच संबंध रैखिक है, शुरुआती कीमत और बिक्री मूल्य के बीच के रिश्ते को स्पष्ट रूप से गैर रेखीय (चित्रा 2.7) है। विशेष रूप से, 0.05 और 0.85 के बीच की कीमतों शुरू करने के लिए, शुरुआती कीमत बिक्री मूल्य, एक खोज है कि विश्लेषण है कि एक रैखिक संबंध ग्रहण किया था में याद किया पूरा हो गया था पर बहुत कम प्रभाव पड़ता है।
दूसरा, बल्कि सभी मदों से अधिक औसत की तुलना में, Einav और उनके सहयोगियों को भी अपने डेटा का भारी पैमाने आइटम (जैसे, पालतू आपूर्ति, इलेक्ट्रॉनिक्स, और खेल यादगार) (चित्रा 2.8) के 23 विभिन्न श्रेणियों के लिए शुरू कीमत के प्रभाव आकलन करने के लिए इस्तेमाल करते हैं। ये अनुमान अधिक विशिष्ट के लिए वस्तुओं जैसे-जैसे यादगार शुरू कीमत एक बिक्री की संभावना और अंतिम बिक्री मूल्य पर एक बड़ा प्रभाव पर एक छोटे प्रभाव पड़ता है कि दिखा। इसके अलावा, के लिए और अधिक commodified आइटम जैसे डीवीडी और वीडियो शुरुआती मूल्य के रूप में अंतिम कीमत पर लगभग कोई प्रभाव पड़ता है। दूसरे शब्दों में, एक औसत कि मदों की 23 विभिन्न श्रेणियों से परिणामों को जोड़ती इन मदों के बीच मतभेदों के बारे में महत्वपूर्ण जानकारी छुपाता है।
यहां तक कि अगर आप विशेष रूप से ईबे पर नीलामी में कोई दिलचस्पी नहीं कर रहे हैं, आप जिस तरह से है कि 2.7 चित्रा और 2.8 प्रस्ताव को सरल रेखीय प्रतिगमन अनुमान है कि रैखिक रिश्तों को मान और आइटम के कई अलग अलग श्रेणियों के गठबंधन से eBay के एक अमीर समझ चित्रा प्रशंसा की है। ये अधिक सूक्ष्म अनुमान बड़े पैमाने पर डेटा में मिलान की शक्ति का उदाहरण देकर स्पष्ट करना; इन अनुमानों क्षेत्र प्रयोगों का एक विशाल संख्या है, जो बेहद महंगा हो गया होता बिना असंभव हो गया होता।
बेशक, हम हम एक तुलनीय प्रयोग के परिणाम में होगा की तुलना में किसी विशेष मिलान अध्ययन के परिणामों में कम विश्वास होना चाहिए। जब किसी भी मिलान अध्ययन से परिणाम का आकलन करने, वहाँ दो महत्वपूर्ण चिंता कर रहे हैं। सबसे पहले, हमें याद है कि हम केवल बातें है कि मिलान के लिए इस्तेमाल किया गया पर निष्पक्ष तुलना सुनिश्चित कर सकते है। विक्रेता आईडी नंबर, मद श्रेणी, मद शीर्षक और उपशीर्षक: उनके मुख्य परिणामों में, Einav और उनके सहयोगियों सटीक चार विशेषताओं पर मिलान किया। यदि आइटम तरीके है कि मिलान के लिए इस्तेमाल नहीं कर रहे थे, कि एक अनुचित तुलना बना सकते में अलग थे। उदाहरण के लिए, यदि "budgetgolfer" Taylormade बर्नर 09 ड्राइवर के लिए कीमतों में सर्दियों में उतारा (जब गोल्फ क्लब में कम लोकप्रिय हैं), तो यह प्रकट हो सकते हैं कि कम शुरुआती कीमतों अंतिम कीमतों को कम करने के लिए नेतृत्व जब वास्तव में यह मौसमी का एक artifact होगा मांग में भिन्नता। सामान्य में, इस समस्या का सबसे अच्छा तरीका मिलान के कई अलग अलग प्रकार की कोशिश करने लगता है। उदाहरण के लिए, Einav और उनके सहयोगियों ने अपने विश्लेषण जहां से मिलान सेट एक वर्ष के भीतर बिक्री पर आइटम, एक महीने के भीतर, और समकालीन शामिल दोहराएँ। समय खिड़की सख्त बनाने के लिए मिलान सेट की संख्या कम हो जाती है, लेकिन मौसमी बदलाव के बारे में चिंताओं को कम कर देता है। सौभाग्य से, वे पाते हैं कि परिणाम मिलान मापदंड में इन परिवर्तनों से अपरिवर्तित रहे हैं। मिलान साहित्य में, चिंता का इस प्रकार का आमतौर पर observables और unobservables के संदर्भ में व्यक्त किया जाता है, लेकिन महत्वपूर्ण विचार सच है कि शोधकर्ताओं ने केवल मिलान में इस्तेमाल सुविधाओं पर निष्पक्ष तुलना पैदा कर रहे है।
दूसरी बड़ी चिंता का विषय है जब मिलान परिणामों की व्याख्या है कि वे केवल मिलान डेटा पर लागू होता है; वे मामलों है कि मिलान नहीं किया जा सकता करने के लिए लागू नहीं है। उदाहरण के लिए, आइटम है कि एकाधिक लिस्टिंग Einav और उनके सहयोगियों पेशेवर और अर्द्ध पेशेवर विक्रेताओं पर ध्यान केंद्रित कर रहे था उनके अनुसंधान को सीमित करके। इस प्रकार, जब इन तुलना की व्याख्या हमें याद रखना चाहिए कि वे केवल eBay के इस उपसमूह के लिए लागू होते हैं।
मिलान बड़े डेटासेट में निष्पक्ष तुलना खोजने के लिए एक शक्तिशाली रणनीति है। कई सामाजिक वैज्ञानिकों के लिए, मिलान प्रयोगों के लिए दूसरी सबसे अच्छा की तरह लगता है, लेकिन है कि एक धारणा है कि संशोधित किया जाना चाहिए, थोड़ा है। बड़े पैमाने पर डेटा में मिलान क्षेत्र प्रयोगों की एक छोटी संख्या की तुलना में बेहतर हो सकता है जब: 1) प्रभाव में विविधता महत्वपूर्ण है और 2) वहाँ मिलान के लिए अच्छा observables हैं। तालिका 2.4 कैसे मिलान बड़ा डेटा स्रोतों के साथ इस्तेमाल किया जा सकता है के कुछ अन्य उदाहरण प्रदान करता है।
मूल फोकस | बिग डेटा स्रोत | उद्धरण |
---|---|---|
पुलिस हिंसा पर शूटिंग का प्रभाव | बंद और क्रीड़ा करना रिकॉर्ड | Legewie (2016) |
परिवार और पड़ोसियों पर 11 सितंबर, 2001 के प्रभाव | मतदान रिकॉर्ड और दान रिकॉर्ड | Hersh (2013) |
सामाजिक छूत | संचार और उत्पाद गोद लेने डेटा | Aral, Muchnik, and Sundararajan (2009) |
अंत में, गैर प्रयोगात्मक डेटा से कारण प्रभाव का आकलन करने के लिए अनुभवहीन दृष्टिकोण खतरनाक हैं। हालांकि, सबसे मजबूत से सबसे कमजोर करने के लिए एक निरंतरता के साथ झूठ बोल कारण अनुमान बनाने के लिए रणनीति, और शोधकर्ताओं गैर प्रयोगात्मक डेटा के भीतर निष्पक्ष तुलना की खोज कर सकते हैं। प्राकृतिक प्रयोगों और मिलान: हमेशा पर, बड़ा डेटा सिस्टम के विकास को प्रभावी ढंग से दो मौजूदा तरीकों का उपयोग करने की क्षमता बढ़ जाती है।