जुळणारे प्रकरणे दूर रोपांची छाटणी वाजवी भेद निर्माण करा.
गोरा भेद नियंत्रित यादृच्छिकीकृत प्रयोग किंवा नैसर्गिक प्रयोग एकतर येऊ शकते. पण, अनेक घटनांमध्ये आदर्श प्रयोग चालवू शकत नाही आणि निसर्ग नैसर्गिक प्रयोग प्रदान नाही आहे जेथे आहेत. या सेटिंग्ज मध्ये, एक सुंदर तुलना जुळणारे तयार करण्यासाठी सर्वोत्तम मार्ग. जुळणारे मध्ये, संशोधक की वगळता एक उपचार प्राप्त झाले आहे असतात की लोक जोड्या तयार करण्यासाठी बिगर प्रायोगिक माहिती दिसते आणि एक नाही. जुळणारे प्रक्रिया, संशोधक प्रत्यक्षात देखील रोपांची छाटणी आहेत; कुठे कोणतेही स्पष्ट तुलनेत आहेत प्रकरणे काढून टाकून, आहे. त्यामुळे ही पद्धत अधिक अचूकपणे जुळणारे आणि रोपांची छाटणी असे म्हणतील, पण मी पारंपारिक टर्म रहा कराल: जुळणारे.
भव्य नॉन-प्रायोगिक माहिती स्रोत धोरण जुळणारे शक्ती एक सुंदर उदाहरण Liran Einav आणि सहकार्यांच्या ग्राहक वर्तणूक संशोधन येतात (2015) . Einav आणि सहकारी eBay वर होत लिलावात स्वारस्य होते, आणि त्यांच्या काम वर्णन, मी एक विशिष्ट लक्ष केंद्रित कराल: लिलाव परिणाम, जसे विक्री किंमत किंवा विक्री शक्यता लिलाव सुरू किंमत प्रभाव.
विक्री किंमत सुरू किंमत प्रभाव बद्दल प्रश्नाचे उत्तर सर्वात साधा मार्ग फक्त भिन्न सुरू दर लिलाव अंतिम किंमत गणना होईल. आपण फक्त दिलेल्या सुरू किंमत eBay वर टाकले आहे हे दिलेल्या आयटम विक्री किंमत अंदाज करू इच्छित असेल तर हा दृष्टिकोन दंड होईल. पण, आपला प्रश्न हा दृष्टिकोन बाजार परिणाम किंमत सुरू कार्य करू शकत नाही हे वाजवी भेद आधारित नाही कारण होईल परिणाम काय असेल तर; कमी सुरू दर लिलाव उच्च सुरू दर (उदा, ते माल विविध प्रकारच्या असेल किंवा विक्रेते विविध प्रकारच्या समाविष्ट करावा) सह लिलाव पासून जोरदार भिन्न असू शकते.
आपण वाजवी तुलना बनवण्यासाठी बद्दल आधीच आपल्याला वाटत असल्यास, आपण साधा दृष्टिकोन वगळा आणि आपण लिलाव ठराविक संच क्लब, एक विशिष्ट गोष्ट-म्हणू विक्री तिथे गोल्फ शेत प्रयोग चालवत विचार घटके-म्हणतात, मोफत शिपिंग, लिलाव दोन आठवडे, खुल्या इत्यादि सहजगत्या सुरू किमती सेट आहे. परिणामी बाजारात परिणाम तुलना करून, या क्षेत्रात प्रयोग विक्री किंमत किंमत सुरू परिणाम एक अतिशय स्पष्ट मापन द्यायचो. पण, या मापन फक्त एक विशिष्ट उत्पादन लागू होतात आणि हे लिलाव मापदंड प्रस्थापित होईल. परिणाम भिन्न असू शकते, उदाहरणार्थ, उत्पादने विविध प्रकारच्या. मजबूत सिद्धांत न करता, तो या एकच प्रयोग शक्य प्रयोग संपूर्ण चालवा गेले आहेत असे ते extrapolate कठीण आहे. शिवाय, शेत प्रयोग तो उत्पादने आणि लिलाव प्रकार संपूर्ण घटक जागा कव्हर अप आणि पुरेशी त्यांना चालविण्यासाठी अव्यवहार्य असेल की ते पुरेसे महाग आहेत.
साधा दृष्टिकोन आणि प्रायोगिक दृष्टिकोन तीव्रता, Einav आणि सहकारी एक मागस घ्या: जुळणारे. त्यांच्या धोरण मुख्य युक्ती आधीच eBay वर घडलेल्या क्षेत्रात प्रयोग समान गोष्टी शोधण्यासाठी आहे. उदाहरणार्थ, आकृती 2.6 त्याच गोल्फ क्लब-एक Taylormade बर्नर त्याच seller- "budgetgolfer" द्वारे 09 ड्रायव्हर-जात विक्री 31 सूची काही दाखवते. तथापि, या सूची जरा वेगळी वैशिष्ट्ये आहेत. त्यांना अकरा, $ 124,99 एक निश्चित किंमत ड्राइव्हर ऑफर तर अन्य 20 विविध शेवटी तारखा सह लिलाव आहेत. एकतर $ 7.99 किंवा $ 9.99 तसेच, सूची विविध शिपिंग शुल्क आहे. दुसऱ्या शब्दांत, तो "budgetgolfer" संशोधक करण्यासाठी प्रयोग चालू आहे तर आहे.
Taylormade बर्नर 09 ड्राइव्हरच्या सूची "budgetgolfer" द्वारे विकले जात तंतोतंत समान आयटम तंतोतंत समान विक्रेता द्वारे विकले जात आहे जेथे सूची, एक जुळलेल्या संच पण प्रत्येक वेळी जरा वेगळी वैशिष्ट्ये एक उदाहरण आहे. हा कोड eBay प्रचंड नोंदी आत सूची लाखो समावेश जुळलेल्या संच हजारो शब्दशः आहेत. त्यामुळे ऐवजी अंतिम किंमत आत दिलेल्या सुरू किंमत सर्व लिलावाने साठी तुलना पेक्षा, Einav आणि सहकारी जुळले संच आत तुलना करु. जुळलेल्या संच हजारो या शेकडो आत भेद परिणाम एकत्र करण्यासाठी, Einav आणि सहकारी पुन्हा व्यक्त प्रत्येक आयटम (उदा, सरासरी विक्री किंमत) संदर्भ मूल्य दृष्टीने सुरू किंमत आणि अंतिम किंमत. उदाहरणार्थ, Taylormade बर्नर 09 ड्राइवर $ 100 एक संदर्भ मूल्य आहे तर (त्याची विक्री आधारित), नंतर $ 10 एक सुरू किंमत 0.1 व्यक्त होईल आणि $ 120 अंतिम किंमत 1.2 म्हणून व्यक्त होईल.
Einav आणि सहकारी लिलाव परिणाम प्रारंभ किंमत परिणाम मध्ये स्वारस्य होते, हे आठवते. प्रथम, रेषीय अपगमनातून वापरून ते जास्त सुरू दर विक्री संभाव्यता कमी, आणि उच्च सुरू दर वाढ अंतिम विक्री किंमत, विक्री येणार्या वर सशर्त अंदाज आहे. स्वत: करून, या अंदाज-जे सर्व उत्पादने प्रती सरासरी आहेत आणि सुरू किंमत आणि अंतिम दरम्यान एका रेषेचा संबंध गृहीत धरता येणार नाही सर्व मनोरंजक परिणाम-आहेत. पण, Einav आणि सहकारी देखील अधिक सूक्ष्म निष्कर्ष विविध अंदाज त्यांच्या डेटा भव्य आकार वापरा. प्रथम, Einav आणि सहकारी स्वतंत्रपणे भिन्न भाव आयटम आणि एकरेषीय अपगमनाच्या वापर न करता या अंदाज केला. ते आढळले विक्री सुरू किंमत आणि संभाव्यता संबंध रेषेचा असते, तर सुरू किंमत व विक्री किंमत संबंध स्पष्टपणे नॉन-रेषेचा (आकृती 2.7) आहे. विशेषतः, 0.05 आणि 0.85 दरम्यान दर सुरू, सुरू किंमत विक्री किंमत, एका रेषेचा संबंध गृहीत धरले होते की विश्लेषण नाही पूर्ण झाले की एक ओळखणे अगदी थोडा परिणाम आहे.
दुसरी गोष्ट म्हणजे, ऐवजी सर्व आयटम प्रती सरासरीने पेक्षा, Einav आणि सहकारी त्यांच्या डेटा मोठ्या प्रमाणात आयटम (उदा, पाळीव प्राणी पुरवठादार, इलेक्ट्रॉनिक्स, आणि क्रीडा स्मृतीचिन्हे) (आकृती 2.8) 23 वेगवेगळ्या गटांसाठी सुरू किंमत परिणाम अंदाज वापरा. या अंदाज दाखवा अधिक विशिष्ट आयटम-जसे स्मृतीचिन्हे सुरू किंमत विक्री संभाव्यता आणि अंतिम विक्री किंमत मोठ्या परिणाम एक लहान प्रभाव आहे की. पुढे, अधिक commodified आयटम अशा डीव्हीडी आणि व्हिडिओ प्रारंभ किंमत अंतिम किंमत जवळजवळ नाही प्रभाव आहे. दुसऱ्या शब्दांत, आयटम 23 विविध श्रेणींमध्ये परिणाम मेळ सरासरी हे आयटम फरक महत्वाची माहिती लपविला.
आपण eBay वर लिलाव खास रस नाही तर, आपण आकृती 2.7 आणि 2.8 ऑफर रेषेचा संबंध गृहीत धरते आणि आयटम अनेक विविध श्रेणींमध्ये एकत्र सोपे रेषीय अपगमनातून अंदाज eBay एक श्रीमंत समजून आकृती मार्ग प्रशंसा आहे. या अधिक सूक्ष्म अंदाज भव्य डेटा जुळणारे शक्ती स्पष्ट; या अंदाज क्षेत्रात प्रयोग प्रचंड, prohibitively महाग केले आहे असे आहे न, अशक्य आहे.
अर्थात, आम्ही एक तुलना प्रयोग परिणाम होईल पेक्षा कोणत्याही विशिष्ट जुळणारे अभ्यासाचे परिणाम कमी आत्मविश्वास असणे आवश्यक आहे. कुठलेही अभ्यास परिणाम मूल्यांकन, तेव्हा दोन महत्त्वाच्या चिंता आहेत. पहिल्यांदा आपण फक्त जुळणारे वापरले होते की गोष्टी योग्य भेद खात्री शकतो हे लक्षात आहे. विक्रेता आयडी क्रमांक, आयटम वर्गात, आयटम शीर्षक, आणि उपशीर्षक: मुख्य निकालात, Einav आणि सहकारी अचूक चार वैशिष्ट्ये जुळणारे नाही. आयटम अयोग्य तुलना तयार करू शकलो की जुळवण्यासाठी वापरला नाही ते मार्ग, वेगळ्या असत्या तर. उदाहरणार्थ, "budgetgolfer" साठी Taylormade बर्नर 09 ड्राइवर दर हिवाळ्यात खालावली (गोल्फ क्लब कमी लोकप्रिय आहेत), नंतर तो कमी सुरू दर अंतिम दर कमी होऊ की, खरं या हंगामी एक मानवनिर्मित वस्तू होईल तेव्हा दिसून शकते मागणी फरक. सर्वसाधारणपणे, या समस्या सर्वोत्तम दृष्टिकोन जुळणारे अनेक विविध प्रकारच्या प्रयत्न आहे असे दिसते. उदाहरणार्थ, Einav आणि सहकारी जुळले संच महिन्याच्या आत, एक वर्षाच्या आत विक्रीवरील आयटम, आणि contemporaneously समावेश जेथे त्यांच्या विश्लेषण पुन्हा करा. वेळ विंडो ज्यामुळे फैलाव करून जुळलेल्या संच संख्या कमी, पण हंगामी फरक बद्दल चिंता कमी होते. सुदैवाने, ते परिणाम जुळणारे निकष या बदल करून 'जैसे थे' असतात. जुळणारे साहित्य, चिंता हा प्रकार सहसा observables आणि unobservables दृष्टीने व्यक्त केला जातो, पण की कल्पना संशोधक फक्त जुळणारे वापरले वैशिष्ट्ये गोरा भेद निर्माण खरोखर आहे.
जुळणारे परिणाम निष्कर्षांचा अर्थ लावणे तेव्हा दुसरे मोठे चिंता ते फक्त जुळणारे डेटा लागू आहे; ते जुळले करणे शक्य नाही की बाबतीत लागू होत नाहीत. उदाहरणार्थ, एकाधिक सूची Einav आणि सहकारी व्यावसायिक आणि अर्ध-व्यावसायिक विक्रेते लक्ष केंद्रित करीत आहोत होते की आयटम त्यांच्या संशोधन मर्यादा घालून. त्यामुळे, या भेद निष्कर्षांचा अर्थ लावणे तेव्हा आम्ही ते फक्त eBay या उपसंच लागू लक्षात ठेवली पाहिजे.
जुळणारे मोठ्या डेटाबेस सुंदर भेद शोधण्यासाठी एक शक्तिशाली धोरण आहे. अनेक सामाजिक शास्त्रज्ञ करण्यासाठी, जुळणारे प्रयोग दुसरा सर्वोत्तम वाटणारी, पण त्या किंचित, सुधारित पाहिजे की एक विश्वास आहे. 1) प्रभाव धक्का बसला असून रहिवासातील महत्वाचे आहे आणि 2) जुळणारे चांगले observables आहेत: जेव्हा भव्य डेटा जुळणारे क्षेत्रात प्रयोग एक लहान संख्या अधिक असू शकते. टेबल 2.4 मोठे डेटा स्रोत वापरले जाऊ शकते जुळणारे कसे इतर काही उदाहरणे उपलब्ध आहे.
स्वतंत्र लक्ष केंद्रित | बिग डेटा स्त्रोत | उतारा |
---|---|---|
पोलीस हिंसा वर shootings प्रभाव | थांबवा आणि बागडणे रेकॉर्ड | Legewie (2016) |
सप्टेंबर 11, 2001 परिणाम कुटुंबे आणि शेजारी | मतदान रेकॉर्ड आणि देणगी रेकॉर्ड | Hersh (2013) |
सामाजिक संसर्ग | दळणवळण व उत्पादन दत्तक डेटा | Aral, Muchnik, and Sundararajan (2009) |
शेवटी, साधा नॉन-प्रायोगिक डेटा कार्यकारण भाव प्रभाव निश्चित करण्याच्या पध्दती धोकादायक आहेत. तथापि, शक्ती कमी करण्यासाठी कडक एक अखंड बाजूने खोटे कार्यकारण भाव अंदाज धोरणात्मक, आणि संशोधक नॉन-प्रायोगिक डेटा गोरा भेद शोधू शकता. नैसर्गिक प्रयोग जुळणारे: नेहमी ऑन, मोठे डेटा प्रणाली वाढ प्रभावीपणे दोन विद्यमान पद्धती वापरण्याची क्षमता वाढते.