नॉन-पर्पक्ष्णेटिव्ह डेटा नमुना ऑफ सादरीकरणेसाठी खराब आहे, परंतु नमुना comparisons साठी खूप उपयोगी असू शकते.
काही सामाजिक शास्त्रज्ञ एखाद्या विशिष्ट देशातल्या सर्व प्रौढांसारख्या सुस्पष्ट परिभाषित लोकसंख्येतील संभाव्य यादृच्छिक नमुन्यातून मिळणार्या डेटासह कार्य करण्यासाठी नित्याचा असतात. अशा प्रकारच्या डेटाला प्रतिनिधी डेटा म्हणतात कारण नमुना मोठ्या लोकसंख्येला "प्रतिनिधित्व करतो" अनेक संशोधक बक्षीस प्रतिनिधी डेटा, आणि काही, प्रतिनिधी डेटा कठोर विज्ञान समानार्थी आहे, तर निरुपयोगी डेटा sloppiness समानार्थी आहे सर्वात टोकाच्या वेळी काही संशयवादी असे मानतात की गैर-प्रतिनिधींनी डेटावरून काहीही शिकले जाऊ शकत नाही. खरे असल्यास, यामुळे मोठ्या डेटा स्त्रोतांपासून काय शिकता येईल याची गंभीरपणे मर्यादा दिसत आहे कारण त्यापैकी बरेच जण गैर-प्रतिनिधी आहेत. सुदैवाने, या संशयवादी फक्त अंशतः योग्य आहेत. विशिष्ट संशोधन उद्दिष्टे आहेत ज्यासाठी गैर-प्रतिनिधीत्व डेटा स्पष्टपणे अनुकूल नाही, परंतु इतर असे आहेत ज्यांच्यासाठी ते खरोखरच उपयोगी असू शकते.
हे भेद समजून घेण्यासाठी, आपण वैज्ञानिक शास्त्राचा विचार करूया: लंडनमधील 1853-54 च्या कोरा उद्रेक जॉन स्नोच्या अभ्यासानुसार. त्या वेळी, बर्याच डॉक्टरांना असे वाटले की हैरा "खराब वायूमुळे" होतो, परंतु हिमपात असा होता की तो एक संसर्गजन्य रोग होता, कदाचित सांडपाणीयुक्त पिण्याचे पाणी पसरून. या कल्पनेची चाचणी करण्यासाठी, हिमधुमीने आता आपण एक नैसर्गिक प्रयोग बोलावा काय याचा फायदा घेतला. त्यांनी दोन वेगवेगळ्या पाण्याच्या विविध कंपन्यांच्या हॅराथच्या दराने तुलना केली: लाम्बेथ व साउथवार्क व वॉक्हाल या कंपन्या समान घराण्यांचे काम करत असत; परंतु ते एका महत्त्वपूर्ण मार्गाने वेगळे होते: 184 9 मध्ये- महामारी सुरू होण्याआधी काही वर्षांपूर्वी-लँम्बथने त्याचा सेवन बिंदू वरच्या प्रवाहाने वरचा प्रवाह लावला, तर लंडनमधील मुख्य सांडपाण्यावरुन काढला होता, तर साऊथवार्क व वॉक्सहॉल आपल्या पाईपमधून खाली उतरत होते सीवेज स्त्राव जेव्हा हिवाळी दोन कंपन्यांकडून काम करत असलेल्या घरांमधल्या हॅराच्या मृत्युशी तुलना केली तेव्हा त्यांना आढळून आले की साऊथवार्क व वॉक्हालचे ग्राहक - जे ग्राहकांना गांडुळलेले पाणी पुरवत होते - हेजापासून 10 पट अधिक मरतात. हे परिणाम हॅराच्या कारणांबद्दल हिमवाद्यांच्या तर्कांबद्दल मजबूत वैज्ञानिक पुरावे प्रदान करते, जरी ते लंडनमधील लोकांच्या प्रतिनिधींच्या नमुन्यावर आधारित नसले तरीही
तथापि, या दोन कंपन्यांचे डेटा वेगळ्या प्रश्नासाठी उत्तरदायी ठरणार नाहीत: फाशीच्या वेळी लंडनमधील हैजाचा प्रसार काय होता? दुसर्या प्रश्नासाठी, जे देखील महत्त्वाचे आहे, लंडनमधील लोकांच्या प्रतिनिधींचा एक नमूना असणे हे अधिक चांगले आहे.
हिमवर्षावाचे काम स्पष्टपणे दिसून येते, त्यामध्ये काही वैज्ञानिक प्रश्न आहेत ज्यासाठी गैर-प्रतिनिधीत्व डेटा खूप प्रभावी असू शकतो आणि इतरही आहेत ज्यांच्यासाठी ते योग्य नाही. या दोन प्रकारच्या प्रश्नांच्या फरक ओळखण्याचा एक कच्चा मार्ग हा आहे की काही प्रश्नांमधील नमुना तुलनेत आहेत आणि काही नमुना-नमुद सामान्यीकरण आहेत. या फरकाची आणखीन हा एपिडेमियोलॉजीमधील एक क्लासिक अभ्यासाने स्पष्ट केला जाऊ शकतो: ब्रिटिश डॉक्टर स्टडी, ज्याने हे दाखवून दिले की धूम्रपानाने कर्करोगास कारणीभूत आहे. या अभ्यासात, रिचर्ड डॉल आणि ए. ब्रॅडफोर्ड हिल यांनी अंदाजे 25 हजार पुरुष डॉक्टरांना अनेक वर्षांपासून पाठवले आणि त्यांच्या मृत्यूच्या दराच्या तुलनेत त्यांनी अभ्यास सुरू केल्यावर स्मोक्ड केलेल्या रकमेच्या तुलनेत. डॉल ऍण्ड हिल (1954) यांना एक मजबूत प्रदर्शनासह-प्रतिसाद संबंध आढळला: अधिक जोरदार लोकांनी धूम्रपान केले, फुफ्फुसांचा कर्करोगाने मृत्यू होण्याची अधिक शक्यता. अर्थात, पुरुष डॉक्टरांच्या समुहावर आधारित सर्व ब्रिटीश लोकांमध्ये फुफ्फुसांचा कर्करोग होण्याचा अंदाज घेणे मूर्खपणाचे ठरणार नाही, परंतु त्यातील नमुन्यांची तुलना अजूनही पुरावा देते की धूम्रपान धूम्रपानाने फुफ्फुसांचा कर्करोगाने होतो.
आता मी नमुन्याची तुलना आणि नमुना सर्वसाधारण सवयींमधील फरक स्पष्ट केला आहे, दोन सावधानता क्रमाने आहे. प्रथम, तेथे पुरुष ब्रिटीश डॉक्टरांच्या नमुन्याच्या आत असलेल्या नातेसंबंधात महिला, ब्रिटिश डॉक्टर किंवा पुरुष ब्रिटीश कारखाना कामगार किंवा महिला कामगार कर्मचारी किंवा इतर अनेक गटांचे नमुना असेल, याबद्दल काही नैसर्गिकरित्या प्रश्न आहेत. हे प्रश्न मनोरंजक आणि महत्त्वपूर्ण आहेत, परंतु ते अशा प्रश्नांपेक्षा वेगळे आहेत ज्यात आपण एका नमुन्यापासून ते लोकसंख्येपर्यंत सामान्य बनवू शकता. उदाहरणादाखल घ्या, उदाहरणार्थ, कदाचित तुम्हाला असे शंका येते की, ब्रिटीश डॉक्टरांमधुन सापडलेल्या धूम्रपान आणि कर्करोगामधील संबंध कदाचित या इतर गटांमध्ये समान असतील. ही एक्सट्रापोलेशन करण्याची आपली क्षमता ही वस्तुस्थिती आहे की नर ब्रिटीश डॉक्टर कोणत्याही लोकसंख्येतून संभाव्य नमुना नमुना आहेत. त्याऐवजी, ते तंत्रज्ञानाची समज जेणेकरून धूम्रपान आणि कर्करोगाचे दुप्पट होते. त्यामुळे, जे काढलेला लोकसंख्या एक नमुना सामान्य विधान एक मुख्यत्वे एक संख्याशास्त्रीय समस्या आहे, पण दुसऱ्या गटात एक गट आढळले पॅटर्न transportability प्रश्न मुख्यत्वे एक nonstatistical समस्या आहे (Pearl and Bareinboim 2014; Pearl 2015) .
या टप्प्यावर, एक संशयास्पद धूम्रपान आणि कर्करोग यांच्यातील संबंधांपेक्षा बहुतेक सामाजिक नमुने कदाचित गटांमध्ये कमी वाहतूक करण्याच्या पद्धतीचा उल्लेख करतात. आणि मी सहमत आहे. ज्या पद्धतीने आपण नमुने वाहतूक करण्यायोग्य असावे अशी अपेक्षा त्या प्रमाणात करणे हा एक वैज्ञानिक प्रश्न आहे ज्याचा सिद्धांत आणि पुराव्याच्या आधारावर निर्णय घेणे आवश्यक आहे. हे आपोआप गृहीत धरले जाऊ नयेत की नमुने वाहतूकक्षम असतील, पण ते असा विचार करू नये की ते वाहतुकक्षम असणार नाहीत. जर तुम्ही पदवी अभ्यासक्रमातील विद्यार्थी (Sears 1986, [@henrich_most_2010] ) अभ्यास करून मानवी वर्तनाबद्दल अधिक जाणून घेऊ शकता याबद्दल वादविवाद केला असेल तर, आपल्यास वाहतूकयोग्यता बद्दल थोडीशी अमूर्त प्रश्न परिचित आहेत. या वादविवादांनतरही, असे म्हणणे अवास्तव होईल की संशोधक पदवीपूर्व विद्यार्थ्यांचा अभ्यास करण्यापासून काहीही शिकू शकत नाहीत.
दुसरी सावधानता आहे की गैर-प्रतिनिधीत्व करणार्या डेटासह बहुतेक संशोधक हिम किंवा डॉल आणि हिल म्हणून सावध नाहीत. त्यामुळे, संशोधक nonrepresentative डेटा एक आउट-ऑफ-नमुना सामान्य विधान करण्यासाठी प्रयत्न करताना काय चुकीचे जाऊ शकता स्पष्ट करण्यासाठी मी Andranik Tumasjan आणि सहकारी 2009 जर्मन लोकसभा निवडणूक अभ्यास सांगू इच्छित (2010) . 100,000 पेक्षा जास्त ट्विट्सचे विश्लेषण केल्यावर त्यांना असे आढळले की संसदीय निवडणुकीत पक्षाला मिळालेल्या मतांच्या प्रमाणात जे राजकीय पक्षाचे नाव येते त्या ट्विट्सचा आकार (अंक 2.3). दुसऱ्या शब्दांत, असे दिसून आले की ट्विटर डेटा, जे मूलत: मुक्त होते, पारंपारिक जनमत सर्वेक्षणाचे स्थान बदलू शकतात, जे त्यांच्या डेटावरून त्यांच्या डेटावर जोर दिल्याने महाग असतात.
आपल्याला Twitter वर आधीपासून काय माहित आहे हे दिले असताना, आपण ताबडतोब या परिणामाचे संशय असला पाहिजे. Twitter वर जर्मनवर 200 9 मध्ये जर्मन मतदारांची संभाव्य यादृच्छिक नमुना नव्हती, आणि काही पक्षांच्या समर्थकांनी अन्य पक्षांच्या समर्थकांपेक्षा जास्त वेळा राजकारणाबद्दलचे ट्विट केले होते. त्यामुळे, आश्चर्य वाटणारा दिसत आहे की आपण ज्या कल्पना करू शकतील त्या सर्व संभाव्य पक्षविश्वासात एखादी व्यक्ती रद्द केली जाईल जेणेकरून हा डेटा जर्मन मतदारांच्या थेट प्रतिबिंबित होईल. खरं तर, परिणाम Tumasjan et al. (2010) सत्य असल्याचे खूप चांगले असल्याचे आढळले अँड्रियास जुंगेर, पास्कल जुर्गेन्स, आणि हॅराल्ड स्कोंन (2012) यांनी पाठपुरावा करणार्या पेपरमध्ये असे स्पष्टपणे सांगितले की मूळ विश्लेषणातून राजकीय पक्षाला वगळण्यात आले होते ज्याने ट्विटरवर सर्वात जास्त प्रतिसाद दिला होता: द पाइरेट पार्टी, एक लहान पक्ष जे सरकारी नियमनांवर मात करते इंटरनेट या पाळीव पार्टीचे विश्लेषण करण्यात आले तेव्हा ट्विटर चे उल्लेख निवडणूक निकालांचे भयानक परिणाम करणारे होते (अंक 2.3). हे उदाहरण स्पष्ट करते, नॉन-प्रंशेटिव्ह मोठ्या डेटा स्त्रोतांचा वापर न केल्यामुळं सामान्यीकृत केल्या जाऊ शकतात ते खूप चुकीचे होऊ शकतात. तसेच, आपण लक्षात घ्यावे की 100,000 ट्वीट्स होते ते मूलतः अप्रासंगिक आहेत: सर्वेक्षणात चर्चा केल्यावर बरेच गैर-प्रतिनिधीत्व डेटा अद्याप प्रति-प्रतिनिधी नसलेले आहेत, जे मी अध्याय 3 मध्ये परत येईल.
निष्कर्षापर्यंत, बरेच मोठे डेटा स्त्रोत काही सु-परिभाषित लोकसंख्येपासून प्रतिनिधींचे नमुने नाहीत. प्रश्नांसाठी जे नमुन्यातून काढलेल्या लोकसंख्येपर्यंतच्या परिणामांचे सामान्यीकरण करणे आवश्यक आहे, ही एक गंभीर समस्या आहे. परंतु नमुना तुलनाच्या प्रश्नांसाठी, गैर-प्रतिनिधी डेटा सशक्त असू शकतो, जोपर्यंत संशोधक त्याच्या नमुनाची वैशिष्ट्ये आणि सैद्धांतिक किंवा प्रायोगिक पुराव्यासह परिवहन क्षमतेबद्दल समर्थन दावे स्पष्ट करतात. किंबहुना, माझी अशी आशा आहे की मोठ्या डेटा स्त्रोतांद्वारे अनेक निरर्थक गटांमध्ये संशोधकांना नमुना तुलना करणे अधिक सक्षम होईल, आणि माझे अंदाज आहे की अनेक भिन्न गटांमधून अंदाज एक संभाव्य यादृच्छिक नमुना