आपला मोठा डेटा कितीही मोठा असला तरी कदाचित आपल्याला हवी असलेली माहिती नसेल.
बहुतेक मोठे डेटा स्रोत अपूर्ण आहेत , अर्थात् त्यांच्याकडे आपल्याकडे आपल्या शोधासाठी आवश्यक असलेली कोणतीही माहिती नाही. हे डेटाचे एक सामान्य वैशिष्ट्य आहे जे संशोधनाव्यतिरिक्त उद्देशांसाठी तयार केलेले आहे. अनेक सामाजिक शास्त्रज्ञांना आधीपासूनच अपूर्णतेशी वागण्याचा अनुभव आला आहे, जसे विद्यमान सर्वेक्षण जे आवश्यकतेनुसार प्रश्न विचारत नाही. दुर्दैवाने, अपूर्णतेची अडचण मोठ्या संख्येने जास्त प्रमाणात होते. माझ्या अनुभवाप्रमाणे, मोठ्या संख्येने माहितीचे तीन प्रकारचे माहिती सामाजिक संशोधनासाठी उपयुक्त ठरते: सहभागी बद्दल जनसांख्यिकीय माहिती, इतर प्लॅटफॉर्मवरील वागणूक आणि सैद्धांतिक बांधकाम चालविण्यासाठी डेटा.
तिन्ही प्रकारच्या अपूर्णतेपैकी, सैद्धांतिक रचनांना चालना देण्यासाठी अपूर्ण डेटाची समस्या सोडवणे सर्वात कठीण आहे. आणि माझ्या अनुभवात, हे सहसा चुकीने धरला जातो. साधारणतः, सैद्धांतिक रचना हे अमूर्त कल्पना आहेत ज्यामध्ये सामाजिक शास्त्रज्ञांनी एक सैद्धांतिक रचनांचा अभ्यास व क्रियाशीलता दर्शविली आहे म्हणजे दृष्टीकोन डेटासह तयार होण्याचा काही मार्ग शोधणे. दुर्दैवाने, ही साधी-ध्वनि प्रक्रिया बहुधा खूप कठीण होऊ शकते. उदाहरणार्थ, आपण कल्पना करूया की अधिक सोपी लोक अधिक पैसे कमावतात जेणेकरुन सहजपणे साध्या दाव्याचा परीणाम करण्याचा प्रयत्न करणे. या हक्काची चाचणी करण्यासाठी आपल्याला "बुद्धी" मोजणे आवश्यक आहे. पण बुद्धी काय आहे? Gardner (2011) असा युक्तिवाद केला की प्रत्यक्षात आठ प्रकारचे बुद्धिमत्ता आहेत आणि अशा काही प्रक्रिया आहेत ज्या या बुद्धिमत्तेच्या कोणत्याही स्वरूपाची अचूकपणे मोजता येतील? मानसशास्त्रज्ञांनी प्रचंड प्रमाणात काम केल्याशिवाय, हे प्रश्न अद्याप स्पष्ट उत्तरे नाहीत.
अशाप्रकारे अगदी तुलनेने सोपा दावे-अधिक बुद्धिमान लोक अधिक पैसे कमवतात-अनुभवजन्य मूल्यांकनासाठी कठिण होऊ शकतात कारण डेटामध्ये सैद्धांतिक निर्मितीला चालना देणे कठिण होऊ शकते. सैद्धांतिक रचनांची इतर उदाहरणे ज्यात महत्वाची आहेत परंतु अंमलात आणणे कठिण आहेत "नियम," "सामाजिक राजधानी" आणि "लोकशाही." सामाजिक शास्त्रज्ञांनी सैद्धांतिक रचना आणि डेटा तयार वैधता (Cronbach and Meehl 1955) यांच्यातील जुळणीचा उल्लेख केला. बांधकामाची ही लहान यादी सुचविते की, वैधता निर्माण करणे ही एक समस्या आहे जी सामाजिक शास्त्रज्ञांकडे बराच काळ संघर्ष करत आहे. परंतु माझ्या अनुभवातून, संशोधनाच्या हेतूसाठी तयार न केलेल्या डेटासह कार्य करताना अधिक कार्यक्षमता निर्माण करण्याच्या समस्या (Lazer 2015) .
जेव्हा आपण एक संशोधन निष्कर्ष काढता तेव्हा, बांधकाम वैधतेचे मूल्यांकन करण्याचा एक जलद आणि उपयुक्त मार्ग म्हणजे परिणाम घेणे, जे सहसा बांधकामाच्या संदर्भात व्यक्त केले जाते आणि वापरलेल्या डेटाच्या संदर्भात ते पुन्हा व्यक्त करणे आहे. उदाहरणार्थ, असे दोन गृहीतेसंबंधी अभ्यास विचारात घ्या जे असे दर्शवतात की अधिक बुद्धिमान लोक अधिक पैसे कमावतात. पहिल्या अभ्यासात, संशोधकाने असे आढळले की जे लोक रावेन प्रोग्रेसिव्ह मॅटरिअस टेस्टवर चांगले गुण काढतात - विश्लेषणात्मक बुद्धिमत्ता (Carpenter, Just, and Shell 1990) चांगल्या अभ्यासित परीक्षेत - त्यांच्या कर परताव्यावरील उच्च नोंदवलेली कमाई. दुसर्या अभ्यासात, संशोधकाने असे आढळून आले की ट्विटरवर जे लोक जास्त शब्द वापरतात ते लक्झरी ब्रॅण्डचा उल्लेख करतात. दोन्ही प्रकरणांमध्ये, हे संशोधक दावा करू शकतात की त्यांनी अधिक बुद्धिमान लोक अधिक पैसे कमावतात. तथापि, पहिल्या अभ्यासात, सैद्धांतिक रचनांची माहिती डेटाद्वारे कार्यान्वित केली जाते, तर दुसऱ्या भागात ते नाहीत. पुढे, जसे की हे उदाहरण स्पष्ट करते, बांधकाम वैधतेसह अधिक डेटा स्वयंचलितपणे समस्यांचे निराकरण करत नाही. दुसऱ्या अभ्यासानुसार आपण लाखो ट्विट्स, एक अब्ज ट्वीट्स किंवा ट्रिलियन ट्वेंटीओ घेणार का याचा शंका घ्यावा. संशोधकांना बांधकाम वैधतेच्या कल्पनांशी परिचित नसल्यामुळे, टेबल 2.2 ने काही अभ्यासाचे काही उदाहरण दिले आहेत ज्यांनी डिजिटल ट्रेस डेटाचा उपयोग करून सैद्धांतिक रचनांचे कार्यान्वयन केले आहे.
माहितीचा स्रोत | सैद्धांतिक बांधकाम | संदर्भ |
---|---|---|
विद्यापीठातून ईमेल लॉग (केवळ मेटा-डेटा) | सामाजिक संबंध | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
वेइबोबवरील सामाजिक मीडिया पोस्ट | नागरी प्रतिबद्धता | Zhang (2016) |
फर्मवरून ईमेल लॉग (मेटा-डेटा आणि पूर्ण मजकूर) | एका संस्थेमध्ये सांस्कृतिक तंदुरुस्त | Srivastava et al. (2017) |
सैद्धांतिक संरचना संकलित करण्यासाठी अपूर्ण डेटाची समस्या सोडवणे कठिण आहे, परंतु इतर सामान्य प्रकारच्या अपूर्णतेचे सामान्य समाधान आहेत: अपूर्ण जनसांख्यिकीय माहिती आणि अन्य प्लॅटफॉर्मवरील वर्तनाबद्दल अपूर्ण माहिती. प्रथम उपाय म्हणजे प्रत्यक्षात आवश्यक डेटा गोळा करणे; अध्याय 3 मध्ये मी तुम्हाला याबद्दल सांगू शकाल. दुसरे मुख्य उपाय हे आहे की डेटा शास्त्रज्ञ जे उपयोजक-गुणधर्माचा अनुमान लावतात आणि सामाजिक शास्त्रज्ञ तेलाचा आरोप करतात . या दृष्टिकोनामध्ये संशोधक इतर लोकांच्या गुणांचे अनुमान लावण्याच्या काही लोकांवर असलेल्या माहितीचा वापर करतात. एक तृतीयांश उपाय म्हणजे एकापेक्षा जास्त डेटा स्रोत एकत्र करणे. या प्रक्रियेला कधीकधी रेकॉर्ड लिंकेज असे म्हणतात. या प्रक्रियेसाठी माझे आवडते रुपकण Dunn (1946) यांनी लिहिलेले होते जे विक्रय लिंकेजवर लिहिलेल्या पहिल्याच पेपरच्या अगदी पहिल्या परिच्छेदात होते:
"जगातील प्रत्येक व्यक्तीने जीवनाचे एक पुस्तक तयार केले आहे. हे पुस्तक जन्मापासून सुरू होते आणि मृत्यू संपते. त्याच्या पृष्ठे जीवन मुख्य घटनांचे रेकॉर्ड बनलेले आहेत रेकॉर्ड लिंकेज ही पुस्तकाच्या पृष्ठांना व्हॉल्यूममध्ये एकत्रित करण्याच्या प्रक्रियेस दिलेले नाव आहे. "
जेव्हा डॅनने लिहिले होते की हा प्रवास तो जीवन जगण्याचा, जन्म, विवाह, घटस्फोट आणि मृत्यू यांसारख्या महत्त्वाच्या जीवन घटनांचा समावेश करून जीवन जगू शकतो अशी कल्पना करत होता. तथापि, आता लोकांबद्दल इतकी माहिती नोंदवली जाते की, जीवनशैली अविश्वसनीयपणे विस्तृत पोट्रेट असू शकते, जर त्या भिन्न पृष्ठे (म्हणजे आमचे डिजिटल ट्रेस) एकत्र बांधले जाऊ शकतात संशोधकांकरिता जीवन या पुस्तकाचे एक उत्तम साधन असू शकते. पण, त्यास (Ohm 2010) विध्वंसचे डेटाबेस म्हटले जाऊ शकते, जे सर्व प्रकारच्या अनैतिक प्रयोजनांसाठी वापरले जाऊ शकते, कारण मी अध्याय 6 (नीतिशास्त्र) मध्ये वर्णन करतो.