2.3.2.1 अंडरग्रेजुएट

कोई फर्क नहीं पड़ता कि कैसे "बड़े" अपने "बिग डाटा" यह शायद इच्छित जानकारी नहीं है।

अधिकांश बड़े डेटा स्रोतों भावना है कि वे जानकारी है कि आप अपने अनुसंधान के लिए चाहते हो जाएगा नहीं है, अधूरे हैं। इस डेटा है कि अनुसंधान के अलावा अन्य प्रयोजनों के लिए बनाया गया था की एक आम सुविधा है। कई सामाजिक वैज्ञानिकों को पहले से ही इस तरह के एक मौजूदा सर्वेक्षण कि सवाल तुम चाहते थे नहीं पूछा था के रूप में, अपूर्णता से निपटने का अनुभव किया है। दुर्भाग्य से, अपूर्णता की समस्याओं को बड़े डेटा में और अधिक उग्र हो जाते हैं। सैद्धांतिक निर्माणों को परिचालित करने जनसांख्यिकी, अन्य प्लेटफार्मों पर व्यवहार, और डेटा: मेरे अनुभव में, बड़ा डेटा सामाजिक अनुसंधान के लिए उपयोगी जानकारी के तीन प्रकार गायब हो जाता है।

अपूर्णता के इन रूपों के सभी तीन Gueorgi Kossinets और डंकन वत्स ने एक अध्ययन में सचित्र हैं (2006) एक विश्वविद्यालय में सामाजिक नेटवर्क के विकास के बारे में। Kossinets और वाट विश्वविद्यालय से ईमेल लॉग, जो जो क्या समय पर जिसे करने के लिए ईमेल भेजा (शोधकर्ताओं ईमेल की सामग्री के लिए उपयोग नहीं किया था) के बारे में सटीक जानकारी थी के साथ शुरू कर दिया। ये ईमेल रिकॉर्ड एक अद्भुत डाटासेट की तरह लग सकता है, लेकिन, वे हैं-के बावजूद उनके आकार और विघटन-मौलिक अधूरा। उदाहरण के लिए, ईमेल लॉग जैसे लिंग और उम्र के रूप में छात्रों के जनसांख्यिकीय विशेषताओं, के बारे में डेटा शामिल नहीं हैं। इसके अलावा, ईमेल लॉग ऐसे फोन कॉल, टेक्स्ट संदेश या सामना करने वाली चेहरा बातचीत के रूप में अन्य मीडिया के माध्यम से संचार के बारे में जानकारी शामिल नहीं हैं। अंत में, ईमेल लॉग सीधे रिश्ते, कई मौजूदा सिद्धांतों में सैद्धांतिक निर्माणों के बारे में जानकारी शामिल नहीं हैं। अध्याय में बाद में, जब मैं अनुसंधान रणनीतियों के बारे में बात करते हैं, आप कैसे Kossinets और वत्स इन समस्याओं को हल कर देखेंगे।

अपूर्णता के तीन प्रकार के सैद्धांतिक निर्माणों को परिचालित करने अधूरा डेटा की समस्या को हल करने के लिए सबसे मुश्किल है, और मेरे अनुभव में, यह अक्सर गलती से डेटा वैज्ञानिकों द्वारा अनदेखी की है। मोटे तौर पर, सैद्धांतिक निर्माणों अमूर्त विचार है कि सामाजिक वैज्ञानिकों का अध्ययन दुर्भाग्य से, इन निर्माणों हमेशा स्पष्ट रूप से परिभाषित नहीं किया जा सकता है और मापा जाता है, लेकिन,। उदाहरण के लिए, अनुभव से जाहिरा तौर पर साधारण का दावा है कि जो लोग अधिक बुद्धिमान होते हैं और अधिक पैसा कमाने के लिए परीक्षण करने के लिए कोशिश कर रहा कल्पना करते हैं। आदेश में इस दावे का परीक्षण करने में आप को मापने के लिए की आवश्यकता होगी "खुफिया।" लेकिन खुफिया क्या है? उदाहरण के लिए, Gardner (2011) का तर्क है कि वहाँ वास्तव में बुद्धि के आठ विभिन्न रूपों। और, वहाँ प्रक्रियाओं है कि सही खुफिया जानकारी के इन रूपों के किसी भी उपाय कर सकता हैं? मनोवैज्ञानिकों द्वारा काम का भारी मात्रा में होने के बावजूद, इन सवालों अभी भी स्पष्ट जवाब नहीं है। इस प्रकार, यह भी एक अपेक्षाकृत सरल दावे-जो लोग अधिक बुद्धिमान होते हैं और अधिक पैसा कमाने-कर सकते हैं क्योंकि यह डेटा में सैद्धांतिक निर्माणों को लागू करने के लिए कठिन हो सकता है अनुभव से आकलन करने के लिए कठिन हो सकता है। सैद्धांतिक निर्माणों कि महत्वपूर्ण है, लेकिन "मानदंडों," "सामाजिक पूंजी," और "लोकतंत्र शामिल परिचालित करने के लिए मेहनत कर रहे हैं के अन्य उदाहरण।" सामाजिक वैज्ञानिकों सैद्धांतिक निर्माणों और डेटा का निर्माण वैधता के बीच मैच फोन (Cronbach and Meehl 1955) । और, निर्माणों की इस सूची से पता चलता है के रूप में, निर्माण वैधता कि सामाजिक वैज्ञानिकों ने एक बहुत लंबे समय के लिए साथ संघर्ष किया है एक समस्या है, तब भी जब वे डेटा है कि अनुसंधान के उद्देश्य के लिए एकत्र किया गया था के साथ काम कर रहे थे। जब अनुसंधान के अलावा अन्य प्रयोजनों के लिए एकत्र आंकड़ों के साथ काम करना, निर्माण वैधता की समस्याओं को और भी चुनौतीपूर्ण हैं (Lazer 2015)

आप एक शोध पत्र पढ़ रहे हैं, जब एक त्वरित और उपयोगी तरीका आकलन करने के लिए निर्माण वैधता के बारे में चिंताओं पत्र है, जो आमतौर पर निर्माणों के मामले में व्यक्त किया जाता है में मुख्य दावा लेने के लिए है, और उपयोग डेटा के संदर्भ में यह फिर से व्यक्त करते हैं। उदाहरण के लिए, दो काल्पनिक अध्ययनों से पता चलता है कि अधिक बुद्धिमान लोगों को और अधिक पैसे कमाने का दावा है कि विचार:

  • अध्ययन 1: जो लोग पर रेवेन प्रगतिशील Matrices टेस्ट एक अच्छी तरह से स्कोर विश्लेषणात्मक बुद्धि का अच्छी तरह से अध्ययन परीक्षण (Carpenter, Just, and Shell 1990) उच्च आय सूचना अपने टैक्स रिटर्न पर -have
  • अध्ययन 2: ट्विटर पर लोग हैं, जो इस्तेमाल किया अब शब्दों और अधिक लक्जरी ब्रांडों का उल्लेख करने की संभावना है

दोनों ही मामलों में, शोधकर्ताओं का दावा है कि वे पता चला है कि अधिक बुद्धिमान लोगों को और अधिक पैसा कमाते हैं। लेकिन, पहले अध्ययन में सैद्धांतिक निर्माणों में अच्छी तरह से डेटा द्वारा प्रचालित कर रहे हैं, और दूसरे में वे नहीं हैं। इसके अलावा, के रूप में इस उदाहरण दिखाता है, और अधिक डेटा स्वचालित रूप से निर्माण की वैधता के साथ समस्याओं का समाधान नहीं है। आप का अध्ययन 2 के परिणामों को संदेह है कि यह एक लाख tweets, एक अरब ट्वीट, या एक खरब ट्वीट शामिल है कि क्या करना चाहिए। शोधकर्ताओं का निर्माण वैधता के विचार से परिचित नहीं के लिए, तालिका 2.2 अध्ययन है कि डिजिटल ट्रेस डेटा का उपयोग कर सैद्धांतिक निर्माणों प्रचालित है के कुछ उदाहरण प्रदान करता है।

तालिका 2.2: डिजिटल निशान है कि अधिक सार सैद्धांतिक अवधारणाओं के उपाय के रूप में इस्तेमाल कर रहे हैं के उदाहरण हैं। सामाजिक वैज्ञानिकों ने इस मैच का निर्माण वैधता फोन और यह सामाजिक अनुसंधान के लिए बड़ा डेटा स्रोतों का उपयोग के साथ एक बड़ी चुनौती है (Lazer 2015)
डिजिटल ट्रेस सैद्धांतिक निर्माण उद्धरण
एक विश्वविद्यालय से ईमेल लॉग (मेटा डेटा केवल) सामाजिक रिश्ते Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Weibo पर सोशल मीडिया पदों नागरिक अनुबंध Zhang (2016)
एक फर्म से ईमेल लॉग (मेटा डेटा और पूरा पाठ) एक संगठन में सांस्कृतिक फिट Goldberg et al. (2015)

हालांकि परिचालन सैद्धांतिक निर्माणों के लिए अधूरा डेटा की समस्या को हल करने के लिए बहुत मुश्किल है, वहाँ अधूरा जनसांख्यिकीय जानकारी और अन्य प्लेटफार्मों पर व्यवहार पर अधूरी जानकारी की समस्या के लिए तीन आम समाधान कर रहे हैं। पहले वास्तव में डेटा की जरूरत है तुम इकट्ठा करने के लिए है; जब मैं तुम्हें सर्वेक्षण के बारे में बता रहा अध्याय 3 में इस बात का एक उदाहरण के बारे में बताता हूँ। दुर्भाग्य से, डेटा संग्रह की इस तरह हमेशा संभव नहीं है। दूसरा मुख्य समाधान क्या डेटा वैज्ञानिकों फोन उपयोगकर्ता के गुण अनुमान है और क्या सामाजिक वैज्ञानिकों फोन इलज़ाम करना है। इस दृष्टिकोण में, शोधकर्ताओं जानकारी वे कुछ लोगों पर है कि उपयोग करने वाले अन्य लोगों की विशेषताओं अनुमान है। तीसरे संभव समाधान-Kossinets और द्वारा इस्तेमाल एक एकाधिक डेटा स्रोतों गठबंधन करने के लिए वत्स-थी। यह प्रक्रिया कभी कभी विलय या रिकार्ड लिंकेज कहा जाता है। इस प्रक्रिया के लिए मेरा पसंदीदा रूपक बहुत पहले कागज कभी रिकॉर्ड लिंकेज पर लिखा की बहुत पहले पैराग्राफ में प्रस्तावित किया गया था (Dunn 1946) :

"दुनिया में प्रत्येक व्यक्ति के जीवन की एक पुस्तक बनाता है। यह पुस्तक जन्म के साथ शुरू होता है और मौत के साथ समाप्त होता है। इसके पन्नों जीवन में सिद्धांत की घटनाओं का रिकॉर्ड बना रहे हैं। रिकार्ड लिंकेज के नाम एक मात्रा में इस पुस्तक के पन्नों कोडांतरण की प्रक्रिया करने के लिए दिया है। "

इस मार्ग 1946 में लिखा गया था, और उस समय, लोग सोच रहे थे कि जीवन की पुस्तक में जन्म, विवाह, तलाक, और मृत्यु जैसे प्रमुख जीवन की घटनाओं शामिल हो सकते हैं। हालांकि, अब यह है कि लोगों के बारे में इतनी जानकारी दर्ज की गई है, जीवन की पुस्तक में एक अविश्वसनीय रूप से विस्तृत चित्र, हो सकता है अगर उन विभिन्न पृष्ठों (यानी, हमारे डिजिटल निशान), एक साथ ही की जा सकती है। जीवन की इस पुस्तक शोधकर्ताओं के लिए एक महान स्रोत हो सकता है। लेकिन, जीवन की पुस्तक में भी बर्बाद की एक डेटाबेस कहा जा सकता है (Ohm 2010) है, जो अनैतिक प्रयोजनों के सभी प्रकार के लिए इस्तेमाल किया जा सकता है, के रूप में जब मैं जानकारी के संवेदनशील प्रकृति के नीचे बड़ा डेटा स्रोतों से एकत्र के बारे में बात नीचे और अधिक वर्णित और अध्याय 6 (आचार) में।