कोई फर्क नहीं पड़ता कि आपका बड़ा डेटा कितना बड़ा है, शायद आपके पास वह जानकारी नहीं है जो आप चाहते हैं।
अधिकांश बड़े डेटा स्रोत अपूर्ण हैं , इस अर्थ में कि उनके पास ऐसी जानकारी नहीं है जिसे आप अपने शोध के लिए चाहते हैं। यह डेटा की एक आम विशेषता है जो अनुसंधान के अलावा अन्य उद्देश्यों के लिए बनाई गई थी। कई सामाजिक वैज्ञानिकों को पहले से ही अपूर्णता से निपटने का अनुभव मिला है, जैसे एक मौजूदा सर्वेक्षण जिसने आवश्यक सवाल नहीं पूछा था। दुर्भाग्य से, अपूर्णता की समस्याएं बड़े डेटा में अधिक चरम होती हैं। मेरे अनुभव में, बड़े डेटा में सामाजिक शोध के लिए उपयोगी तीन प्रकार की जानकारी गायब होती है: प्रतिभागियों के बारे में जनसांख्यिकीय जानकारी, अन्य प्लेटफॉर्म पर व्यवहार, और सैद्धांतिक संरचनाओं को क्रियान्वित करने के लिए डेटा।
तीन प्रकार की अपूर्णता में, सैद्धांतिक संरचनाओं को क्रियान्वित करने के लिए अपूर्ण डेटा की समस्या हल करना सबसे मुश्किल है। और मेरे अनुभव में, इसे अक्सर गलती से अनदेखा किया जाता है। असल में, सैद्धांतिक संरचनाएं अमूर्त विचार हैं कि सामाजिक वैज्ञानिक एक सैद्धांतिक निर्माण का अध्ययन और संचालन करने का अर्थ है अवलोकन करने योग्य डेटा के साथ उस निर्माण को पकड़ने के लिए कुछ रास्ता प्रस्तावित करना। दुर्भाग्यवश, यह सरल-ध्वनि प्रक्रिया अक्सर काफी मुश्किल हो जाती है। उदाहरण के लिए, आइए कल्पना करें कि स्पष्ट रूप से सरल दावे का अनुभव करने की कोशिश कर रहे हैं कि जो लोग अधिक बुद्धिमान हैं वे अधिक पैसा कमाते हैं। इस दावे का परीक्षण करने के लिए, आपको "खुफिया" को मापने की आवश्यकता होगी। लेकिन बुद्धि क्या है? Gardner (2011) ने तर्क दिया कि वास्तव में बुद्धिमानी के आठ अलग-अलग रूप हैं। और क्या ऐसी प्रक्रियाएं हैं जो बुद्धिमानी के इन रूपों को सटीक रूप से माप सकती हैं? मनोवैज्ञानिकों द्वारा काम की भारी मात्रा के बावजूद, इन प्रश्नों के पास अभी भी स्पष्ट जवाब नहीं हैं।
इस प्रकार, यहां तक कि एक अपेक्षाकृत सरल दावा-जो लोग अधिक बुद्धिमान होते हैं वे अधिक पैसा कमाते हैं-अनुभवजन्य आकलन करना मुश्किल हो सकता है क्योंकि डेटा में सैद्धांतिक संरचनाओं को कार्यान्वित करना मुश्किल हो सकता है। सैद्धांतिक संरचनाओं के अन्य उदाहरण जो महत्वपूर्ण हैं लेकिन परिचालन में कठिन हैं, उनमें "मानदंड," "सामाजिक पूंजी" और "लोकतंत्र" शामिल हैं। सामाजिक वैज्ञानिक सैद्धांतिक संरचनाओं और डेटा निर्माण वैधता (Cronbach and Meehl 1955) बीच मैच को बुलाते हैं। चूंकि संरचनाओं की इस छोटी सूची से पता चलता है, वैधता का निर्माण एक समस्या है कि सामाजिक वैज्ञानिकों ने बहुत लंबे समय से संघर्ष किया है। लेकिन मेरे अनुभव में, अनुसंधान के उद्देश्यों (Lazer 2015) के लिए बनाए गए डेटा के साथ काम करते समय निर्माण वैधता की समस्याएं और भी अधिक होती हैं।
जब आप एक शोध परिणाम का आकलन कर रहे हैं, तो निर्माण वैधता का आकलन करने के लिए एक त्वरित और उपयोगी तरीका परिणाम लेना है, जिसे आम तौर पर संरचनाओं के संदर्भ में व्यक्त किया जाता है, और उपयोग किए गए डेटा के संदर्भ में इसे फिर से व्यक्त किया जाता है। उदाहरण के लिए, दो काल्पनिक अध्ययनों पर विचार करें जो यह दिखाने का दावा करते हैं कि अधिक बुद्धिमान लोग अधिक पैसा कमाते हैं। पहले अध्ययन में, शोधकर्ता ने पाया कि जो लोग रावेन प्रोग्रेसिव मैट्रिस टेस्ट पर अच्छी तरह से स्कोर करते हैं- विश्लेषणात्मक खुफिया (Carpenter, Just, and Shell 1990) एक अच्छी तरह से अध्ययन किया गया परीक्षण - उनके कर रिटर्न पर उच्च आय दर्ज की गई है। दूसरे अध्ययन में, शोधकर्ता ने पाया कि ट्विटर पर लोग जो लंबे शब्दों का इस्तेमाल करते हैं, वे लक्जरी ब्रांडों का उल्लेख करने की अधिक संभावना रखते हैं। दोनों मामलों में, इन शोधकर्ताओं का दावा है कि उन्होंने दिखाया है कि जो लोग अधिक बुद्धिमान हैं वे अधिक पैसे कमाते हैं। हालांकि, पहले अध्ययन में सैद्धांतिक संरचनाएं डेटा द्वारा अच्छी तरह से परिचालित हैं, जबकि दूसरे में वे नहीं हैं। इसके अलावा, जैसा कि यह उदाहरण दिखाता है, अधिक डेटा स्वचालित रूप से निर्माण वैधता के साथ समस्याओं को हल नहीं करता है। आपको दूसरे अध्ययन के परिणामों पर शक करना चाहिए कि इसमें दस लाख ट्वीट्स, एक बिलियन ट्वीट्स या ट्रिलियन ट्वीट्स शामिल हैं। शोधकर्ताओं के लिए निर्माण वैधता के विचार से परिचित नहीं है, तालिका 2.2 अध्ययनों के कुछ उदाहरण प्रदान करता है जिन्होंने डिजिटल ट्रेस डेटा का उपयोग करके सैद्धांतिक संरचनाओं को परिचालित किया है।
डेटा स्रोत | सैद्धांतिक निर्माण | संदर्भ |
---|---|---|
एक विश्वविद्यालय से ईमेल लॉग (केवल मेटा-डेटा) | सामाजिक रिश्ते | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
वेबो पर सोशल मीडिया पोस्ट | नागरिक अनुबंध | Zhang (2016) |
एक फर्म से ईमेल लॉग (मेटा-डेटा और पूर्ण पाठ) | एक संगठन में सांस्कृतिक फिट | Srivastava et al. (2017) |
यद्यपि सैद्धांतिक संरचनाओं को पकड़ने के लिए अपूर्ण डेटा की समस्या हल करने में काफी मुश्किल है, अन्य सामान्य प्रकार की अपूर्णता के सामान्य समाधान हैं: अपूर्ण जनसांख्यिकीय जानकारी और अन्य प्लेटफार्मों पर व्यवहार पर अपूर्ण जानकारी। पहला समाधान वास्तव में आपको आवश्यक डेटा एकत्र करना है; जब मैं सर्वेक्षण के बारे में आपको बताता हूं तो मैं आपको अध्याय 3 में बता दूंगा। दूसरा मुख्य समाधान यह है कि डेटा वैज्ञानिकों ने उपयोगकर्ता-विशेषता अनुमान और सामाजिक वैज्ञानिकों को अपमान कहते हैं। इस दृष्टिकोण में, शोधकर्ता कुछ लोगों के पास अन्य लोगों के गुणों का अनुमान लगाने के लिए जानकारी का उपयोग करते हैं। एक तीसरा संभावित समाधान कई डेटा स्रोतों को गठबंधन करना है। इस प्रक्रिया को कभी-कभी रिकॉर्ड लिंक कहा जाता है। इस प्रक्रिया के लिए मेरा पसंदीदा रूपक Dunn (1946) ने रिकॉर्ड लिंक पर लिखे गए पहले पेपर के पहले पैराग्राफ में लिखा था:
"दुनिया में प्रत्येक व्यक्ति जीवन की किताब बनाता है। यह पुस्तक जन्म के साथ शुरू होती है और मृत्यु के साथ समाप्त होती है। इसके पृष्ठ जीवन में प्रमुख घटनाओं के रिकॉर्ड से बने हैं। रिकॉर्ड लिंकेज इस पुस्तक के पृष्ठों को वॉल्यूम में इकट्ठा करने की प्रक्रिया को दिया गया नाम है। "
जब डन ने उस मार्ग को लिखा तो वह कल्पना कर रहे थे कि जीवन की पुस्तक में जन्म, शादी, तलाक और मृत्यु जैसे प्रमुख जीवन कार्यक्रम शामिल हो सकते हैं। हालांकि, अब लोगों के बारे में इतनी सारी जानकारी दर्ज की गई है, जीवन की पुस्तक अविश्वसनीय रूप से विस्तृत चित्र हो सकती है, अगर उन अलग-अलग पृष्ठों (यानी, हमारे डिजिटल निशान) को एक साथ बंधे जा सकते हैं। शोधकर्ताओं के लिए जीवन की यह पुस्तक एक महान संसाधन हो सकती है। लेकिन, इसे बर्बाद (Ohm 2010) का डेटाबेस भी कहा जा सकता है, जिसका उपयोग सभी प्रकार के अनैतिक उद्देश्यों के लिए किया जा सकता है, जैसा कि मैं अध्याय 6 (एथिक्स) में वर्णन करूंगा।