कुनै पनि कुरामा तपाईको ठूलो डाटा कति ठूलो छ, यो सम्भवतः तपाईंले चाहानु भएको जानकारी छैन।
धेरै ठूला डेटा स्रोतहरू अपूर्ण छन् , अर्थमा तिनीहरूको जानकारी छैन जुन तपाईं आफ्नो अनुसन्धानको लागि चाहानुहुन्छ। यो डेटा को एक सामान्य विशेषता हो जुन अनुसन्धान भन्दा अन्य उद्देश्यका लागि सिर्जना गरिएको थियो। धेरै सामाजिक वैज्ञानिकहरूसँग पहिले नै अपूर्णता संग व्यवहार गर्ने अनुभव भएको छ, जस्तै एउटा अवस्थित सर्वेक्षण जसले आवश्यक पर्ने प्रश्न सोध्दैन। दुर्भाग्यवश, अपूर्णताका समस्याहरू ठूलो डेटामा अधिक चरम हुन्छन्। मेरो अनुभवमा, ठूलो डेटा सामाजिक अनुसन्धानको लागि उपयोगी तीन प्रकारका जानकारीहरू हराइरहेको हुनुपर्छ: सहभागीहरूको बारेमा जनसांख्यिकीय जानकारी, अन्य प्लेटफर्मका व्यवहार र डेटा सैद्धांतिक निर्माण सञ्चालन गर्न।
तीन प्रकारको अपूर्णता, सैद्धान्तिक निर्माणहरू सञ्चालन गर्न अपूर्ण डेटाको समस्या समाधान गर्नको लागि सजिलो हो। र मेरो अनुभवमा, अक्सर प्रायः अनदेखी गरिन्छ। प्रायः, सैद्धांतिक निर्माण सार संक्षेपहरू हुन् जसले सोशल वैज्ञानिकहरूले सैद्धांतिक निर्माण अध्ययन र परिचालन गर्दै भनेको अवलोकन योग्य डेटाको साथ निर्माण गर्न केही उपाय प्रस्तावित गर्दछन्। दुर्भाग्यवश, यो सरल ध्वनि प्रक्रिया अक्सर बाहिर जान्छ एकदम गाह्रो हुन्छ। उदाहरणका लागि, चम्किलो कल्पना गर्न को लागी कल्पना गर्न सरल तरिकाले साधारण दावी गर्न को लागी कल्पना गर्नुहोस् कि अधिक बुद्धिमान व्यक्तिहरूले अधिक पैसा कमाउँछन्। यो दावी परीक्षण गर्नको लागि, तपाईंलाई "खुफिया" मापन गर्न आवश्यक पर्दछ तर बुद्धि के हो? Gardner (2011) तर्क गरेको छ कि त्यहाँ वास्तवमा आठ विभिन्न प्रकारका बुद्धिहरू छन्। अनि त्यहाँ प्रक्रियाहरू छन् जुन सही तरिकाले यी कुनै प्रकारका खुफियाहरू उपाय गर्न सक्दछन्? मनोवैज्ञानिकहरु द्वारा काम को भारी मात्रा को बावजूद, यी प्रश्नहरु लाई अझै पनि अस्पष्ट उत्तर छैन।
यसैले, एक अपेक्षाकृत सरल दाबी पनि - अधिक बुद्धिमानी व्यक्तिहरू अधिक पैसा कमाउँछन् - अनुभवको आकलन गर्न गाह्रो हुन सक्छ किनभने यो डेटामा सैद्धान्तिक निर्माण परिचालन गर्न गाह्रो हुन सक्छ। सैद्धान्तिक निर्माणका अन्य उदाहरणहरू महत्त्वपूर्ण तर परिचालनमा कडा परिश्रममा समावेश छन् "मानदण्डहरू," "सामाजिक राजधानी," र "लोकतान्त्रिक"। सामाजिक वैज्ञानिकहरूले सैद्धांतिक निर्माण र डेटा निर्माणको वैधता (Cronbach and Meehl 1955) बीचको कललाई बोलाउँछन्। निर्माणको यो छोटो सूचीले सुझाव दिन्छ कि वैधता कायम एउटा समस्या हो जसले सामाजिक वैज्ञानिकहरूले धेरै लामो समय संघर्षको साथ संघर्ष गरेका छन्। तर मेरो अनुभवमा, वैधता निर्माणको समस्या अझ बढी हुन्छ जब रिसर्चको उद्देश्यका लागि सिर्जना गरिएको डेटा सँग काम गर्दा (Lazer 2015) ।
जब तपाईं अनुसन्धान परिणामको मूल्यांकन गर्दै हुनुहुन्छ, वैधता निर्माण गर्न एक द्रुत र उपयोगी तरीका परिणाम लिनको लागी, जुन सामान्यतया निर्माणको सर्तमा व्यक्त गरिन्छ, र प्रयोग गरिएको डेटाको सन्दर्भमा पुन: व्यक्त गर्दछ। उदाहरणका लागि, दुई सम्भावनात्मक अध्ययनहरू विचार गर्नुहोस् जुन देखाउने दावी छ कि मानिसहरू जो अधिक बुद्धिमानी अधिक पैसा कमाउँछन्। पहिलो अध्ययनमा, शोधकर्ताले पत्ता लगाए कि रेवन प्रोग्रेसिभ मैट्रिक्स परीक्षणमा राम्रो स्कोर गर्ने व्यक्ति-विश्लेषणात्मक बुद्धि (Carpenter, Just, and Shell 1990) एक राम्रो अध्ययन गरिएको परीक्षण - उनीहरूको कर रिटर्नमा उच्च रिपोर्ट आय। दोस्रो अध्ययनमा, शोधकर्ताले पाएको छ कि थोरै शब्दहरू प्रयोग गर्ने व्यक्तिहरूमा चहचहाना व्यक्तिहरूले लक्जरी ब्रान्डहरू उल्लेख गर्ने सम्भावना बढी छन्। दुवै अवस्थामा, यी शोधकर्ताहरूले दावी गर्न सक्थे कि तिनीहरूले देखेका छन् कि अधिक बुद्धिमानी व्यक्तिहरूले धेरै पैसा कमाउँछन्। यद्यपि, पहिलो अध्ययनमा सैद्धांतिक निर्माणहरू डाटाद्वारा राम्ररी सञ्चालन गरिन्छ, र दोस्रोमा तिनीहरू छैनन्। यसबाहेक, यो उदाहरणले बताउँछ, अधिक डेटा स्वचालित रूपमा निर्माण वैधता संग समस्याहरू समाधान गर्दैन। तपाईले दोस्रो अध्ययनको नतिजामा शंका गर्नुपर्दछ कि यसमा एक लाख ट्वीट्स, एक अरब ट्वीट्स, वा ट्रिलियन टाईमहरू समावेश छ कि छैन। वैधता निर्माण को विचार देखि परिचित नहीं शोधकर्ताहरु को लागि, तालिका 2.2 डिजिटल ट्रेस डेटा को उपयोग गरेर सैद्धांतिक निर्माण को संचालन को अध्ययन को केहि उदाहरणहरु प्रदान गर्दछ।
डाटा स्रोत | सैद्धान्तिक निर्माण | सन्दर्भहरू |
---|---|---|
विश्वविद्यालयबाट इमेल लगहरू (मेटा-डेटा मात्र) | सामाजिक सम्बन्ध | Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010) |
Weibo मा सामाजिक मिडिया पोष्टहरू | नागरिक सगाई | Zhang (2016) |
फर्मबाट इमेल लगहरू (मेटा डेटा र पूर्ण पाठ) | एक संगठनमा सांस्कृतिक फिट | Srivastava et al. (2017) |
यद्यपि सैद्धांतिक निर्माणहरू कब्जा गर्नको लागि अधूरो डेटाको समस्या समाधान गर्न गाह्रो छ, त्यहाँ अन्य साधारण प्रकारहरू असामान्य कारणहरू छन्: असामान्य जनसांख्यिकीय जानकारी र अन्य प्लेटफर्महरूमा व्यवहारमा अपूर्ण जानकारी। पहिलो समाधान तपाई वास्तवमा आवश्यक डेटा एकत्र गर्न हो; म तपाईंलाई अध्याय 3 मा बारेमा बताउनेछु जब म तपाईंलाई सर्वेक्षणको बारेमा भन्छु। दोस्रो मुख्य समाधान के गर्न वैज्ञानिकहरूले कुन प्रयोगकर्ता-विशेषता आविष्कार गर्छन् र सोशल वैज्ञानिकहरूले प्रतिबन्ध लगाउँछन् । यस दृष्टिकोणमा, शोधकर्ताहरु लाई जानकारी को उपयोग गर्दछ जुन केहि मान्छेहरु मा अन्य मान्छे को विशेषताहरु लाई कम गर्न को लागी। तेस्रो सम्भावना समाधान धेरै डाटा स्रोतहरू संयोजन गर्न हो। यस प्रक्रियाले कहिलेकाहीँ रेकर्ड लिङ्क भनिन्छ। यस प्रक्रियाको लागि मेरो मनपर्ने अपोफर Dunn (1946) द्वारा लेखिएको थियो जुन पहिलो पत्रको पहिलो अनुच्छेदमा कहिल्यै रेकर्ड गरिएको लिङ्कमा लिखित छ:
"संसारमा प्रत्येक व्यक्तिले जीवनको पुस्तक बनाउँछ। यो पुस्तक जन्मको साथ सुरु हुन्छ र मृत्युको साथ समाप्त हुन्छ। यसको पृष्ठहरू जीवनका प्रमुख घटनाहरूको रेकर्डबाट बनेको छ। लिङ्क रेकर्ड यस पुस्तकको पृष्ठहरूलाई भोल्युममा एकत्रित गर्ने प्रक्रियामा नाम दिइएको छ। "
जब डनले उक्त लेख लेखे कि उनले कल्पना गरेका थिए कि पुस्तकको जीवनले जन्म, विवाह, तलाक, र मृत्यु जस्ता प्रमुख जीवन घटनाहरू समावेश गर्न सक्दछ। तथापि, अब मानिसहरूको बारेमा धेरै जानकारी रेकर्ड गरिएको छ, पुस्तकको जीवन एक अविश्वसनीय विस्तृत चित्र हुन सक्छ, यदि ती फरक पृष्ठहरू (यानि, हाम्रो डिजिटल निशानहरू) सँगसँगै राख्न सकिन्छ। यस पुस्तक को जीवन शोधकर्ताहरु को लागि एक महान संसाधन हुन सक्छ। तर, यो बर्बादको डेटाबेस (Ohm 2010) पनि भनिन्छ, जुन सबै प्रकारको अनैतिक उद्देश्यका लागि प्रयोग गर्न सकिन्छ, जस्तै कि म अध्याय 6 (एथिक्स) मा वर्णन गर्नेछु।