2.3.2.1 अपूर्ण

नाही कसे "मोठा" आपल्या ", मोठे डेटा" तो कदाचित आपण इच्छिता ती माहिती नाही.

मोठे डेटा स्रोत नाहीत आणि आपण आपल्या संशोधन इच्छित असेल की माहिती नाही अर्थाने, अपूर्ण आहे. हे संशोधन पेक्षा इतर कारणांसाठी तयार केले होते की डेटा एक सामान्य वैशिष्ट्य आहे. अनेक सामाजिक शास्त्रज्ञ आधीच अशा आपल्याला पाहिजे प्रश्न विचारले नाही अस्तित्वातील सर्वेक्षण म्हणून, अपुरेपणा वागण्याचा अनुभव आला आहे. दुर्दैवाने, अपुरेपणा समस्या मोठे डेटा अधिक अत्यंत असू मानू लागले. सैद्धांतिक बांधकाम operationalize इतर प्लॅटफॉर्मवर वर्तन लोकसंख्याशास्त्र, आणि डेटा: माझे अनुभव, मोठे डेटा सामाजिक संशोधन उपयुक्त माहिती या तीन प्रकारच्या गहाळ जाऊ लागतं.

अपुरेपणा या फॉर्म सर्व तीन Gueorgi Kossinets आणि डंकन वॅट्स यांनी अभ्यास विलेलेआहेत (2006) सामाजिक नेटवर्क उत्क्रांती एक विद्यापीठ येथे बद्दल. Kossinets आणि वॉट्स काय वेळी ज्यांना ईमेल पाठविले (संशोधक ईमेल सामग्री प्रवेश नाही) बद्दल तंतोतंत माहिती होते विद्यापीठ ईमेल नोंदी, सुरुवात केली. या ईमेल रेकॉर्ड एक आश्चर्यकारक डेटासेटच्या सारखे ध्वनी, पण, ते-असूनही त्यांच्या आकार ग्रॅन्युलॅरिटीच्या-मूलतः अपूर्ण. उदाहरणार्थ, ई-मेल नोंदी जसे की लिंग आणि वय विद्यार्थी डेमोग्राफिक वैशिष्ट्ये डेटा समाविष्ट करू नका. शिवाय, ई-मेल नोंदी इतर मीडिया, अशा फोन कॉल, मजकूर संदेश, किंवा फेस-टू-फेस संभाषणे म्हणून संपर्क साधून माहिती समाविष्ट करू नका. शेवटी, ई-मेल नोंदी थेट संबंध, अनेक विद्यमान सिद्धांत मध्ये सैद्धांतिक बांधकाम माहिती समाविष्ट करू नका. नंतर प्रकरण, मी संशोधन धोरण चर्चा करताना, आपण Kossinets आणि वॉट्स या समस्या निराकरण कसे दिसेल.

अपुरेपणा तीन प्रकारच्या सैद्धांतिक बांधकाम operationalize अपूर्ण डेटा समस्या सोडविण्यास कठीणही आहे, आणि माझ्या अनुभवानुसार, तो अनेकदा चुकून डेटा शास्त्रज्ञ धरला आहे. अंदाजे, सैद्धांतिक बांधकाम सामाजिक शास्त्रज्ञ अभ्यास गोषवारा कल्पना दुर्दैवाने, या बांधकाम नेहमी unambiguously परिभाषित केले जाऊ आणि मोजमाप करू शकत नाही आहेत, पण. उदाहरणार्थ, empirically अधिक बुद्धिमान लोक अधिक पैसे कमवा वरवर पाहता सोपे दावा चाचणी करण्यासाठी प्रयत्न कल्पना द्या. हा हक्क चाचणी करण्यासाठी आपण मोजू लागेल "बुद्धीमत्ता." पण, गुप्तचर काय आहे? उदाहरणार्थ, Gardner (2011) बुद्धिमत्ता आठ विविध फॉर्म खरंतर असा युक्तिवाद केला. आणि, अचूक बुद्धिमत्ता या फॉर्म कोणत्याही मोजण्यासाठी शकते की तेथे प्रक्रीया आहेत? मानसशास्त्रज्ञ काम प्रचंड प्रमाणात असूनही, या प्रश्नांची अजूनही थेट उत्तरे नाही. त्यामुळे अगदी अधिक बुद्धिमान आहेत एक तुलनेने सोपे हक्क-लोक कमवा अधिक पैसे-करू शकता डेटा सैद्धांतिक बांधकाम operationalize कठीण असू शकते कारण empirically मुल्यांकन करणे कठीण असू. महत्त्वाचे पण "नियम," "सामाजिक भांडवल," आणि "लोकशाही समावेश operationalize अवघड आहेत की सैद्धांतिक बांधकाम इतर उदाहरणे." सामाजिक शास्त्रज्ञ सैद्धांतिक बांधकाम आणि डेटा बांधकाम वैधता यांच्यात सामना कॉल (Cronbach and Meehl 1955) . आणि बांधकाम ही यादी सूचित म्हणून, कायदेशीर मान्यता एक समस्या आहे सामाजिक शास्त्रज्ञ एक खूप वेळ कधी कठीण आहे की, ते संशोधन हेतूने गोळा होते डेटा काम करताना अगदी झाले बांधकाम. संशोधन पेक्षा इतर कारणांसाठी गोळा डेटा कार्य करताना, बांधकाम वैधता समस्या आणखी अधिक आव्हानात्मक आहेत (Lazer 2015) .

आपण एक संशोधन पेपर वाचत आहेत, तेव्हा, मुल्यांकन एका द्रुत आणि उपयुक्त मार्ग बांधकाम वैधता बद्दल चिंता सहसा बांधकाम दृष्टीने व्यक्त आहे कागद, मुख्य दावा घेणे आहे, आणि वापरले डेटा दृष्टीने तो पुन्हा व्यक्त. उदाहरणार्थ, अधिक बुद्धिमान लोक अधिक पैसे कमवा, हे दाखवण्यासाठी दावा आहे की, दोन काल्पनिक अभ्यास विचार:

  • अभ्यास 1: वैश्लेषिक बुद्धिमत्ता एक कसोटी चांगले अभ्यास चाचणी काळाकुटट् पुरोगामी मॅइट्रीक्स तसेच धावा लोक (Carpenter, Just, and Shell 1990) उच्च अहवाल उत्पन्न कर परतावा वर -have
  • अभ्यास 2: वापरले कोण यापुढे शब्द लक्झरी ब्रँड उल्लेख होण्याची अधिक शक्यता असते Twitter वर लोक

दोन्ही घटनांमध्ये, संशोधक अधिक बुद्धिमान लोक अधिक पैसे कमवा की दर्शविले आहेत ठासून सांगत नाही. परंतु, अभ्यासात सैद्धांतिक बांधकाम तसेच डेटा सुरु आहेत, आणि दुसरा ते नाहीत. पुढे, हे उदाहरण स्पष्ट म्हणून, अधिक डेटा आपोआप बांधकाम वैधता समस्यांचे निराकरण नाही. तो एक दशलक्ष ट्वीट, एक अब्ज ट्वीट, किंवा एक लाख कोटी ट्वीट सहभागी की नाही हे आपण अभ्यास 2 परिणाम शंका पाहिजे. बांधकाम वैधता कल्पना नव्हत्या संशोधक तक्ता 2.2 डिजिटल ट्रेस डेटा वापरून सैद्धांतिक बांधकाम सुरु आहे की अभ्यास काही उदाहरणे उपलब्ध आहे.

तक्ता 2.2 अमूर्त सैद्धांतिक संकल्पना उपाय म्हणून वापरले जातात की डिजिटल मागोवा उदाहरणे. सामाजिक शास्त्रज्ञ या सामन्यात बांधकाम वैधता कॉल आणि सामाजिक संशोधन मोठे डेटा स्त्रोत वापरून हे एक मोठे आव्हान आहे (Lazer 2015) .
डिजिटल शोध काढूण सैद्धांतिक बांधकाम उतारा
विद्यापीठातून ईमेल लॉग (फक्त मेटा-डाटा) सामाजिक संबंध Kossinets and Watts (2006) , Kossinets and Watts (2009) , De Choudhury et al. (2010)
Weibo वर सामाजिक मीडिया पोस्ट नागरी सहभाग Zhang (2016)
एक टणक ईमेल लॉग (मेटा-डाटा आणि पूर्ण मजकूर) एखाद्या संस्थेत सांस्कृतिक तंदुरुस्त Goldberg et al. (2015)

operationalizing सैद्धांतिक बांधकाम अपूर्ण डेटा समस्येचे निराकरण करणे खूपच कठिण आहे, तरी अपूर्ण लोकसंख्याशास्त्रीय माहिती आणि इतर प्लॅटफॉर्मवर वर्तन अपूर्ण माहिती समस्या तीन सामान्य उपाय आहेत. पहिल्या प्रत्यक्षात आपल्याला आवश्यक माहिती गोळा करण्यासाठी आहे; मी सर्वेक्षण सांगू तेव्हा मी 3 ऱ्या अध्यायात की एक उदाहरण सांगू शकाल. दुर्दैवाने, डेटा संकलन या प्रकारची नेहमी शक्य नाही. दुसरा मुख्य उपाय डेटा शास्त्रज्ञ वापरकर्ता-गुणधर्म तर्क कोणत्या सामाजिक शास्त्रज्ञ ठपका कॉल कॉल काय आहे. हा दृष्टिकोन, संशोधक इतर लोक गुणधर्म अनुमान ते काही लोक आहेत ती माहिती वापरतो. अनेक डेटा स्रोत एकत्र तिसऱ्या शक्य उपाय-Kossinets आणि द्वारे वापरले एक वॅट्स होती. ही प्रक्रिया कधी कधी एकत्र करणे किंवा रेकॉर्ड संबंध म्हणतात. ही प्रक्रिया माझ्या आवडत्या रूपकाच्या कधीही रेकॉर्ड संबंध लिहिले फार पहिला पेपर अत्यंत पहिला परिच्छेद मध्ये प्रस्तावित होते (Dunn 1946) :

"जगातील प्रत्येक व्यक्ती लाइफ एक पुस्तक तयार. हे पुस्तक जन्म सुरू होते आणि मृत्यू संपत आहे. त्याची पाने जीवन तत्त्व घटना रेकॉर्ड केले जातात. रेकॉर्ड संबंध नाव वॉल्यूम मध्ये या पुस्तकातील पाने एकत्र प्रक्रिया दिलेले आहे. "

हा रस्ता 1946 मध्ये लिहिले होते, आणि त्या वेळी लोक, जीवनाच्या पुस्तकात जन्म, लग्न, घटस्फोट, आणि मृत्यू यांसारख्या लाइफ घटना समाविष्ट होऊ शकते की विचार करीत होतो. तथापि, आता लोक बद्दल खूप माहिती रेकॉर्ड आहे की, जीवनाच्या पुस्तकात एक आश्चर्यजनक तपशीलवार पोर्ट्रेट, त्या विविध लेख (म्हणजेच, आमच्या डिजिटल मागोवा), एकत्र बांधून असेल तर असू शकते. लाइफ हे पुस्तक संशोधक एक चांगला स्त्रोत असू शकते. पण, जीवनाच्या पुस्तकात देखील नाश एक डेटाबेस म्हटले जाऊ शकते (Ohm 2010) , जे अनैतिक हेतूने सर्व प्रकारच्या वापरले जाऊ शकते, खाली मी खाली मोठे डेटा स्रोत गोळा माहिती संवेदनशील निसर्ग चर्चा करताना अधिक वर्णन आणि Chapter 6 (एथिक्स) मध्ये.