डिजिटल मागोवा आपल्या सर्वेक्षण दुवा साधून सर्व काही वेळा प्रत्येकजण आपल्या प्रश्न विचारून असू शकतात.
नमुना सर्वेक्षण आणि गणना: विचारत साधारणपणे दोन मुख्य वर्ग येतो. आपण लोक एक लहान संख्या प्रवेश जेथे नमुना सर्वेक्षण, लवचिक, वेळेवर, आणि तुलनेने स्वस्त असू शकते. तथापि, नमुना सर्वेक्षण, ते एक नमुना आधारित आहेत, कारण अनेकदा त्यांच्या ठराव मर्यादित आहेत; नमुना सर्वेक्षण, तो विशिष्ट भौगोलिक मांडून किंवा विशिष्ट डेमोग्राफिक गट अंदाजपत्रकास करण्यासाठी अनेकदा कठीण आहे. गणना, इतर, लोकसंख्येतील प्रत्येकजण मुलाखत प्रयत्न. ते महान ठराव आहे, पण ते सहसा महाग लक्ष अरुंद आहेत (त्यांना फक्त प्रश्न एक लहान संख्या समाविष्ट), आणि नाही वेळेवर (ते अशा प्रत्येक 10 वर्षे निश्चित वेळापत्रकानुसार घडू) (Kish 1979) . संशोधक नमुना सर्वेक्षण आणि गणना उत्तम वैशिष्ट्ये एकत्र नाही तर आता कल्पना; संशोधक दररोज प्रत्येकाला प्रत्येक प्रश्न विचारू शकतो तर कल्पना.
अर्थात, हे सतत, सर्वव्यापी, नेहमी या सर्वेक्षणात सामाजिक विज्ञान रम्य एक प्रकारचा आहे. पण, आम्ही अनेक लोक डिजिटल मागोवा लोकांना एक लहान संख्या पासून सर्वेक्षण प्रश्न एकत्र करून या अंदाज करणे सुरू करू शकता असे दिसते. मी कॉल संयोजन हा प्रकार विचारून अभाव. चांगले केले असेल, तर ते आम्हाला (लहान भौगोलिक भागात) अधिक स्थानिक अंदाज, (विशिष्ट डेमोग्राफिक गट) अधिक रवाळ, आणि अधिक वेळेवर उपलब्ध आहे मदत करू शकते.
अभाव विचारून एक उदाहरण म्हणजे यहोशवा Blumenstock, गरीब देशांतील मार्गदर्शक विकास मदत होईल, असे माहिती गोळा होते कोण काम येते. अधिक विशेषतः, Blumenstock एक सर्वेक्षण लवचिकता आणि वारंवारता एक च्या जनगणनेनुसार परिपूर्ती एकत्र संपत्तीमुळे आणि कल्याण मोजण्यासाठी एक प्रणाली तयार करायची होती (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) . खरं तर, मी आधीच Blumenstock काम थोडक्यात Chapter 1 वर्णन केले आहे.
प्रारंभ करण्यासाठी, Blumenstock रवांडा मध्ये सर्वात मोठी मोबाईल प्रदाता भागीदारी केली. कंपनी त्याला अशा प्रारंभ वेळ, कालावधी आणि कॉलर आणि प्राप्तकर्ता च्या भौगोलिक स्थान 2005 आणि 2009 नोंदी प्रत्येक कॉल आणि मजकूर संदेश बद्दल माहिती पासून 1.5 दशलक्ष ग्राहक वर्तन पांघरूण पासून निनावी व्यवहार रेकॉर्ड प्रदान. आम्ही संख्याशास्त्रीय समस्या बोलत सुरू करण्यापूर्वी, तो यासाठी की, हे पहिले पाऊल कठीण एक बाहेर दिशेला वाचतो आहे. Chapter 2 मध्ये वर्णन केल्याप्रमाणे, सर्वात डिजिटल ट्रेस डेटा संशोधक प्रवेश आहे. आणि, अनेक कंपन्या खाजगी असल्यामुळे त्यांच्या डेटा सामायिक करणे justifiably संकोच वाटतो; की त्यांच्या ग्राहकांना कदाचित त्यांचे रेकॉर्ड सामायिक-इन केले जाईल, संशोधक मोठ्या प्रमाणावर-अपेक्षा नाही आहे. या प्रकरणात, संशोधक डेटा निनावी काळजीपूर्वक पावले घेतला आणि त्यांच्या काम तृतीय-पक्ष (म्हणजे, त्यांच्या आयआरबी) द्वारे पहिला होते. पण या प्रयत्नांना न जुमानता, या डेटा कदाचित अजूनही ओळखले आहेत आणि ते शक्यता संवेदनशील माहिती असू (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . मी Chapter 6 या नैतिक प्रश्न परत जाल.
आठवण्याचा Blumenstock संपत्ती आणि कल्याण मोजण्यासाठी रस होता. पण, या अद्वितीय वैशिष्ट्य कॉल रेकॉर्ड थेट नाहीत. दुसऱ्या शब्दांत, या कॉल रेकॉर्ड या संशोधन, डिजिटल मागोवा एक सामान्य वैशिष्ट्य धडा 2. तपशील चर्चा करण्यात आली की, अपूर्ण आहेत, पण ती कॉल रेकॉर्ड कदाचित संपत्ती आणि कल्याण बद्दल काही माहिती आहे की शक्यता दिसते. त्यामुळे, विचारून Blumenstock प्रश्न असू शकते एक मार्ग: त्यांच्या डिजिटल ट्रेस डेटा आधारित कोणीतरी एक सर्वेक्षण प्रतिसाद दिला जाईल कसे भाकित करणे शक्य आहे? असे असल्यास, नंतर काही लोक विचारून आम्ही इतर प्रत्येकासाठी उत्तरे अंदाज करू शकता.
empirically या मुल्यांकन करण्याची, विज्ञान किगाली संस्था आणि तंत्रज्ञान पासून Blumenstock आणि संशोधन सहाय्यकांना एक हजार मोबाइल फोन ग्राहकांना एक नमुना म्हणतात. संशोधक, सहभागी प्रकल्प गोल स्पष्ट कॉल रेकॉर्ड सर्वेक्षण प्रतिसादांचा दुवा त्यांच्या संमती विचारले, आणि नंतर त्यांना आपण एक अशा "म्हणून आपल्या मालकीची आहे, त्यांची संपत्ती आणि कल्याण मोजण्यासाठी प्रश्नांची मालिका विचारले रेडिओ? "आणि" आपण एक सायकल मालक झालात? "(आंशिक यादी आकृती 3.11 पहा). सर्वेक्षण सर्व सहभागी आर्थिक भरपाई होते.
वैशिष्ट्य अभियांत्रिकी पर्यवेक्षण शिक्षण त्यानंतर: पुढील, Blumenstock डेटा विज्ञान सामान्य दोन-ट प्रक्रिया वापरले. प्रथम, वैशिष्ट्य अभियांत्रिकी चरणात, मुलाखत प्रत्येकासाठी, Blumenstock कॉल रेकॉर्ड प्रत्येक व्यक्ती बद्दल वैशिष्ट्ये एक संच मध्ये रुपांतर; डेटा शास्त्रज्ञ या वैशिष्ट्ये म्हणू शकते "वैशिष्ट्ये" आणि सामाजिक शास्त्रज्ञ त्यांना कॉल होईल "चल." उदाहरणार्थ, प्रत्येक व्यक्ती, Blumenstock क्रियाकलाप दिवस एकूण संख्या गणना, व्यक्तीच्या संपर्कात आहे सुस्पष्ट लोकांची संख्या, रक्कम एअरटाईम खर्च, आणि त्यामुळे पैसा. बारकाईने, चांगला वैशिष्ट्य अभियांत्रिकी संशोधन सेटिंग ज्ञान असणे आवश्यक आहे. उदाहरणार्थ, देशांतर्गत आणि आंतरराष्ट्रीय कॉल फरक (आम्ही आंतरराष्ट्रीय कॉल लोक श्रीमंत अपेक्षा शकते) महत्वाचे आहे, तर हे वैशिष्ट्य अभियांत्रिकी टप्प्यावर पूर्ण करणे आवश्यक आहे. रवांडा थोडे समजून संशोधक हे वैशिष्ट्य समाविष्ट करू शकते, आणि नंतर मॉडेल सूचक कामगिरी दु: ख होईल.
पुढे, पर्यवेक्षण शिक्षण चरणात, Blumenstock एक संख्याशास्त्रीय मॉडेल त्यांची वैशिष्ट्ये आधारावर प्रत्येक व्यक्ती सर्वेक्षण प्रतिसाद अंदाज बांधले. या प्रकरणात, Blumenstock 10 पट क्रॉस तपासणी सह गृह पुन्ह वापरले, पण त्याला इतर संख्याशास्त्रीय किंवा मशीन शिक्षण पध्दती विविध उपयोग करू शकला.
हे कसे चांगले नाही? Blumenstock प्रश्नांना सर्वेक्षण उत्तरे अंदाज सक्षम होते "आपण रेडियो आपल्या मालकीची आहे?" आणि "आपण एक सायकल मालकीची आहे?" कॉल रेकॉर्ड साधित केलेली वैशिष्ट्ये वापरून? क्रमवारी. अंदाजाची अचूकता काही अद्वितीय वैशिष्ट्य (आकृती 3.11) उच्च होते. पण, तो एक साधा पर्याय विरुद्ध एक जटिल अंदाज पद्धत तुलना नेहमीच महत्त्वाचा असतो. या प्रकरणात, एक साधा पर्याय अंदाज प्रत्येकाला सर्वात सामान्य उत्तर देईल आहे. उदाहरणार्थ, 97.3% Blumenstock असे भाकीत केले होते तर, जेणेकरून प्रत्येक 97.3%, त्याच्या अधिक जटिल प्रक्रिया (97.6% अचूकता) कामगिरी आश्चर्याची गोष्ट समान आहे, जे अचूकता मिळाली असती एक रेडिओ शहरी अहवाल होईल एक रेडिओ शहरी अहवाल. दुसऱ्या शब्दांत, सर्व फॅन्सी डेटा आणि मॉडेलिंग 97,6% पर्यंत 97.3% वाढली अंदाज अचूकता. तथापि, इतर प्रश्न, जसे साठी "तुम्ही सायकल मालक झालात", अंदाज 54.4% वरून 67.6% पर्यंत सुधारणा झाली. अधिक सामान्यतः, आकृती 3.12 शो काही अद्वितीय वैशिष्ट्य साठी Blumenstock फक्त साधे मूलभूत अंदाज करत पलीकडे जास्त सुधारण्यासाठी नाही, पण त्या इतर अद्वितीय वैशिष्ट्य काही सुधारणा होते.
या टप्प्यावर तुम्ही हे परिणाम थोडा निराशाजनक आहेत, पण फक्त एक वर्ष नंतर, Blumenstock आणि दोन सहकार्यांसह-गब्रीएल Cadamuro आणि रॉबर्ट रोजी प्रकाशित विज्ञान कागद सेवनाने चांगले परिणाम विचार जाऊ शकते (Blumenstock, Cadamuro, and On 2015) . ते अधिक अत्याधुनिक पद्धती वापरली 1) (म्हणजे, अभियांत्रिकी आणि अधिक अत्याधुनिक मशीन लर्निंग मॉडेल वैशिष्ट्य एक नवीन दृष्टीकोन) आणि 2) ऐवजी वैयक्तिक सर्वेक्षण प्रश्न प्रतिसाद अनुमान काढण्यासाठी प्रयत्न (उदा पेक्षा तेथे सुधारणा दोन मुख्य तांत्रिक कारणांमुळे होते "आपण एक रेडिओ आपल्या मालकीची आहे?"), ते संयुक्त संपत्ती निर्देशांक अनुमान काढण्यासाठी प्रयत्न केला.
Blumenstock आणि सहकारी दोन प्रकारे त्यांच्या दृष्टिकोन कामगिरी दाखवून दिले. प्रथम, ते त्यांच्या नमुना लोकांना, ते कॉल रेकॉर्ड (आकृती 3.14) पासून त्यांची संपत्ती भविष्यवाणी एक तेही चांगली नोकरी करू शकतो असे आढळले. दुसरी गोष्ट, कधीही अधिक महत्त्वाचे, Blumenstock आणि सहकारी त्यांच्या प्रक्रिया रवांडा मध्ये संपत्ती भौगोलिक वितरण उच्च दर्जाचे अंदाज उत्पादन करू शकतात की झाली. अधिक विशेषतः, ते कॉल रेकॉर्ड मध्ये 1.5 दशलक्ष लोक संपत्ती अंदाज सुमारे 1000 लोक त्यांच्या नमुना प्रशिक्षण होते जे त्यांच्या मशीन लर्निंग मॉडेल, वापरले. पुढे, कॉल डेटा एम्बेड जियोसॅप्टीअल डेटा (आठवण्याचा कॉल डेटा प्रत्येक कॉल जवळच्या सेल टॉवर स्थान समावेश होतो), संशोधक प्रत्येक व्यक्तीच्या राहण्याचा अंदाजे ठिकाणी अंदाज करणे शक्य झाले. एकत्र या दोन अंदाज टाकल्यावर, संशोधन अत्यंत दंड अवकाशीय ग्रॅन्युलॅरिटिच्या येथे ग्राहक संपत्ती भौगोलिक वितरण अंदाज निर्मिती केली. उदाहरणार्थ, ते रवांडा च्या 2148 पेशी (देशात लहान प्रशासकीय एकक) प्रत्येक सरासरी संपत्ती अंदाज नाही. या अंदाज संपत्ती मूल्ये ते तपासण्यासाठी कठीण होते त्यामुळे रवाळ होते. त्यामुळे, संशोधक रवांडा 30 जिल्ह्यांत सरासरी संपत्ती अंदाज निर्मिती निकाल एकत्रित. या जिल्हास्तरीय अंदाज जोरदार सुवर्ण मानक पारंपारिक सर्वेक्षण पासून अंदाज संबंधित, रवांडा डेमोग्राफिक आणि आरोग्य सर्वेक्षण (आकृती 3.14). दोन स्रोत पासून अंदाज समान झाले असले तरी, Blumenstock आणि सहकाऱ्यांकडील अंदाज 50 वेळा स्वस्त आणि 10 पट वेगाने (खर्च वेरियेबल खर्च दृष्टीने मोजली तेव्हा) होते. खर्च या नाट्यमय कमी दर काही वर्षे म्हणून चालविण्यात येत ऐवजी की लोकसंख्याशास्त्रीय आणि आरोग्य मानक आहे सर्वेक्षण मोठा डिजिटल ट्रेस डेटा एकत्र लहान सर्वेक्षण संकरीत दर महिन्याला चालवा करू शकतो.
शेवटी, Blumenstock सोने-मानक सर्वेक्षण अंदाज तुलना अंदाज निर्मिती डिजिटल शोध काढूण डेटा दृष्टिकोन एकत्र सर्वेक्षण डेटा विचारत अभाव. या विशिष्ट उदाहरण देखील अभाव विचारून आणि पारंपारिक सर्वेक्षण पद्धती दरम्यान ट्रेड-ऑफ काही स्पष्ट. प्रथम, अभाव विचारून अंदाज अधिक वेळेवर, सेवनाने स्वस्त, आणि अधिक रवाळ होते. पण, दुसरीकडे, या वेळी, नाही अभाव विचारून या प्रकारची एक मजबूत सैद्धांतिक आधार आहे. आहे, हे काम आणि जेव्हा तो नाही कराल, तेव्हा हा एक उदाहरण दाखवू शकत नाही. शिवाय, अभाव विचारत दृष्टिकोन अद्याप त्याच्या अंदाज अनिश्चितता मापन करण्याची चांगला मार्ग नाही. तथापि, अभाव विचारत आकडेवारी मॉडेल आधारित पोस्ट साहित्य बियाणे तीन मोठ्या भागात खोल कनेक्शन आहे (Little 1993) , दूषण (Rubin 2004) , आणि लहान क्षेत्र अंदाज (Rao and Molina 2015) -आणि म्हणून मी प्रगती होईल, अशी अपेक्षा जलद होईल.
अभाव विचारून आपल्या विशिष्ट परिस्थिती आखणी करता येते की एक मूलभूत कृती खालीलप्रमाणे. दोन साहित्य आणि दोन पायऱ्या आहेत. दोन साहित्य 1) रुंद पण पातळ (म्हणजे आहे की डिजिटल शोध काढूण डेटासेटच्या आहेत, अनेक लोक पण नाही माहिती आपण प्रत्येक व्यक्तींची गरज आहे) आणि अरुंद पण जाड (म्हणजे आहे 2) एक सर्वेक्षण आहे, तो फक्त काही लोक, पण आपण त्या लोक आवश्यक आहे की माहिती) आहे. नंतर, दोन पावले आहेत. प्रथम, डेटा स्रोत दोन्ही लोक, सर्वेक्षण उत्तरे अंदाज डिजिटल ट्रेस डेटा वापरते हे एक यंत्र आहे लर्निंग मॉडेल तयार. पुढे, डिजिटल ट्रेस डेटा प्रत्येकजण सर्वेक्षण उत्तरे दोषारोप की मशीन लर्निंग मॉडेल वापरा. त्यामुळे, आपण, लोक बरेच विचारू त्यांच्या उत्तर अंदाज वापरले जाऊ शकते त्या लोकांची डिजिटल ट्रेस डेटा शोधणे इच्छिता की काही प्रश्न असेल.
तुलना समस्या Blumenstock च्या पहिल्या आणि दुसर्या प्रयत्न देखील संशोधन सर्वेक्षण आणि तिसर्या कालखंडात पध्दती दुसऱ्या कालखंडात बदलाबद्दल एक महत्त्वाचा धडा स्पष्ट करते: सुरुवातीला शेवट नाही. आहे, अनेक वेळा, प्रथम पध्दत होणार नाही, पण संशोधक काम चालू असेल, तर गोष्टी चांगल्या मिळवू शकता. अधिक सामान्यतः, डिजिटल युगात सामाजिक संशोधन नवीन पध्दती मूल्यांकन करताना, हे महत्त्वाचे आहे, दोन भिन्न मोजमापन करणे आहे: 1) आता हे कसे काम करते कसे चांगले आणि 2) आपण हा डेटा परिदृश्यात भविष्यात कार्य करू शकतील विचार कसे चांगले बदल आणि संशोधक समस्या म्हणून अधिक लक्ष अर्पण. तरी, संशोधक (कसे चांगले संशोधन या विशिष्ट तुकडा आहे) मूल्यमापनासाठी पहिल्या प्रकारची करण्यासाठी प्रशिक्षित आहेत, दुसऱ्या अनेकदा अधिक महत्त्वाचे आहे.