डिजिटल निशान आफ्नो सर्वेक्षण लिङ्क सबै कहिलेकाहीं सबैलाई आफ्नो प्रश्न जस्तै हुन सक्छ।
नमूना सर्वेक्षण र censuses: सोधेर सामान्यतया दुई मुख्य विभाग आउँछ। जहाँ तपाईं मान्छे को एउटा सानो नम्बर पहुँच नमूना सर्वेक्षण,, लचिलो समसामयिक र अपेक्षाकृत सस्तो हुन सक्छ। तर, नमूना सर्वेक्षण, तिनीहरूले नमूनामा आधारित छन् किनभने, अक्सर आफ्नो संकल्प मा सीमित छन्; एक नमूना सर्वेक्षण संग, यो विशिष्ट भौगोलिक क्षेत्रहरु बारेमा वा विशिष्ट डेमोग्राफिक समूहहरूको लागि अनुमान गर्न अक्सर गाह्रो हुन्छ। Censuses, अन्य मा, जनसंख्या सबैलाई साक्षात्कार गर्ने प्रयास। तिनीहरूले ठूलो संकल्प छ, तर तिनीहरूले सामान्यतया, महंगी ध्यान मा साँघुरो छन् (ती प्रश्न मात्र एउटा सानो संख्या समावेश), र समसामयिक (तिनीहरूले त्यस्ता प्रत्येक 10 वर्ष रूपमा, एक निश्चित समय तालिका मा हुन) (Kish 1979) । अनुसन्धानकर्ताहरूले नमूना सर्वेक्षण र censuses को सबै भन्दा राम्रो विशेषताहरु संयोजन गर्न सक्छ भने अब कल्पना; अनुसन्धानकर्ताहरूले हरेक दिन सबैलाई हरेक प्रश्न सोध्न सक्छ भने कल्पना गर्नुहोस्।
प्रस्ट छ, यो नित्य, हर एक ठाँउ, सधैं-सर्वेक्षण सामाजिक विज्ञान कल्पना एक प्रकारको छ। तर, यो हामी धेरै मान्छे देखि डिजिटल निशान संग मान्छे को एक सानो संख्या सर्वेक्षण प्रश्नहरू संयोजन गरेर यो लगभग गर्न शुरू गर्न सक्छन् कि जस्तो देखिन्छ। म संयोजन यस प्रकारको सोधेर परिलक्षित कल। राम्रो काम भने, यसले हामीलाई अनुमान थप स्थानीय (सानो भौगोलिक क्षेत्रमा लागि) हो कि, अधिक दानेदार (विशिष्ट डेमोग्राफिक समूहहरूको लागि), र थप समय सुहाउँदो प्रदान मदत गर्न सक्छ।
परिलक्षित सोधेर को एउटा उदाहरण यहोशू Blumenstock, गरिब देशहरूमा मदत गर्ने पुस्तिका विकास डाटा संकलन गर्न चाहन्थे जो काम आउँछ। अधिक विशेष Blumenstock धन र राम्रो-हुनुको सर्वेक्षण को लचकता र आवृत्ति संग जनगणना को पूर्णता संयुक्त कि मापन गर्न एक प्रणाली सिर्जना गर्न चाहन्थे (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) । वास्तवमा, मैले पहिले देखि नै Blumenstock काम छोटकरीमा अध्याय 1 मा वर्णन गरिएको छ।
सुरु गर्न, Blumenstock रवान्डा मा सबै भन्दा ठूलो मोबाइल फोन प्रदायक साथ सहयोगी। कम्पनी उहाँलाई anonymized कारोबार रेकर्ड जस्तै सुरू समय, अवधि, र कलर र रिसिभर को अनुमानित भौगोलिक स्थान रूपमा 2005 र 2009. को लग समावेश प्रत्येक कल र पाठ सन्देश बारे जानकारी देखि व्यवहार कवर बारेमा 1.5 करोड ग्राहकहरु प्रदान। हामी तथ्याङ्क मुद्दाहरू कुरा सुरु गर्नु अघि, यसलाई देखाउने यो पहिलो चरण मुश्किल हुन सक्छ कि लायक छ। अध्याय 2 मा वर्णन रूपमा, सबै भन्दा डिजिटल ट्रेस डेटा अनुसन्धानकर्ताहरूले गर्न दुर्गम छ। र, धेरै कम्पनीहरु यो निजी छ किनभने आफ्नो डाटा साझेदारी गर्न न्यायोचित आनाकानी छन्; कि आफ्नो ग्राहकहरु शायद उनको रेकर्ड साझेदारी-मा गर्नेछन् अनुसन्धानकर्ताहरूले थोक-संग आशा गर्नुभएन छ। यस अवस्थामा, शोधकर्ताओं डाटा एनोनिमाईज होसियार कदम लिएर आफ्नो काम तेस्रो-पक्ष (अर्थात्, आफ्नो आईआरबी) द्वारा overseen थियो। तर, यी प्रयास भए तापनि, यी डाटा शायद अझै पनि पहिचान हो र तिनीहरूले संभावना संवेदनशील जानकारी (Mayer, Mutchler, and Mitchell 2016; Landau 2016) । म अध्याय 6 मा यी नैतिक प्रश्न फर्कन छौँ।
Blumenstock धन र राम्रो-अस्तित्व नाप्ने रुचि थियो कि सम्झना। तर, यी गुण छैन कल रेकर्ड मा सीधा छन्। अर्को शब्दमा, यी कल रेकर्ड यो अनुसन्धान, अध्याय 2 मा विस्तृत छलफल भएको थियो डिजिटल निशान को एक साधारण सुविधा लागि अपूर्ण छन् तर, यो कल रेकर्ड शायद धन र राम्रो-बारेमा केही जानकारी छ कि संभावना देखिन्छ। त्यसैले, Blumenstock गरेको प्रश्न हुन सक्छ सोधेर एक तरिका: कसैले आफ्नो डिजिटल ट्रेस डेटा आधारित एउटा सर्वेक्षण प्रतिक्रिया कसरी भविष्यवाणी गर्न सम्भव छ? त केही मानिसहरू सोधेर हामी अरू सबैको जवाफ अनुमान गर्न सक्नुहुन्छ।
यो empirically आकलन गर्न, विज्ञान को किगाली संस्थान र प्रौद्योगिकी देखि Blumenstock र अनुसन्धान सहायक बारेमा एक हजार मोबाइल फोन ग्राहकहरु को एक नमूना भनिन्छ। शोधकर्ताओं, सहभागीको गर्न परियोजनाको लक्ष्य बताउनुभयो कल रेकर्ड गर्न सर्वेक्षण प्रतिक्रियाहरू लिङ्क गर्न आफ्नो सहमति मागे, र त्यसपछि तिनीहरूलाई तपाईं एक स्वामित्व जस्तै ", आफ्नो धन र राम्रो-अस्तित्व मापन गर्न प्रश्नहरु को एक श्रृंखला आग्रह रेडियो? "र" तपाईं एक साइकल स्वामित्व छ? "(आंशिक सूची लागि 3.11 लिनुहोस् हेर्नुहोस्)। सर्वेक्षण मा सबै सहभागीहरू आर्थिक क्षतिपूर्ति थिए।
सुविधा ईन्जिनियरिङ् निरीक्षण सिकेर पछि: अर्को, Blumenstock एक दुई चरण प्रक्रिया डाटा विज्ञान मा साधारण प्रयोग। पहिलो, सुविधा ईन्जिनियरिङ् चरण मा, अन्तरवार्ता थियो सबैका लागि, Blumenstock कल रेकर्ड प्रत्येक व्यक्तिको बारेमा रूपको एक सेट मा परिवर्तित; डाटा वैज्ञानिकहरू यी विशेषताहरु प्रत्येक व्यक्ति को लागि, उदाहरणका लागि "" विशेषताहरु कल र सामाजिक वैज्ञानिकहरूले तिनीहरूलाई कल सक्छ "चर।", Blumenstock गतिविधि संग दिन को कुल संख्या गणना, भिन्न संख्या एक व्यक्ति संग सम्पर्क भएको छ, रकम पैसा को यति मा airtime मा खर्च, र। Critically, राम्रो सुविधा ईन्जिनियरिङ् अनुसन्धान सेटिङ ज्ञान आवश्यक छ। उदाहरणका लागि, यसले घरेलू र अन्तर्राष्ट्रीय कल बीच (हामी अन्तर्राष्ट्रीय कल गर्ने मान्छे wealthier हुन आशा सक्छ) भेद महत्त्वपूर्ण छ भने, त्यसपछि यो सुविधा ईन्जिनियरिङ् चरण मा गर्नै पर्छ। रवान्डा को सानो समझ संग एक शोधकर्ता यो सुविधा समावेश हुन सक्छ, र त्यसपछि मोडेल को भविष्यवाणी प्रदर्शन भोग्नेछन्।
अर्को, निर्देशित सिक्ने चरणमा, Blumenstock एक तथ्याङ्क मोडेल आफ्नो सुविधाहरु आधारित प्रत्येक व्यक्ति को लागि सर्वेक्षण प्रतिक्रिया भविष्यवाणी गर्न बनाए। यस अवस्थामा, Blumenstock 10-गुना क्रस-मान्यता संग रसद प्रतिगमनमा प्रयोग, तर उहाँले अन्य तथ्याङ्क वा मिसिन सिक्ने दृष्टिकोण विभिन्न प्रयोग गर्न सक्थ्यो।
त्यसैले यसलाई कसरी राम्रो काम गरे? कल रेकर्ड देखि व्युत्पन्न सुविधाहरू प्रयोग "तपाईं एक रेडियो स्वामित्व गर्नुहुन्छ?" र जस्तै प्रश्नहरू सर्वेक्षण जवाफ भविष्यवाणी गर्न सक्षम Blumenstock थियो "तपाईं एक साइकल नै?"? सर्ट को। यस भविष्यवाणीको सटीकता केही गुण (चित्रा 3.11) को लागि उच्च थिए। तर, यो एक सरल वैकल्पिक विरुद्ध एक जटिल भविष्यवाणी विधि तुलना गर्न सधैं महत्त्वपूर्ण छ। यस अवस्थामा, एक सरल वैकल्पिक सबैले भन्दा साधारण जवाफ दिनेछु भनेर भविष्यवाणी गर्ने छ। उदाहरणका लागि, 97.3% Blumenstock सबैलाई उहाँले आफ्नो थप जटिल प्रक्रिया (97.6% शुद्धता) को प्रदर्शन गर्न आश्चर्यजनक यस्तै छ 97.3%, को एक सटीकता हुनेथियो एक रेडियो owning रिपोर्ट भनेर भविष्यवाणी गरेका थिए भने त एक रेडियो owning रिपोर्ट। अर्को शब्दमा, सबै फैंसी डाटा र मोडेलिंग 97.6% गर्न 97.3% देखि भविष्यवाणी को शुद्धता वृद्धि। तथापि, जस्तै अन्य प्रश्न, लागि "तपाईं एक साइकल स्वामित्व छ?", यो भविष्यवाणी 54,4% देखि 67,6% गर्न सुधार भएको छ। थप सामान्यतया, चित्रा 3.12 शो केही गुण लागि Blumenstock बस सरल आधारलाइन भविष्यवाणी बनाउन परे धेरै सुधार भएन, तर अन्य गुण लागि भन्ने केही सुधार भएको थियो।
यो बिन्दुमा तपाईं यी परिणाम एक बिट निराशाजनक छन्, तर केवल एक वर्ष पछि, Blumenstock र दुई सहकर्मी-गब्रिएल Cadamuro र रबर्ट मा-प्रकाशित पर्याप्त राम्रो परिणाम संग विज्ञान मा एक कागज भनेर सोच हुन सक्छ (Blumenstock, Cadamuro, and On 2015) । त्यहाँ सुधार को लागि दुई मुख्य प्राविधिक कारण थिए: 1) तिनीहरूले थप परिष्कृत तरिकाहरू प्रयोग (अर्थात्, नयाँ दृष्टिकोण ईन्जिनियरिङ् र एक थप परिष्कृत मेशिन शिक्षाका मोडेल सुविधामा) र 2) बरु जस्तै व्यक्तिगत सर्वेक्षण प्रश्नहरूको प्रतिक्रियाहरू infer प्रयास (भन्दा, "तपाईं एक रेडियो स्वामित्व गर्नुहुन्छ?"), तिनीहरूले एक समग्र धन सूचकांक infer कोसिस गर्यो।
Blumenstock र सहयोगिहरु दुई तरिकामा आफ्नो दृष्टिकोण को प्रदर्शन देखाउनुभयो। पहिलो, तिनीहरूले आफ्नो नमूना मानिसहरूको लागि, तिनीहरूले कल रेकर्ड (चित्रा 3.14) देखि आफ्नो धन भविष्यवाणी को एक राम्रो काम गर्न सक्ने फेला परेन। दोस्रो, र अझ महत्वपूर्ण कुरा, Blumenstock र सहयोगिहरु आफ्नो प्रक्रिया रवान्डा मा धन को भौगोलिक वितरण को उच्च गुणस्तरीय अनुमान उत्पादन सक्ने देखाए। थप विशेष, तिनीहरूले कल रेकर्ड मा सबै 1.5 करोड मान्छे को धन भविष्यवाणी गर्न बारेमा 1,000 मानिसहरू आफ्नो नमूनामा प्रशिक्षित थियो जो आफ्नो मेशिन शिक्षाका मोडेल, प्रयोग। यसबाहेक, कल डाटा सम्मिलित भएको जियोस्पाटियल डाटा संग (सम्झन कल डाटा प्रत्येक कल लागि निकटतम सेल टावर को स्थान समावेश), शोधकर्ताओं प्रत्येक व्यक्ति को निवास को अनुमानित स्थान अनुमान गर्न सके। यी दुई अनुमान सँगै राख्दै, अनुसन्धान अत्यन्तै राम्रो स्थानिक विघटन मा सदस्य धन भौगोलिक वितरण को अनुमान उत्पादन। उदाहरणका लागि, तिनीहरूले रवान्डा गरेको 2148 कक्षहरू (देश मा सानो प्रशासनिक एकाइ) प्रत्येक औसत धन अनुमान गर्न सक्छ। यी भविष्यवाणी धन मान तिनीहरूले जाँच गर्न गाह्रो थिए त दानेदार थिए। त्यसैले, शोधकर्ताओं रवान्डा 30 जिल्लाको औसत धन अनुमान उत्पादन गर्न आफ्नो परिणाम थपिन। यी जिल्ला-स्तर अनुमान कडा एक सुन मानक परम्परागत सर्वेक्षण देखि अनुमान गर्न सम्बन्धित थिए, को रुआण्डा डेमोग्राफिक र स्वास्थ्य सर्वेक्षण (चित्रा 3.14)। दुई स्रोतहरू बाट अनुमान समान भए तापनि Blumenstock र सहयोगिहरु बाट अनुमान बारेमा 50 पटक सस्ता र 10 छिटो पटक (लागत मा लागत चर को मामला मा मापन गर्दा) थिए। लागत मा यो नाटकीय कमी-को सर्वेक्षण ठूलो डिजिटल ट्रेस डेटा संग संयुक्त सानो सर्वेक्षण को संकर हरेक महिना चलाउन सक्छ डेमोग्राफिक र स्वास्थ्य को लागि मानक छ भन्दा हरेक केही रूपमा वर्ष सञ्चालन भइरहेको भन्ने हो।
निष्कर्ष मा, Blumenstock गरेको सुन-मानक सर्वेक्षण अनुमान संग तुलना अनुमान उत्पादन गर्न डिजिटल ट्रेस डेटा संग दृष्टिकोण संयुक्त सर्वेक्षण सोधेर परिलक्षित। यस विशेष उदाहरण पनि परिलक्षित सोधेर र परम्परागत सर्वेक्षण विधि बीच व्यापार-ओफ केही clarifies। पहिलो, परिलक्षित सोधेर अनुमान थप समसामयिक पर्याप्त सस्ता र थप दानेदार थिए। तर, अर्कोतर्फ, यो समयमा, त्यहाँ परिलक्षित सोधेर यस प्रकारको लागि बलियो सैद्धान्तिक आधार छ। त्यो, यो एउटा उदाहरण गर्दा यो हुनेछ यो काम गर्दा र देखाउन गर्दैन छ। यसबाहेक, परिलक्षित सोधेर दृष्टिकोण अझै यसको अनुमान वरिपरि अनिश्चितता quantify राम्रो तरिका छैन। तर, परिलक्षित सोधेर तथ्याङ्क-मोडेल आधारित पोस्ट-स्तरीकरण मा तीन ठूलो क्षेत्रमा गहिरो कनेक्शन छ (Little 1993) , imputation (Rubin 2004) , र साना-क्षेत्र अनुमान (Rao and Molina 2015) -and त्यसैले म आशा प्रगति हुनेछ भनेर तीव्र हुन।
परिलक्षित सोधेर आफ्नो विशेष स्थिति अनुकूल गर्न सकिन्छ भन्ने आधारभूत नुस्खा निम्नानुसार। त्यहाँ दुई सामाग्री र दुई कदम हो। दुई सामाग्री 1) एक डिजिटल ट्रेस डेटासेटको व्यापक तर पातलो (छ हो भनेर छन्, यो तपाईं प्रत्येक व्यक्ति बारे चाहिन्छ भनेर धेरै मानिसहरू तर जानकारी) र 2) एक सर्वेक्षण साँघुरो तर बाक्लो (छ हो भनेर छ, यो छ मात्र केही मानिसहरू, तर यो तपाईं ती मानिसहरू बारेमा चाहिने जानकारी) छ। त्यसपछि, दुई कदम हो। पहिलो, दुवै डाटा स्रोतहरु मा मान्छे को लागि, एक मिसिन सिक्ने मोडेल सर्वेक्षण जवाफ भविष्यवाणी गर्न डिजिटल ट्रेस डेटा प्रयोग निर्माण। अर्को, डिजिटल ट्रेस डेटा सबैलाई को सर्वेक्षण जवाफ impute कि मेशिन शिक्षाका मोडेल प्रयोग गर्नुहोस्। त्यसैले, यदि तपाईं मान्छे धेरै गर्न, सोध्न जवाफ भविष्यवाणी गर्न सकिन्छ कि भन्ने मान्छे देखि डिजिटल ट्रेस डेटा हेर्न चाहनुहुन्छ कि केही प्रश्न छ।
समस्या मा Blumenstock पहिलो र दोस्रो प्रयास तुलना पनि दोस्रो युग देखि तेस्रो युग दृष्टिकोण गर्न संक्रमण बारे एउटा महत्त्वपूर्ण पाठ अनुसन्धान सर्वेक्षण देखाउँछ: शुरुवात अन्त छैन। त्यो, धेरै पटक, पहिलो दृष्टिकोण सबै भन्दा राम्रो हुन छ छैन, तर अनुसन्धानकर्ताहरूले काम जारी छ भने, कुरा राम्रो प्राप्त गर्न सक्छन्। थप सामान्यतया, डिजिटल युगमा सामाजिक अनुसन्धान गर्न नयाँ दृष्टिकोण मूल्याङ्कन गर्दा, यो महत्त्वपूर्ण दुई भिन्न मूल्यांकन गर्न छ: 1) कसरी राम्रो अहिले यो काम गर्दछ र 2) के तपाईं डाटा परिदृश्य रूपमा भविष्यमा काम लाग्छ कसरी राम्रो परिवर्तन र अनुसन्धानकर्ताहरूले रूपमा समस्या बढी ध्यान समर्पित। हुनत, अनुसन्धानकर्ताहरूले मूल्यांकन को पहिलो प्रकारको (कसरी राम्रो अनुसन्धान को यस विशेष टुक्रा छ) बनाउन प्रशिक्षण, दोस्रो अक्सर महत्त्वपूर्ण छ।