डिजिटल निशान को अपने सर्वेक्षण को लिंक करने के लिए हर समय हर किसी को अपने सवाल पूछ की तरह हो सकता है।
नमूना सर्वेक्षण और जनगणना: पूछ आम तौर पर दो मुख्य श्रेणियों में आता है। नमूना सर्वेक्षण, जहां आप लोगों की एक छोटी संख्या का उपयोग, लचीला समय पर, और अपेक्षाकृत सस्ते हो सकते हैं। हालांकि, नमूना सर्वेक्षण, क्योंकि वे एक नमूने के आधार पर कर रहे हैं, अक्सर अपने संकल्प में सीमित कर रहे हैं; एक नमूना सर्वेक्षण के साथ, यह अक्सर विशिष्ट भौगोलिक क्षेत्रों के बारे में या विशिष्ट जनसांख्यिकीय समूहों के लिए अनुमान करना कठिन है। जनगणना, दूसरी तरफ, जनसंख्या में हर किसी को साक्षात्कार के लिए प्रयास। वे महान संकल्प है, लेकिन वे आम तौर पर महंगा ध्यान में संकीर्ण हैं (वे केवल सवालों की एक छोटी संख्या में शामिल हैं), और न समय पर (वे ऐसे हर 10 साल के रूप में, एक निश्चित समय पर होता है) (Kish 1979) । अब सोचिए कि शोधकर्ताओं नमूना सर्वेक्षण और जनगणना का सबसे अच्छा विशेषताओं जोड़ सकता है; सोचिए कि शोधकर्ताओं हर दिन हर किसी के लिए हर सवाल पूछ सकते हैं।
जाहिर है, यह नित्य, सर्वव्यापी, हमेशा पर सर्वेक्षण सामाजिक विज्ञान फंतासी का एक प्रकार है। लेकिन, ऐसा लगता है कि हम कई लोगों से डिजिटल निशान के साथ लोगों की एक छोटी संख्या से सर्वेक्षण के प्रश्नों के संयोजन के द्वारा इस लगभग करने के लिए शुरू कर सकते हैं। मैं संयोजन के इस प्रकार पूछ परिलक्षित कहते हैं। यदि अच्छी तरह से किया, यह मदद कर सकता है हमें अनुमान है कि (छोटे भौगोलिक क्षेत्रों के लिए) और अधिक स्थानीय कर रहे हैं, और अधिक बारीक (विशिष्ट जनसांख्यिकीय समूहों के लिए), और अधिक समय प्रदान करता है।
प्रवर्धित पूछ का एक उदाहरण यहोशू Blumenstock, जो डेटा है कि गरीब देशों में गाइड विकास में मदद मिलेगी इकट्ठा करना चाहता था के काम से आता है। अधिक विशेष रूप से, Blumenstock एक प्रणाली धन और अच्छी तरह से किया जा रहा है कि लचीलापन और एक सर्वेक्षण की आवृत्ति के साथ एक जनगणना की पूर्णता संयुक्त मापने के लिए बनाना चाहता था (Blumenstock 2014; Blumenstock, Cadamuro, and On 2015) । वास्तव में, मैं पहले से ही Blumenstock के काम संक्षेप में अध्याय 1 में वर्णित है।
प्रारंभ करने के लिए, Blumenstock रवांडा में सबसे बड़ी मोबाइल फोन सेवा प्रदाता के साथ भागीदारी की। कंपनी ने उसे इस तरह के प्रारंभ समय, अवधि, और फोन करने वाले और रिसीवर की अनुमानित भौगोलिक स्थिति के रूप में 2005 और 2009 लॉग प्रत्येक कॉल और पाठ संदेश के बारे में जानकारी होती है से लगभग 15 लाख व्यवहार को कवर ग्राहकों से गुमनाम लेनदेन रिकॉर्ड प्रदान की है। इससे पहले कि हम सांख्यिकीय मुद्दों के बारे में बात शुरू करते हैं, इसे बाहर इशारा करते हुए इस दिशा में पहला कदम सबसे मुश्किल से एक हो सकता है कि लायक है। अध्याय 2 में वर्णित है, सबसे डिजिटल ट्रेस डेटा शोधकर्ताओं के लिए दुर्गम है। और, कई कंपनियों के उचित उनके डाटा साझा करने के लिए है क्योंकि यह निजी है हिचक रहे हैं; कि अपने ग्राहकों को शायद उम्मीद नहीं की थी कि उनके रिकॉर्ड साझा-में होगा शोधकर्ताओं थोक के साथ है। इस मामले में, शोधकर्ताओं डेटा को अनाम करने के लिए सावधान कदम रखा और उनके काम को एक तीसरे पक्ष (यानी, उनके आईआरबी) की देखरेख किया गया था। लेकिन, इन प्रयासों के बावजूद, इन आंकड़ों शायद अभी भी पहचान कर रहे हैं और वे संभावना संवेदनशील जानकारी (Mayer, Mutchler, and Mitchell 2016; Landau 2016) । मैं अध्याय 6 में इन नैतिक सवाल करने के लिए वापस कर देंगे।
याद है कि Blumenstock धन और अच्छी तरह से किया जा रहा मापने में दिलचस्पी थी। लेकिन, इन तत्वों कॉल रिकॉर्ड में सीधे नहीं हैं। दूसरे शब्दों में, इन कॉल रिकॉर्ड इस शोध, डिजिटल निशान की एक आम विशेषता यह है कि अध्याय 2 में विस्तार से चर्चा की गई लिए अधूरे हैं लेकिन, यह संभावना है कि कॉल रिकॉर्ड शायद धन और भलाई के बारे में कुछ जानकारी है। तो, Blumenstock का सवाल हो सकता है पूछने का एक ही रास्ता है: यह भविष्यवाणी करने के लिए कैसे किसी को अपने डिजिटल ट्रेस डेटा के आधार पर एक सर्वेक्षण का जवाब देंगे संभव है? यदि हां, तो कुछ लोग पूछ द्वारा हम हर किसी का जवाब अनुमान लगा सकते हैं।
इस अनुभव से आकलन करने के लिए, विज्ञान के किगाली संस्थान और प्रौद्योगिकी से Blumenstock और अनुसंधान सहायक के मोबाइल फोन ग्राहकों के बारे में एक हजार का एक नमूना कहा जाता है। शोधकर्ताओं ने प्रतिभागियों को परियोजना के लक्ष्यों को समझाया कॉल रिकॉर्ड करने के लिए सर्वेक्षण प्रतिक्रियाओं से जोड़ने के लिए उनकी सहमति के लिए कहा है, और फिर उन्हें एक साथ कई सवाल पूछा कि उनके धन और अच्छी तरह से किया जा रहा मापने के लिए इस तरह के रूप में "आप एक ही है रेडियो? "और" (एक आंशिक सूची के लिए यह आंकड़ा 3.11 देखें) आप एक साइकिल के मालिक? "। सर्वेक्षण में सभी प्रतिभागियों को आर्थिक रूप से मुआवजा दिया गया था।
सुविधा इंजीनियरिंग की देखरेख सीखने के द्वारा पीछा: अगला, Blumenstock एक दो कदम प्रक्रिया डेटा विज्ञान के क्षेत्र में आम इस्तेमाल किया। सबसे पहले, सुविधा इंजीनियरिंग चरण में, हर कोई है कि साक्षात्कार किया गया था के लिए, Blumenstock कॉल रिकॉर्ड प्रत्येक व्यक्ति के बारे में विशेषताओं का एक सेट में परिवर्तित कर दिया; डेटा वैज्ञानिकों प्रत्येक व्यक्ति के लिए इन विशेषताओं "सुविधाओं" बुला सकता है और सामाजिक वैज्ञानिकों उन्हें फोन होगा "चर।" उदाहरण के लिए, Blumenstock गणना की गतिविधि के साथ दिनों की कुल संख्या, विशिष्ट लोगों की संख्या एक व्यक्ति के साथ संपर्क में किया गया है, वह राशि पैसे की एयरटाइम पर खर्च किया, और इतने पर। गंभीर, अच्छी सुविधा इंजीनियरिंग रिसर्च की स्थापना के ज्ञान की आवश्यकता है। उदाहरण के लिए, अगर यह (हम लोग हैं, जो अंतरराष्ट्रीय स्तर पर फोन अमीर होने की उम्मीद कर सकते हैं) के लिए घरेलू और अंतरराष्ट्रीय कॉल के बीच भेद करने के लिए महत्वपूर्ण है, तो इस सुविधा इंजीनियरिंग कदम पर किया जाना चाहिए। रवांडा की कम समझ के साथ एक शोधकर्ता इस सुविधा में शामिल नहीं हो सकता है, और फिर मॉडल के भविष्य कहनेवाला प्रदर्शन भुगतना होगा।
अगले, निगरानी सीखने चरण में, Blumenstock एक सांख्यिकीय मॉडल उनकी विशेषताओं के आधार पर प्रत्येक व्यक्ति के लिए सर्वेक्षण प्रतिक्रिया की भविष्यवाणी करने के लिए बनाया गया है। इस मामले में, Blumenstock 10 गुना पार सत्यापन के साथ रसद प्रतिगमन का इस्तेमाल किया है, लेकिन वह अन्य सांख्यिकीय या मशीन सीखने दृष्टिकोण की एक किस्म का इस्तेमाल किया जा सकता था।
तो यह कैसे अच्छी तरह से काम किया? Blumenstock कॉल रिकॉर्ड से निकाली गई सुविधाओं का उपयोग इस तरह के सवालों के जवाब सर्वेक्षण की भविष्यवाणी करने में सक्षम था "आप एक रेडियो के मालिक हैं?" और "आप एक साइकिल के मालिक हैं?"? की तरह। भविष्यवाणियों की सटीकता कुछ लक्षण (चित्रा 3.11) के लिए ऊंचे थे। लेकिन, यह हमेशा के लिए एक सरल विकल्प के खिलाफ एक जटिल भविष्यवाणी विधि की तुलना करने के लिए महत्वपूर्ण है। इस मामले में, एक सरल विकल्प भविष्यवाणी करने के लिए है कि हर कोई सबसे आम जवाब दे देंगे। उदाहरण के लिए, 97.3% एक रेडियो इसलिए यदि Blumenstock भविष्यवाणी की थी कि हर कोई एक रेडियो वह 97.3% है, जो आश्चर्यजनक रूप से उनके और अधिक जटिल प्रक्रिया (97.6% शुद्धता) के प्रदर्शन के समान है की शुद्धता पड़ता था मालिक रिपोर्ट करेंगे मालिक की सूचना दी। दूसरे शब्दों में, सभी फैंसी डेटा और मॉडलिंग 97.6% से 97.3% से भविष्यवाणी की सटीकता की वृद्धि हुई। हालांकि, इस तरह के रूप में अन्य प्रश्न, के लिए "आप एक साइकिल के मालिक?", भविष्यवाणियों 54.4% से 67.6% करने के लिए सुधार हुआ है। आम तौर पर, चित्रा 3.12 शो कुछ लक्षण के लिए Blumenstock ज्यादा सिर्फ साधारण आधारभूत भविष्यवाणी बनाने से परे सुधार नहीं किया, लेकिन कहा कि अन्य लक्षण के लिए कुछ सुधार हुआ।
इस बिंदु पर आप सोच रहे होंगे कि ये परिणाम एक सा निराशाजनक रहे हैं, लेकिन सिर्फ एक साल बाद, Blumenstock और दो सहयोगियों-गेब्रियल Cadamuro और रॉबर्ट पर प्रकाशित काफी बेहतर परिणाम के साथ विज्ञान में एक कागज (Blumenstock, Cadamuro, and On 2015) । वहाँ दो मुख्य तकनीकी सुधार के लिए कारण थे: और 2) के बजाय (जैसे व्यक्ति सर्वेक्षण सवालों के जवाब अनुमान करने के लिए प्रयास की तुलना में 1) वे और अधिक परिष्कृत तरीकों का इस्तेमाल किया है (यानी, एक नया दृष्टिकोण इंजीनियरिंग और एक और अधिक परिष्कृत मशीन सीखने मॉडल की सुविधा के लिए), "आप एक रेडियो के मालिक हैं?"), वे एक समग्र धन सूचकांक अनुमान करने का प्रयास किया।
Blumenstock और उनके सहयोगियों के दो मायनों में उनके दृष्टिकोण के प्रदर्शन का प्रदर्शन किया। सबसे पहले, उन्होंने पाया कि उनके नमूने में लोगों के लिए, वे कॉल रिकॉर्ड (चित्रा 3.14) से उनके धन की भविष्यवाणी का एक बहुत अच्छा काम कर सकता है। दूसरा, और कभी अधिक महत्वपूर्ण बात, Blumenstock और उनके सहयोगियों से पता चला है कि उनके प्रक्रिया रवांडा में धन का भौगोलिक वितरण के लिए उच्च गुणवत्ता वाले अनुमान उत्पादन कर सकता है। अधिक विशेष रूप से, वे अपने मशीन सीखने मॉडल है, जो 1000 के बारे में लोगों की उनके नमूने पर प्रशिक्षित किया गया था, इस्तेमाल कॉल रिकॉर्ड में सभी 15 लाख लोगों के धन का अनुमान है। इसके अलावा, कॉल डेटा में एम्बेडेड भू-स्थानिक डेटा के साथ (याद है कि कॉल डेटा प्रत्येक कॉल के लिए निकटतम सेल टॉवर के स्थान भी शामिल है), शोधकर्ताओं ने प्रत्येक व्यक्ति के निवास की अनुमानित जगह अनुमान लगाने के लिए सक्षम थे। इन दोनों के अनुमान को एक साथ लाना, अनुसंधान बहुत ठीक स्थानिक विघटन पर ग्राहक धन का भौगोलिक वितरण के एक अनुमान का उत्पादन किया। उदाहरण के लिए, वे रवांडा के 2148 कोशिकाओं (देश में सबसे छोटी प्रशासनिक इकाई) में से प्रत्येक में औसत धन का अनुमान कर सकता है। ये भविष्यवाणी धन मूल्यों इतनी बारीक है कि वे जांच करने के लिए मुश्किल थे। तो, शोधकर्ताओं ने अपने परिणाम एकत्रित रवांडा के 30 जिलों में औसत धन के अनुमान का उत्पादन। ये जिला स्तर के अनुमान दृढ़ता से एक स्वर्ण मानक पारंपरिक सर्वेक्षण से अनुमान से संबंधित थे, रवांडा जनसांख्यिकीय और स्वास्थ्य सर्वेक्षण (चित्रा 3.14)। हालांकि दो स्रोतों से अनुमान के समान थे, Blumenstock और उनके सहयोगियों से अनुमानों के बारे में 50 गुना सस्ता है और 10 गुना तेजी से (जब लागत में परिवर्तनीय लागत के संदर्भ में मापा) थे। लागत में इस नाटकीय कमी है कि बजाय हर कुछ वर्षों के रूप में चलाया जा रहा जनसांख्यिकीय और स्वास्थ्य के लिए मानक है सर्वेक्षणों-बड़े डिजिटल ट्रेस डेटा के साथ संयुक्त छोटे सर्वेक्षण के संकर हर महीने चलाया जा सकता है इसका मतलब।
अंत में, Blumenstock के प्रवर्धित डिजिटल ट्रेस डेटा के साथ दृष्टिकोण संयुक्त सर्वेक्षण के आंकड़ों पूछ सोने का मानक सर्वेक्षण के अनुमान के साथ तुलनीय अनुमान उत्पादन करने के लिए। इस विशिष्ट उदाहरण भी परिलक्षित पूछ रहा है और पारंपरिक सर्वेक्षण तरीकों के बीच व्यापार-नापसंद के कुछ स्पष्ट किया। सबसे पहले, प्रवर्धित पूछ अनुमान है, और अधिक समय में काफी सस्ता है, और अधिक बारीक थे। लेकिन, दूसरी ओर, इस समय में, वहाँ नहीं परिलक्षित पूछ के इस तरह के एक मजबूत सैद्धांतिक आधार है। यही कारण है, यह एक उदाहरण प्रदर्शित नहीं करता है जब यह नहीं होगा, जब यह काम करते हैं और करेंगे। इसके अलावा, प्रवर्धित पूछ दृष्टिकोण अभी तक अपने अनुमानों के आसपास अनिश्चितता यों तो अच्छे तरीके से नहीं है। हालांकि, प्रवर्धित पूछ तीन बड़े आँकड़ों-मॉडल के आधार पर पद-स्तरीकरण में क्षेत्रों के लिए गहरे संबंध है (Little 1993) , इलज़ाम (Rubin 2004) , और छोटे-क्षेत्र अनुमान (Rao and Molina 2015) -और इसलिए मुझे उम्मीद है कि प्रगति होगी तेजी से हो।
प्रवर्धित पूछ एक बुनियादी नुस्खा है कि अपनी विशेष स्थिति के अनुरूप किया जा सकता है इस प्रकार है। वहाँ दो मुद्दों और दो कदम उठाए हैं। दो तत्व 1) एक डिजिटल ट्रेस डाटासेट कि व्यापक लेकिन पतली (यह है कि कर रहे हैं, यह कई लोगों के नहीं बल्कि जानकारी है कि आप प्रत्येक व्यक्ति के बारे में की जरूरत है) और 2) एक सर्वेक्षण कि संकीर्ण लेकिन मोटी (जो है है है, यह है केवल कुछ ही लोगों, लेकिन यह जानकारी है कि आप उन लोगों के बारे में की जरूरत है) है। फिर, वहाँ दो कदम उठाए हैं। सबसे पहले, दोनों डेटा स्रोतों में लोगों के लिए, एक मशीन सीखने मॉडल डिजिटल ट्रेस डेटा का उपयोग करता है कि सर्वेक्षण के जवाब भविष्यवाणी करने के लिए का निर्माण। इसके बाद, कि मशीन सीखने मॉडल का उपयोग डिजिटल ट्रेस डेटा में हर किसी के सर्वेक्षण के जवाब मढ़ना। इस प्रकार, अगर वहाँ कुछ सवाल है कि आप, बहुत से लोग पूछने के लिए उन लोगों को कि उनके जवाब भविष्यवाणी करने के लिए इस्तेमाल किया जा सकता से डिजिटल ट्रेस डेटा देखने के लिए चाहते हैं।
तुलना Blumenstock की समस्या पर पहला और दूसरा प्रयास भी सर्वेक्षण करने के लिए अनुसंधान तीसरे युग दृष्टिकोण करने के लिए दूसरे युग से संक्रमण के बारे में एक महत्वपूर्ण सबक दिखाता है: शुरू से अंत नहीं है। यही कारण है कि, कई बार, पहले दृष्टिकोण सबसे अच्छा नहीं हो जाएगा, लेकिन अगर शोधकर्ताओं काम कर जारी है, चीजें बेहतर हो सकता है। आम तौर पर, जब डिजिटल युग में सामाजिक अनुसंधान के लिए नए तरीकों का मूल्यांकन, यह महत्वपूर्ण दो अलग-अलग मूल्यांकन कर रहा है: 1) कैसे अच्छी तरह से अब यह काम करता है और 2) आप कितना अच्छा लगता है कि इस डेटा परिदृश्य के रूप में भविष्य में काम हो सकता है कर परिवर्तन और शोधकर्ताओं के रूप में समस्या को और अधिक ध्यान समर्पित। हालांकि, शोधकर्ताओं (कितना अच्छा अनुसंधान के इस विशेष टुकड़ा है) मूल्यांकन की पहली तरह बनाने के लिए प्रशिक्षित किया जाता है, दूसरी अक्सर अधिक महत्वपूर्ण है।