बर्याच लोकांकडील मोठ्या डेटा स्रोतासह काही लोकांकडील सर्वेक्षण डेटा एकत्र करण्यासाठी पूर्वानुमान मॉडेल वापरून विचारण्यात आला.
सर्वे आणि मोठे डेटा स्त्रोत एकत्रित करण्याचा एक वेगळा मार्ग अशी प्रक्रिया आहे ज्याबद्दल मी बोललो जाईल मोठ्या प्रमाणावर डेटा स्त्रोत एकत्रित करण्यासाठी मोजमाप किंवा ग्रॅन्युलॅरिटीच्या अंदाजपत्रकास एकत्रित करण्यासाठी एक संशोधक विचाराधीन मॉडेलचा वापर करतो, जे डेटा स्त्रोताशी वैयक्तिकरित्या शक्य नसेल. जपानच्या ब्लूमनस्टॉकच्या कामावरून मोठ्या प्रमाणात विचारण्यात आलेला एक महत्वाचा उदाहरण म्हणजे गरीब देशांमधील विकास मार्गदर्शनासाठी डेटा गोळा करणे. भूतकाळात, या प्रकारचे डेटा गोळा करणारे संशोधक साधारणपणे दोन पैकी एक दृष्टिकोन घेतात: नमुना सर्वेक्षण किंवा सेन्सस नमुना सर्वेक्षणे, जेथे संशोधकांनी थोड्या लोकांना मुलाखत दिली, ते लवचिक, वेळेवर आणि तुलनेने स्वस्त असू शकतात. तथापि, या सर्वेक्षणे, कारण ते एका नमुन्यावर आधारलेले आहेत, बहुतेक त्यांच्या रिझोल्यूशनमध्ये मर्यादित असतात. नमुना सर्वेक्षणानुसार, विशिष्ट भौगोलिक प्रदेशांविषयी किंवा विशिष्ट डेमोग्राफिक गटांबद्दल अंदाज लावणे कठीण असते. दुसरीकडे, सर्वत्र मुलाखत घेण्याचा प्रयत्न करणे, आणि म्हणून ते लहान भौगोलिक प्रदेश किंवा डेमोग्राफिक गटांकरिता अनुमान काढण्यासाठी वापरले जाऊ शकतात. पण गणिताची किंमत सामान्यतः महाग असते, फोकसमध्ये अरुंद असते (ते फक्त काही प्रश्नांचा समावेश करतात) आणि वेळोवेळी नाही (ते दर 10 वर्षांनी (Kish 1979) ) (Kish 1979) . नमुना सर्वेक्षण किंवा सेन्सससह अडकल्याशिवाय, अशी कल्पना करा की संशोधकांनी दोन्ही उत्तम वैशिष्ट्ये एकत्रित करू शकतात. कल्पना करा जर संशोधक प्रत्येक प्रश्नासाठी दररोज प्रत्येक व्यक्तीला विचारू शकतील. अर्थात, हे सर्वव्यापी, नेहमीचे सर्वेक्षण हा एक प्रकारचा सामाजिक विज्ञान कल्पनेचा विषय आहे. पण असे दिसून येते की आपण बर्याच लोकांकडील डिजिटल ट्रेस असलेल्या सर्वेक्षणाचे प्रश्न एकत्रित करून हे अंदाजे सुरू करू शकता.
ब्ल्यूमनस्टॉकचे संशोधन सुरू झाले जेव्हा त्यांनी रवांडातील सर्वात मोठ्या मोबाइल फोन प्रदात्यासह भागीदारी केली आणि कंपनीने 2005 आणि 200 9 दरम्यान सुमारे 1.5 दशलक्ष ग्राहकांकडून निनावी हस्तांतरित व्यवहार प्रदान केले. या रेकॉर्डमध्ये प्रत्येक कॉल आणि मजकूर संदेश, जसे की प्रारंभ वेळ, कालावधी , आणि कॉलर आणि प्राप्तकर्त्याचे अंदाजे भौगोलिक स्थान. संख्याशास्त्रीय प्रश्नांबद्दल बोलण्यापूर्वी, हे लक्षात येते की हा पहिला टप्पा अनेक संशोधकांसाठी सर्वात कठीण असण्याची शक्यता आहे. मी अध्याय 2 मध्ये वर्णन केल्याप्रमाणे, सर्वात मोठा डेटा स्त्रोत संशोधकांकडे प्रवेश करण्यायोग्य आहे. विशेषतः टेलिफोन मेटा-डेटा विशेषत: प्रवेश करण्यायोग्य असल्याने तो निनावी करणे अशक्य आहे आणि त्यात जवळजवळ निश्चितपणे अशी माहिती समाविष्ट आहे जी सहभागींना संवेदनशील (Mayer, Mutchler, and Mitchell 2016; Landau 2016) . या विशिष्ट बाबतीत, संशोधक डेटा संरक्षित करण्यासाठी सावध होते आणि त्यांच्या कामाची तृतीय पक्षाद्वारे देखरेख केली (म्हणजेच, त्यांच्या आयआरबी). मी अध्यायात सहाव्या अध्यायात या नैतिक मुद्द्यांकडे परत जाईन.
ब्लुमेनस्तॉकला संपत्ती आणि कल्याण मोजण्यात रूची होती. परंतु ही वैशिष्ट्ये कॉल रेकॉर्डमध्ये थेट नाहीत. दुस-या शब्दात, या संशोधनासाठी या नोंदी अपूर्ण आहेत-मोठा डेटा स्त्रोतांचा एक सामान्य वैशिष्ट्य जो प्र 2 प्रकर्यामध्ये तपशीलवार चर्चा करण्यात आला. तथापि, असे दिसते की कॉल रेकॉर्डमध्ये कदाचित काही माहिती असेल जी अप्रत्यक्षरित्या संपत्तीबद्दल आणि कल्याण ही शक्यता लक्षात घेऊन ब्लूमनस्टॉकने आपल्या फोन रेकॉर्डवर आधारित सर्वेक्षणाचा प्रतिसाद कसा देईल याचे अंदाज लावण्यासाठी मशीन शिकण्याचे मॉडेल प्रशिक्षित करणे शक्य आहे काय हे विचारले. जर हे शक्य असेल तर ब्लुमेनस्टॉक या मॉडेलचा वापर सर्व 15 लाख ग्राहकांच्या सर्वेक्षणाचे अंदाज सांगण्यासाठी करू शकेल.
अशा मॉडेलच्या उभारणीसाठी आणि प्रशिक्षित करण्यासाठी, किमुली इन्स्टिट्यूट ऑफ सायन्स अँड टेक्नॉलॉजीच्या ब्ल्यूमेंस्टॉक आणि रिसर्च सहाय्यकांनी सुमारे एक हजार ग्राहकांचे एक यादृच्छिक नमूने म्हटले आहे. संशोधकांनी या प्रकल्पाच्या उद्दिष्टांविषयी सहभागींना सांगितले, कॉल रेकॉर्डमध्ये सर्वेक्षणास प्रतिसाद जोडण्यासाठी त्यांच्या संमतीसाठी विचारले आणि नंतर त्यांची संपत्ती आणि कल्याण मोजण्यासाठी त्यांनी अनेक प्रश्नांची उत्तरे दिली, जसे की "आपल्या मालकीची रेडिओ? "आणि" आपल्याजवळ सायकल आहे का? "(आंशिक लिस्टसाठी आकृती 3.14 पहा). या सर्वेक्षणातील सर्व सहभागींना आर्थिकदृष्ट्या भरपाई देण्यात आली.
पुढील, ब्लूमनस्टॉकने मशीन शिक्षणात दोन-टप्प्यावरील प्रक्रियेचा उपयोग केला: वैशिष्ट्य अभियांत्रिकी नंतर पर्यवेक्षी शिक्षण प्रथम, वैशिष्ट्य इंजिनियरिंग चरणात, मुलाखत घेणार्या प्रत्येकासाठी, ब्लुमेनस्टॉकने कॉल रेकॉर्ड्स प्रत्येक व्यक्तिबद्दल वैशिष्ठ्यपूर्ण संचामध्ये रूपांतरित केले; डेटा शास्त्रज्ञ या वैशिष्ट्यांना "वैशिष्ट्ये" म्हणू शकतात आणि सामाजिक शास्त्रज्ञ त्यांना "वेरियेबल्स" म्हणतील. उदाहरणार्थ, प्रत्येक व्यक्तीसाठी, ब्लुमेंस्तॉकने क्रियाकलापांसह एकूण दिवसांची गणना केली, एका व्यक्तीच्या संपर्कात असलेल्या भिन्न व्यक्तींची संख्या एअरटाईमवर खर्च केलेले पैसे, इत्यादी. क्रिटिकली, चांगल्या सुविधा अभियांत्रिकीला संशोधन सेटिंगची आवश्यकता आहे. उदाहरणार्थ, जर घरगुती आणि आंतरराष्ट्रीय कॉल दरम्यान फरक करणे महत्वाचे आहे (आम्ही आंतरराष्ट्रीय पातळीवर धनवान म्हणून कॉल करणाऱ्यांची अपेक्षा करू शकू), तर हे वैशिष्ट्य अभियांत्रिकी चरणात केले पाहिजे. रवांडाची फारच कमी समज असणारा संशोधक हे वैशिष्ट्य समाविष्ट करू शकणार नाही, आणि नंतर मॉडेलचे पूर्वानुमानित कार्यप्रदर्शन प्रभावित होईल.
नंतर, पर्यवेक्षी शिकण्याच्या चरणात, ब्लुमेनस्तॉकने त्यांच्या वैशिष्ट्यांवर आधारीत प्रत्येक व्यक्तीसाठी सर्वेक्षणाचा अंदाज सांगण्यासाठी एक मॉडेल तयार केला. या प्रकरणात, ब्लुमेनस्टॉकने तर्कशुद्ध प्रतिगमन वापरले, परंतु तो इतर अनेक संख्याशास्त्रीय किंवा मशीन शिकण्याची पध्दती वापरली असती.
तर हे किती चांगले काम करते? ब्ल्यूमेंस्तॉक "रेडिओची मालकी आहे का?" आणि "आपल्याजवळ सायकल आहे का?" प्रश्नांच्या प्रश्नांची उत्तरे देण्यास सक्षम होते का? त्याच्या अंदाजशील मॉडेलच्या कामगिरीचे मूल्यमापन करण्यासाठी ब्लुमेंस्टॉकने क्रॉस-व्हॅलिडिशनचा वापर केला, सामान्यत: डेटा विज्ञान मध्ये वापरली जाणारी एक तंत्रिका पण क्वचितच सामाजिक विज्ञान मध्ये. क्रॉस-व्हॅलिडिशनचे लक्ष्य म्हणजे प्रशिक्षण देऊन आणि डेटाच्या विविध उपसंपत्तींवर परीक्षण करून मॉडेलचे पूर्वानुमानित कार्यक्षमतेचे योग्य मूल्यांकन करणे. विशेषतः, ब्लुमेनस्टॉकने आपला डेटा प्रत्येकी 100 लोकांच्या दहा भागांत विभागला. मग, त्यांनी आपल्या मॉडेलला प्रशिक्षण देण्यासाठी नऊ भागांचा वापर केला आणि उर्वरित चक्रावर प्रशिक्षित मॉडेलचे भविष्यसूचक प्रदर्शन केले गेले. त्यांनी ही पद्धत 10 वेळा पुनरावृत्ती केली - डेटाच्या प्रत्येक विभागात एका वळणाचा वैधता डेटा म्हणून-आणि परिणामांपेक्षा सरासरी.
काही गुणांकरिता अंदाजांची अचूकता अधिक होती (आकृती 3.14); उदाहरणार्थ, एखाद्या व्यक्तीची रेडिओ असल्यास त्याच्या ब्ल्यूमेनस्टॉकची 97.6% अचूकता सांगता येईल. हे प्रभावी ठरु शकते, परंतु सरळ पर्यायाने जटिल भाषणाची पद्धत तुलना करणे नेहमीच महत्त्वाचे असते. या प्रकरणात, एक साधी पर्याय असा अंदाज लावला जातो की प्रत्येकजण सर्वात सामान्य उत्तर देईल. उदाहरणार्थ 97.3% सर्वेक्षणात रेडिओचा मालक असल्याचा अहवाल दिला असता ब्लूमस्टॉकने असा अंदाज दिला होता की प्रत्येकजण रेडिओ धारक असल्याचा अहवाल त्याच्याजवळ 97.3% इतका अचूकता असेल, जो त्याच्या अधिक जटिल प्रक्रियेच्या (9 7,6% शुद्धता) कामगिरीच्या तुलनेत आश्चर्यकारक आहे. . दुसऱ्या शब्दांत, सर्व फॅन्सी डेटा आणि मॉडेलिंगमुळे भविष्यवाणीची अचूकता 97.3% वरुन 97.6% पर्यंत वाढली. तथापि, इतर प्रश्नांसाठी, जसे की "आपल्याजवळ सायकल आहे?", अंदाज 54.4% वरुन 67.6% वर सुधारले. अधिक सामान्यतः, 3.15 चे उदाहरण असे दर्शविते की काही गुणधर्म ब्लुमेनस्टॉकने फक्त साध्या आधाररेषेवर भविष्य वर्तविण्याव्यतिरिक्त बरेच काही केले नाही, परंतु इतर गुणधर्मांकरता काही सुधारणा होते. या परिणामांकडे पाहून, आपण कदाचित असा विचार करणार नाही की हा दृष्टिकोन विशेषतः आश्वासन देत आहे
तथापि, फक्त एक वर्षानंतर, ब्लुमेनस्टॉक आणि दोन सहकारी-गॅब्रियल कडामोरो आणि रॉबर्ट ऑन-यांनी विज्ञानाने कागदावर चांगले परिणाम (Blumenstock, Cadamuro, and On 2015) . या सुधारणेचे दोन मुख्य तांत्रिक कारण होते: (1) त्यांनी अधिक सुप्रसिद्ध पध्दती वापरल्या (म्हणजे, वैशिष्ट्यांसाठी अभिप्राय दर्शविण्याकरिता अभियांत्रिकीसाठी एक नवीन दृष्टीकोन आणि अधिक अत्याधुनिक मॉडेल) आणि (2) ऐवजी व्यक्तीला प्रतिसाद देण्यासाठी अनुमान लावण्याऐवजी सर्वेक्षणाचा प्रश्न (उदा., "आपल्याजवळ रेडिओ आहे का?"), त्यांनी संमिश्र संपत्ती निर्देशांकाची अनुमान काढण्याचा प्रयत्न केला. या तांत्रिक सुधारणांचा अर्थ असा होता की ते त्यांच्या नमुन्यामधील लोकांसाठी संपत्ती सांगण्याची कॉल रेकॉर्ड वापरण्याची उचित कारवाई करू शकतात.
नमुन्यातील लोकांमधील संपत्तीचा अंदाज लावण्यामागे संशोधनाचा अंतिम ध्येय नाही. लक्षात ठेवा की विकसनशील देशांमध्ये अचूक, उच्च-रिझोल्यूशनच्या गरीबीचे अनुमान निर्माण करण्यासाठी अंतिम लक्ष्य नमूना सर्वेक्षण आणि सेन्ससच्या काही सर्वोत्कृष्ट वैशिष्ट्यांना एकत्रित करणे होते. हे लक्ष्य साध्य करण्याच्या त्यांच्या क्षमतेचे मूल्यांकन करण्यासाठी, ब्लूमनस्टॉक आणि त्यांच्या सहकाऱ्यांनी आपल्या 15 लाख लोकांकडील संपत्तीचा अंदाज लावण्यासाठी त्यांचे मॉडेल आणि त्यांचे डेटा वापरला आहे. आणि त्यांनी प्रत्येक व्यक्तीच्या निवासस्थानाच्या अंदाजे जागेचा (आकृती 3.17) अंदाज लावण्यासाठी कॉल रेकॉर्डमध्ये एम्बेड केलेल्या भौगोलिक माहितीचा उपयोग केला (लक्षात ठेवा डेटामध्ये प्रत्येक कॉलकरिता जवळच्या सेल टॉवरचे स्थान समाविष्ट आहे). हे दोन अंदाज एकत्र ठेवून, ब्लूमनस्टॉक आणि त्यांच्या सहकाऱ्यांनी ग्राहकांच्या संपत्तीचे भौगोलिक वितरण अत्यंत दंड स्थानिक ग्रॅन्युलॅरिटीवर अंदाज लावले. उदाहरणार्थ, ते रवांडाच्या 2,148 सेल्समध्ये (देशातील सर्वात लहान प्रशासकीय एकक) सरासरी संपत्तीचा अंदाज लावू शकतात.
या अंदाजांनुसार या क्षेत्रातील गरिबीच्या वास्तविक पातळीवर किती चांगले जुळले? मी या प्रश्नाचे उत्तर देण्यापूर्वी, मी या गोष्टीवर जोर देऊ इच्छितो की संशयवादी होण्याचे अनेक कारणे आहेत. उदाहरणार्थ, वैयक्तिक पातळीवर अंदाज तयार करण्याची क्षमता खूपच गोंगाट करणारा होती (आकृती 3.17). आणि, कदाचित अधिक महत्त्वाचे म्हणजे, मोबाईल फोन असलेले लोक मोबाईल फोन शिवाय लोकांपासून पद्धतशीररित्या भिन्न असू शकतात. अशाप्रकारे, ब्ल्यूमनस्टॉक आणि त्यांच्या सहकर्म्यांना 1 9 36 साहित्यिक डाइजेस्ट सर्वेक्षणाचा पक्षपाती करणाऱ्या कव्हरेज त्रुटींच्या प्रकारामुळे त्रास होऊ शकतो जे मी आधी वर्णन केले होते.
त्यांच्या अनुमानांची गुणवत्ता जाणून घेण्यासाठी, ब्लूमनस्टॉक आणि सहकाऱ्यांनी त्यांच्याशी तुलना करणे आवश्यक आहे. सुदैवाने, त्यांच्या अभ्यासानुसार एकाच वेळी सुमारे, संशोधकांचा एक गट रवांडामध्ये अधिक पारंपारिक सामाजिक सर्वेक्षण चालवत होता. हे दुसरे सर्वेक्षण जे मोठ्या प्रमाणावर आदरणीय जनसांख्यिकीय आणि आरोग्य सर्वेक्षण कार्यक्रमाचा एक भाग होते-एक मोठे बजेट होते आणि उच्च दर्जाचे, पारंपारिक पद्धती वापरत होते. त्यामुळे जनसांख्यिकीय आणि आरोग्य सर्वेक्षणाचे अनुमान हे गोल्ड-स्टँडर्ड अंदाजे मानले जाऊ शकते. जेव्हा दोन अनुमानांची तुलना केली गेली, तेव्हा ते तशीच (आकृती 3.17) होते. दुसऱ्या शब्दांत, कॉल रेकॉर्डसह थोड्या प्रमाणात सर्वेक्षण डेटा एकत्र करून, ब्लूमनस्टॉक आणि सहकाऱ्यांनी सोने-मानक पध्दतींपेक्षा त्यांचे तुलना करणे अपेक्षित होते.
एक संशयवादी निराशा म्हणून हे परिणाम पाहू शकते अखेर, त्यांना पाहण्याचा एक मार्ग म्हणजे मोठ्या डेटा आणि मशीन शिकण्यांचा उपयोग करून, ब्लुमेंस्टॉक आणि त्यांचे सहकारी आधीपासून अस्तित्वात असलेल्या पद्धतींनी अधिक विश्वासार्ह बनवण्यासाठी अंदाज लावू शकले. परंतु मला असे वाटत नाही की हा अभ्यास दोन कारणांसाठी विचारण्याचा योग्य मार्ग आहे. प्रथम, ब्लुमेन्स्टॉक आणि त्यांच्या सहकाऱ्यांतील अंदाज सुमारे 10 पट वेगवान आणि 50 पट स्वस्त होते (जेव्हा खर्चाची चल परिवर्तनीय खर्चाच्या दृष्टीने मोजली जाते). मी या प्रकरणात पूर्वी तर्क केला म्हणून, संशोधक त्यांच्या संकटाचा खर्च दुर्लक्ष. या प्रकरणात, उदाहरणार्थ, खर्चातील नाट्यमय घडीचा अर्थ दर काही वर्ष चालविण्याऐवजी- डेमोग्राफिक आणि आरोग्य सर्वेक्षणासाठी मानक म्हणून-याचा अर्थ असा होतो - अशा प्रकारचा सर्वेक्षण प्रत्येक महिन्यात चालवला जाऊ शकतो, जे संशोधक आणि धोरणांकरिता असंख्य फायदे प्रदान करेल निर्मात्यांना. संशयास्पद विचार न घेण्याचा दुसरा पर्याय हा आहे की या अभ्यासात मूलभूत कृती आहे जी विविध संशोधन परिस्थितींमध्ये तयार केली जाऊ शकते. या कृतीमध्ये केवळ दोन घटक आणि दोन चरण आहेत. हे साहित्य (1) एक मोठा डेटा स्रोत आहे जो रुंद पण पातळ आहे (म्हणजे, त्यामध्ये अनेक लोक आहेत परंतु प्रत्येक व्यक्तीबद्दल आपल्याला आवश्यक ती माहिती नाही) आणि (2) एक सर्वेक्षण जे अरुंद परंतु जाड आहे (म्हणजेच, ते केवळ काही लोक, परंतु त्या लोकांविषयी माहिती असणे आवश्यक आहे). हे साहित्य नंतर दोन चरणांमध्ये एकत्र केले जाते. प्रथम, डेटा स्त्रोतांमधील लोकांसाठी, मशीन शिकण्याचे मॉडेल तयार करा जे सर्वेक्षणाचे उत्तर सांगण्यासाठी मोठे डेटा स्रोत वापरते पुढे, त्या मॉडेलचा वापर मोठ्या डेटा स्रोतातील प्रत्येकाच्या सर्वेक्षणाच्या उत्तरांवर करणे. अशा प्रकारे जर काही प्रश्न आपण पुष्कळ लोकांना विचारू इच्छित असाल, तर त्या लोकांचे अनुमान काढण्यासाठी वापरल्या जाऊ शकणार्या अशा लोकांकडून मोठा डेटा स्त्रोत शोधा, जरी आपण मोठ्या डेटा स्रोताची पर्वा करीत नाही तरीही . म्हणजेच, ब्लूमनस्टॉक आणि सहकाऱ्यांनी कॉल रेकॉर्डची प्रज्वलित काळजी घेतली नाही; ते फक्त कॉल रेकॉर्डबद्दलच काळजी घेत होते कारण त्यांच्यावरील सर्वेक्षणाचा अंदाज लावण्यासाठी ते वापरता येऊ शकतील. मोठ्या डेटा स्रोतामधील हा वैशिष्ट्यपूर्ण अप्रत्यक्ष रूची-बनवून एम्बेडेड विचारण्यापेक्षा वेगळे विचारणा करते, जे मी पूर्वी वर्णन केले होते.
शेवटी, ब्लूमनस्टॉकच्या सुविधेसाठी विचारले जाणारे एक मोठे डेटा स्त्रोत असलेल्या एकत्रित सर्वेक्षणाचा डेटा सुवर्ण-मानक सर्वेक्षणांमधील तज्ञांशी तुलना करून अंदाज तयार करणे. हे विशिष्ट उदाहरण देखील विस्तारपूर्वक विचारणे आणि पारंपारिक सर्वेक्षण पद्धतींमधील काही ट्रेड-ऑफ स्पष्ट करते. विस्तृत विचाराधीन अंदाज वेळेवर, अधिक स्वस्त, आणि अधिक बारीक होते. पण, दुसरीकडे, अशा प्रकारचे विस्तृत विचारण्यासाठी अद्याप एक मजबूत सैद्धांतिक आधार नाही. हे एकमेव उदाहरण जेव्हा हे दृष्टिकोन कार्य करेल आणि त्यास कधी येणार नाही तेव्हा दिसत नाही, आणि या दृष्टिकोनाचा वापर करणा-या संशोधकांना विशेषत: कोणाचा समावेश आहे - आणि जे त्यांच्या मोठ्या डेटा स्त्रोतामध्ये समाविष्ट नसलेल्या संभाव्य परीणामांबद्दल विशेषतः चिंतित असणे आवश्यक आहे. आणखी, विस्तृत विचारांच्या पध्दतीमध्ये अद्याप त्याच्या अंदाजाभोवती अनिश्चिततेचे मोजमाप करण्यासाठी चांगले मार्ग नाहीत. सुदैवाने विचारण्यात आले की आकडेवारीमध्ये लहान क्षेत्रीय अंदाज (Rao and Molina 2015) , दोष (Rubin 2004) , आणि मॉडेल-आधारित पोस्ट-स्टेराटिफिकेशन (जे स्वतः श्री. पी. मी यापूर्वी या प्रकरणात वर्णन केलेले पद्धत) (Little 1993) . या खोल कनेक्शनमुळे, मी अपेक्षा करतो की प्रगत भाषेच्या अनेक पध्दतीविषयक पाया लवकरच लवकरच सुधारीत होतील.
अखेरीस, ब्लुमेनस्टॉकची पहिली आणि दुसरी प्रयत्न तुलना करणे देखील डिजिटल-वय सामाजिक संशोधनाबद्दल एक महत्त्वपूर्ण धडा शिकवते: सुरुवातीस अंत नाही म्हणजेच बर्याचदा प्रथम दृष्टिकोन सर्वोत्तम होणार नाही, परंतु जर संशोधक काम करत असतील तर गोष्टी अधिक चांगले होऊ शकतात. सामान्यतः, डिजिटल युगात सामाजिक संशोधनास नवीन पध्दतींचे मूल्यांकन करताना, दोन वेगळे मूल्यांकन करणे महत्त्वाचे आहे: (1) हे कसे चांगले काम करते? आणि (2) डेटा लँडस्केप बदलते म्हणून भविष्यात हे कार्य कसे बदलते आणि संशोधक समस्या अधिक लक्ष समर्पित म्हणून? संशोधकांना प्रथम प्रकारचे मूल्यमापन करण्याचे प्रशिक्षण देण्यात आले असले तरी दुसरी गोष्ट बहुधा अधिक महत्वाची असते.