मोठे डेटा स्त्रोत सर्वत्र आहेत, परंतु सामाजिक संशोधनासाठी ते वापरणे अवघड असू शकते. माझ्या अनुभवाप्रमाणे, डेटासाठी "मोफत लंच" नियम सारखे काहीतरी आहे: जर आपण त्यास भरपूर काम एकत्रित केले नाही, तर कदाचित आपणास कदाचित भरपूर काम करावे लागणार आहे आणि याचे विश्लेषण.
आजचे मोठे डेटा स्त्रोत आणि उद्या उद्या संभाव्यत: 10 वैशिष्ट्ये असतील. यापैकी तीन सामान्यत: (परंतु नेहमीच नाहीत) संशोधनासाठी उपयुक्त आहेत: मोठा, नेहमी चालू आणि नॉनरेक्टिव संशोधनासाठी सात सामान्य (परंतु नेहमी नसतील) समस्याग्रस्त आहेत: अपूर्ण, दुर्गम, अप्रतिष्ठित, वाहते, अल्गोरिदमिक गोंधळलेले, गलिच्छ आणि संवेदनशील. यातील बर्याच गुणधर्म अखेरीस उद्भवतात कारण सामाजिक संशोधनाच्या उद्देशासाठी मोठे डेटा स्त्रोत तयार केलेले नाहीत.
या धड्यातील कल्पनांवर आधारित, माझ्या मते तीन मुख्य मार्ग आहेत जे सामाजिक संशोधनासाठी मोठे डेटा स्त्रोत सर्वात अमूल्य असतील. प्रथम, ते संशोधकांना प्रतिस्पर्धी सैद्धांतिक अंदाजांमध्ये निर्णय घेण्यास सक्षम करू शकतात. या प्रकारचे काम म्हणजे Farber (2015) (न्यूयॉर्क टॅक्सी चालक) आणि King, Pan, and Roberts (2013) (चीनमध्ये सेन्सॉरशिप). सेकंद, मोठे डेटा स्त्रोत आताकालच्या माध्यमातून धोरणांसाठी सुधारीत मापन सक्षम करू शकतात. काम या प्रकारची एक उदाहरण आहे Ginsberg et al. (2009) (Google Flu Trends). अखेरीस, मोठे डेटा स्त्रोत संशोधकांना प्रयोग केल्याविना संभाव्य अंदाज ला मदत करू शकतात. या प्रकारच्या कामाची उदाहरणे Mas and Moretti (2009) (उत्पादनक्षमतेवर पीअर इफेक्ट) आणि Einav et al. (2015) (eBay वर लिलावाने किंमत सुरू प्रभाव). तथापि, या प्रत्येक दृष्टिकोनातून संशोधकांना डेटामध्ये भरपूर प्रमाणात आणण्यासाठी आवश्यक असते, जसे की अंदाज करणे महत्त्वाचे असते किंवा स्पर्धात्मक अंदाज तयार करणारे दोन सिद्धांत. त्यामुळे मला असे वाटते की मोठे डेटा स्त्रोत काय करू शकतात याचा विचार करण्याचा सर्वोत्तम मार्ग म्हणजे ते संशोधकांना मदत करू शकतात जे स्वारस्यपूर्ण आणि महत्वाचे प्रश्न विचारू शकतात.
समाप्तीपूर्वी, माझ्या मते डेटा आणि सिद्धांत यांच्यातील संबंधांवर मोठा डेटा स्त्रोतांचा महत्त्वपूर्ण प्रभाव असू शकतो हे लक्षात घेण्यासारखे आहे असे मला वाटते. आतापर्यंत, या प्रकरणात सिद्धांत-आधारित अनुभवात्मक संशोधनाचा दृष्टीकोन घेतला आहे. परंतु मोठ्या डेटा स्त्रोतांमुळे संशोधकांना प्रेरित होण्यास प्रेरित करणे शक्य होते . म्हणजेच, अनुभवजन्य तथ्ये, नमुने आणि कोडीस यांच्या काळजीपूर्वक जमा केल्यामुळे संशोधक नवीन सिद्धान्त तयार करू शकतात. हे पर्यायी, डेटा-थिअरीला प्रथम दृष्टिकोन नवीन नाही आणि बार्नी ग्लॅझर आणि अॅन्सलम स्ट्रास (1967) यांनी जमिनीवर आधारित सिद्धांताबद्दल त्यांच्या कॉलसह हे सर्वात जोरदारपणे स्पष्टपणे स्पष्ट केले. तथापि, डेटा-प्रथम दृष्टिकोन, "सिद्धांत संपुष्टात आला" दर्शवत नाही, कारण डिजिटल युगात (Anderson 2008) संशोधनाच्या काही पत्रकारितेमध्ये दावा केला गेला आहे. ऐवजी, डेटा पर्यावरण बदलते म्हणून, डेटा आणि सिद्धांत यांच्यातील संबंधांमध्ये पुन: ज्यामध्ये डेटा संकलन महाग होते अशा जगात केवळ सिद्धांतांनी सुचविलेली माहिती गोळा करणे अधिक उपयुक्त ठरेल. परंतु, अशा जगात जेथे प्रचंड प्रमाणात डेटा विनामूल्य उपलब्ध आहे, तो डेटा-प्रथम दृष्टिकोन देखील वापरून पहा (Goldberg 2015) .
मी या प्रकरणात दाखवल्याप्रमाणे, संशोधक लोक बघून बरेच काही शिकू शकतात. पुढील तीन अध्याय मध्ये, मी वर्णन करतो की आपण आपल्या डेटाचे संकलन करून त्यास प्रश्न विचारून (अध्याय 3), चालू प्रयोग (अध्याय 4), आणि त्यात सामील करून थेटपणे अधिक लोकांशी संवाद साधल्यास आपण अधिक आणि वेगळ्या गोष्टी शिकू शकतो. संशोधन प्रक्रियेत थेट (धडा 5).