बड़े डेटा स्रोत हर जगह हैं, लेकिन सामाजिक शोध के लिए उनका उपयोग करना मुश्किल हो सकता है। मेरे अनुभव में, डेटा के लिए "कोई मुफ्त लंच" नियम जैसा कुछ नहीं है: यदि आप इसे एकत्रित करने में बहुत अधिक काम नहीं करते हैं, तो आपको शायद इसके बारे में बहुत सारे काम करने की ज़रूरत है और इसका विश्लेषण
आज के बड़े डेटा स्रोत- और कल की संभावना-इसमें 10 विशेषताएं होंगी। इनमें से तीन आम तौर पर शोध के लिए सहायक होते हैं (लेकिन हमेशा नहीं): बड़े, हमेशा चालू, और गैर-सक्रिय। सात आम तौर पर शोध के लिए समस्याग्रस्त (लेकिन हमेशा नहीं): अपूर्ण, अपर्याप्त, गैर-प्रतिनिधि, बहती हुई, एल्गोरिदमिक रूप से उलझन में, गंदे और संवेदनशील होते हैं। इन विशेषताओं में से कई अंततः उत्पन्न होते हैं क्योंकि सामाजिक शोध के उद्देश्य के लिए बड़े डेटा स्रोत नहीं बनाए गए थे।
इस अध्याय में विचारों के आधार पर, मुझे लगता है कि तीन मुख्य तरीके हैं कि सामाजिक डेटा के लिए बड़े डेटा स्रोत सबसे मूल्यवान होंगे। सबसे पहले, वे शोधकर्ताओं को प्रतिस्पर्धी सैद्धांतिक भविष्यवाणियों के बीच निर्णय लेने में सक्षम बना सकते हैं। इस तरह के काम के उदाहरणों में Farber (2015) (न्यूयॉर्क टैक्सी ड्राइवर) और King, Pan, and Roberts (2013) (चीन में सेंसरशिप) शामिल हैं। दूसरा, बड़े डेटा स्रोत अबकास्टिंग के माध्यम से नीति के लिए बेहतर माप सक्षम कर सकते हैं। इस तरह के काम का एक उदाहरण Ginsberg et al. (2009) (Google फ़्लू रुझान)। अंत में, बड़े डेटा स्रोत शोधकर्ताओं को प्रयोग चलाने के बिना कारण अनुमान बनाने में मदद कर सकते हैं। इस तरह के काम के उदाहरण Mas and Moretti (2009) (उत्पादकता पर सहकर्मी प्रभाव) और Einav et al. (2015) (ईबे पर नीलामी पर मूल्य शुरू करने का प्रभाव)। हालांकि, इन दृष्टिकोणों में से प्रत्येक को शोधकर्ताओं को डेटा में बहुत कुछ लाने की आवश्यकता होती है, जैसे अनुमान लगाने के लिए महत्वपूर्ण मात्रा या परिभाषा भविष्यवाणियों के दो सिद्धांतों की परिभाषा। इस प्रकार, मुझे लगता है कि बड़े डेटा स्रोत क्या कर सकते हैं, इस बारे में सोचने का सबसे अच्छा तरीका यह है कि वे शोधकर्ताओं की मदद कर सकते हैं जो दिलचस्प और महत्वपूर्ण प्रश्न पूछ सकते हैं।
निष्कर्ष निकालने से पहले, मुझे लगता है कि यह मानना उचित है कि डेटा और सिद्धांत के बीच संबंधों पर बड़े डेटा स्रोतों का महत्वपूर्ण प्रभाव हो सकता है। अब तक, इस अध्याय ने सिद्धांत-आधारित अनुभवजन्य शोध का दृष्टिकोण लिया है। लेकिन बड़े डेटा स्रोत शोधकर्ताओं को अनुभवी रूप से संचालित थियोरिज़िंग करने में भी सक्षम करते हैं। यही है, अनुभवजन्य तथ्यों, पैटर्न, और पहेली के सावधान संचय के माध्यम से, शोधकर्ता नए सिद्धांतों का निर्माण कर सकते हैं। सिद्धांत के इस विकल्प, डेटा पहले दृष्टिकोण कोई नई बात नहीं है, और यह सबसे जबरदस्ती बार्नी ग्लेसर और एन्सेल्म स्ट्रास द्वारा व्यक्त किया गया था (1967) बुनियादी सिद्धांत के लिए अपने कॉल के साथ। हालांकि, डेटा-प्रथम दृष्टिकोण डिजिटल सिद्धांत (Anderson 2008) में शोध के आसपास के कुछ पत्रकारिता में दावा किया गया है कि "सिद्धांत का अंत" का अर्थ नहीं है। इसके बजाय, जैसे डेटा वातावरण बदलता है, हमें डेटा और सिद्धांत के बीच संबंधों में पुनर्वितरण की अपेक्षा करनी चाहिए। ऐसी दुनिया में जहां डेटा संग्रह महंगा था, केवल यह आंकड़ा इकट्ठा करने के लिए समझ में आया कि सिद्धांतों का सुझाव सबसे उपयोगी होगा। लेकिन, ऐसी दुनिया में जहां बड़ी मात्रा में डेटा पहले से ही मुफ्त में उपलब्ध है, तो डेटा-प्रथम दृष्टिकोण (Goldberg 2015) को भी आजमाने का अर्थ है।
जैसा कि मैंने इस अध्याय में दिखाया है, शोधकर्ता लोगों को देखकर बहुत कुछ सीख सकते हैं। अगले तीन अध्यायों में, मैं वर्णन करूंगा कि हम कैसे और अधिक अलग-अलग चीजें सीख सकते हैं यदि हम अपने डेटा संग्रह को तैयार करते हैं और लोगों से प्रश्न पूछते हैं (अध्याय 3), प्रयोग चल रहे हैं (अध्याय 4), और यहां तक कि उन्हें शामिल करना सीधे शोध प्रक्रिया में (अध्याय 5)।