बिग डेटा बनाया है और अनुसंधान के अलावा अन्य प्रयोजनों के लिए सरकारों द्वारा एकत्र कर रहे हैं। अनुसंधान के लिए इस डेटा का उपयोग करना है, इसलिए, repurposing की आवश्यकता है।
सामाजिक अनुसंधान के आर्दश दृश्य एक वैज्ञानिक एक विचार होने और फिर उस विचार का परीक्षण करने के लिए डेटा इकट्ठा माहौल। अनुसंधान की यह शैली अनुसंधान प्रश्न और डेटा के बीच एक तंग फिट करने के लिए होता है, लेकिन यह सीमित एक व्यक्ति शोधकर्ता अक्सर संसाधनों जैसे कि, बड़े अमीर, और राष्ट्रीय स्तर पर प्रतिनिधि डेटा के रूप में डेटा की जरूरत है वे, इकट्ठा करने की जरूरत नहीं है क्योंकि है। इस तरह के सामान्य सामाजिक सर्वेक्षण (जीएसएस), अमेरिकी नेशनल इलेक्शन स्टडी (ANES), और आय गतिशीलता के पैनल अध्ययन (PSID) के रूप में इसलिए, अतीत में सामाजिक अनुसंधान के एक बहुत इस्तेमाल किया गया है बड़े पैमाने पर सामाजिक सर्वेक्षण,। ये आम तौर पर बड़े पैमाने पर सर्वेक्षण के शोधकर्ताओं की एक टीम द्वारा चलाए जा रहे हैं और वे डेटा है कि कई शोधकर्ताओं द्वारा इस्तेमाल किया जा सकता बनाने के लिए तैयार कर रहे हैं। इन बड़े पैमाने पर सर्वेक्षण के लक्ष्यों की वजह से, बहुत ख्याल डेटा संग्रह डिजाइन और शोधकर्ताओं द्वारा इस्तेमाल के लिए परिणामी डेटा तैयारी में डाल दिया है। इन आंकड़ों के शोधकर्ताओं द्वारा और शोधकर्ताओं के लिए कर रहे हैं।
डिजिटल युग स्रोतों का उपयोग ज्यादातर सामाजिक अनुसंधान, हालांकि, मौलिक रूप से अलग है। इसके बजाय शोधकर्ताओं द्वारा और शोधकर्ताओं के लिए एकत्र डेटा का उपयोग कर के, डेटा स्रोतों बनाया है और इस तरह, एक लाभ बनाने के लिए एक सेवा प्रदान करने के लिए, या एक कानून के प्रशासन के रूप में अपने स्वयं के प्रयोजनों के लिए व्यवसायों और सरकारों द्वारा एकत्र किए गए थे कि उपयोग करता है। ये व्यापार और सरकार के डेटा स्रोतों बड़ा डेटा कहा जाता है में आ गए। बड़े डेटा के साथ शोध कर डेटा कि मूल रूप से शोध के लिए बनाया गया था के साथ अनुसंधान कर की तुलना में अलग है। की तुलना करें, उदाहरण के लिए, इस तरह के ट्विटर जैसे सोशल मीडिया वेबसाइट, इस तरह के सामान्य सामाजिक सर्वेक्षण (जीएसएस) के रूप में एक पारंपरिक जनता की राय सर्वेक्षण के साथ। ट्विटर के मुख्य लक्ष्यों अपने उपयोगकर्ताओं के लिए एक सेवा प्रदान करने के लिए और एक लाभ बनाने के लिए कर रहे हैं। इन लक्ष्यों को प्राप्त करने की प्रक्रिया में हैं, ट्विटर डेटा है कि जनता की राय के कुछ पहलुओं के अध्ययन के लिए उपयोगी हो सकता है बनाता है। लेकिन, सामान्य सामाजिक सर्वेक्षण (जीएसएस) के विपरीत, ट्विटर नहीं मुख्य रूप से सामाजिक अनुसंधान पर ध्यान केंद्रित है।
अवधि बड़ा डेटा frustratingly अस्पष्ट है, और यह कई अलग अलग बातें समूहों को एक साथ। सामाजिक अनुसंधान के प्रयोजनों के लिए, मुझे लगता है कि यह बड़ा डेटा स्रोतों के दो प्रकार के बीच भेद करने के लिए उपयोगी है:। सरकार प्रशासनिक रिकॉर्ड और व्यापार प्रशासनिक रिकॉर्ड सरकार के प्रशासनिक रिकॉर्ड डेटा उनके नियमित गतिविधियों के भाग के रूप में सरकारों द्वारा बनाए जाते हैं जो कर रहे हैं। रिकॉर्ड के इन प्रकार के ऐसे अतीत का अध्ययन जन्म, विवाह और मृत्यु रिकॉर्ड है लेकिन सरकारें तेजी से इकट्ठा करने और analyzable रूपों में विस्तृत रिकॉर्ड जारी कर रहे हैं जनसांख्यिक के रूप में शोधकर्ताओं द्वारा इस्तेमाल किया गया है। उदाहरण के लिए, न्यूयॉर्क शहर सरकार शहर में हर टैक्सी के अंदर डिजिटल मीटर स्थापित किया। इन मीटर ड्राइवर, प्रारंभ समय और स्थान, बंद करो समय और स्थान, और किराया सहित प्रत्येक टैक्सी की सवारी के बारे में डेटा के सभी प्रकार के रिकॉर्ड है। एक अध्ययन है कि मैं इस अध्याय में बाद में बताता हूँ में, हेनरी फार्बर (2015) प्रति घंटा मजदूरी और घंटे काम किया है की संख्या के बीच रिश्ते के बारे में श्रम अर्थशास्त्र में एक मौलिक बहस को संबोधित करने के लिए इन आंकड़ों repurposed।
सामाजिक अनुसंधान के लिए बड़ा डेटा की दूसरी मुख्य प्रकार व्यापार प्रशासनिक रिकॉर्ड है। ये आंकड़े है कि व्यापार बना सकते हैं और उनके नियमित गतिविधियों के भाग के रूप में इकट्ठा कर रहे हैं। ये व्यापार प्रशासनिक रिकॉर्ड अक्सर डिजिटल निशान कहा जाता है, और खोज इंजन क्वेरी लॉग, सामाजिक मीडिया पदों की तरह बातें शामिल हैं, और मोबाइल फोन से कॉल रिकॉर्ड। गंभीर, इन व्यापार प्रशासनिक रिकॉर्ड सिर्फ ऑनलाइन व्यवहार के बारे में नहीं कर रहे हैं। उदाहरण के लिए, भंडार है कि चेक-आउट स्कैनर का उपयोग कार्यकर्ता उत्पादकता के वास्तविक समय उपायों पैदा कर रहे हैं। एक अध्ययन है कि मैं तुम्हें इस अध्याय में के बारे में बाद में बताता हूँ, एलेक्जेंडर मास और एनरिको Moretti (2009) का अध्ययन करने के लिए कैसे एक श्रमिक उत्पादकता अपने साथियों की उत्पादकता पर असर पड़ा है इस सुपरमार्केट चेक-आउट डेटा repurposed।
इन उदाहरणों के दोनों वर्णन, repurposing के विचार बड़े डेटा से सीखने के लिए मौलिक है। मेरे अनुभव में, सामाजिक वैज्ञानिकों और डेटा वैज्ञानिकों के लिए यह बहुत अलग ढंग से repurposing के लिए दृष्टिकोण। सामाजिक वैज्ञानिकों, जो अनुसंधान के लिए डिज़ाइन किया गया डेटा के साथ काम करने के आदी रहे हैं, repurposed डेटा के साथ समस्याओं बाहर बात करने, जबकि इसकी ताकत अनदेखी जल्दी कर रहे हैं। दूसरी ओर, डेटा वैज्ञानिकों repurposed डेटा के लाभ के लिए है जबकि अपनी कमजोरियों अनदेखी जल्दी कर रहे हैं। स्वाभाविक रूप से, सबसे अच्छा तरीका एक संकर होगा। यही कारण है कि शोधकर्ताओं के डेटा-दोनों अच्छे और बुरे-और फिर उनके पास से जानने के लिए बाहर आंकड़ा कैसे इन नए स्रोतों की विशेषताओं को समझने की जरूरत है। और, जो इस अध्याय के शेष के लिए योजना है। अगला, मैं व्यापार और सरकार के प्रशासनिक डेटा के दस सामान्य विशेषताओं का वर्णन करेंगे। उसके बाद, मैं तीन अनुसंधान दृष्टिकोण है कि इन आंकड़ों, दृष्टिकोण है कि अच्छी तरह से इस डेटा की विशेषताओं के लिए अनुकूल हैं के साथ इस्तेमाल किया जा सकता का वर्णन करेंगे।