एनालॉग युग में, व्यवहार के बारे में डेटा एकत्र करना-जो करता है, और कब महंगा था, और इसलिए अपेक्षाकृत दुर्लभ था। अब, डिजिटल युग में, अरबों लोगों के व्यवहार रिकॉर्ड, संग्रहित और विश्लेषण योग्य हैं। उदाहरण के लिए, हर बार जब आप किसी वेबसाइट पर क्लिक करते हैं, तो अपने मोबाइल फोन पर कॉल करें, या अपने क्रेडिट कार्ड से कुछ के लिए भुगतान करें, आपके व्यवहार का डिजिटल रिकॉर्ड किसी व्यवसाय द्वारा बनाया और संग्रहीत किया जाता है। चूंकि इस प्रकार के डेटा लोगों के रोजमर्रा के कार्यों का उपज है, इसलिए उन्हें अक्सर डिजिटल निशान कहा जाता है । व्यवसायों द्वारा आयोजित इन निशानों के अतिरिक्त, सरकारों के पास दोनों लोगों और व्यवसायों के बारे में अविश्वसनीय रूप से समृद्ध डेटा भी है। इन व्यवसायों और सरकारी रिकॉर्डों को एक साथ बड़े डेटा कहा जाता है।
बड़े आंकड़ों की बढ़ती बाढ़ का मतलब है कि हम ऐसी दुनिया से चले गए हैं जहां व्यवहारिक डेटा एक ऐसी दुनिया के लिए दुर्लभ था जहां व्यवहारिक डेटा भरपूर मात्रा में था। बड़े डेटा से सीखने का पहला कदम यह महसूस कर रहा है कि यह व्यापक श्रेणी का डेटा है जिसका उपयोग कई वर्षों तक सामाजिक शोध के लिए किया गया है: अवलोकन डेटा । असल में, अवलोकन संबंधी डेटा कोई भी डेटा है जो बिना किसी हस्तक्षेप के सोशल सिस्टम को देखने से होता है। इसके बारे में सोचने का एक कठिन तरीका यह है कि अवलोकन डेटा वह सब कुछ है जिसमें लोगों के साथ बात करना शामिल नहीं है (उदाहरण के लिए, सर्वेक्षण, अध्याय 3 का विषय) या लोगों के वातावरण को बदलना (उदाहरण के लिए, प्रयोग, अध्याय 4 का विषय)। इस प्रकार, व्यापार और सरकारी अभिलेखों के अलावा, अवलोकन संबंधी डेटा में समाचार पत्र लेखों और उपग्रह फ़ोटो के पाठ जैसी चीजें भी शामिल हैं।
इस अध्याय में तीन हिस्से हैं। सबसे पहले, सेक्शन 2.2 में, मैं बड़े डेटा स्रोतों का अधिक विस्तार से वर्णन करता हूं और उनके बीच एक मौलिक अंतर स्पष्ट करता हूं और डेटा जो आम तौर पर अतीत में सामाजिक शोध के लिए उपयोग किया जाता है। फिर, सेक्शन 2.3 में, मैं बड़े डेटा स्रोतों की दस सामान्य विशेषताओं का वर्णन करता हूं। इन विशेषताओं को समझना आपको मौजूदा स्रोतों की ताकत और कमजोरियों को तुरंत पहचानने में सक्षम बनाता है और भविष्य में उपलब्ध नए स्रोतों का उपयोग करने में आपकी सहायता करेगा। अंत में, धारा 2.4 में, मैं तीन मुख्य शोध रणनीतियों का वर्णन करता हूं जिनका उपयोग आप अवलोकन डेटा से सीखने के लिए कर सकते हैं: चीजों की गिनती, चीजों की भविष्यवाणी करना और एक प्रयोग का अनुमान लगाना।