एनालॉग युगमा व्यवहार सम्बन्धी डेटा संग्रह गर्ने - र कहिले महँगो थियो, र त्यसैले अपेक्षाकृत दुर्लभ। अब, डिजिटल युगमा, अरबौं मानिसहरूका व्यवहारहरू रेकर्ड, भण्डारण र विश्लेषण गर्न योग्य छन्। उदाहरणको लागि, प्रत्येक वेबसाइटमा तपाइँले क्लिक गर्नुहुँदा, तपाईंको मोबाइल फोनमा कल गर्नुहोस्, वा तपाईंको क्रेडिट कार्डको साथ केहिको लागि भुक्तानी गर्नुहोस्, तपाईंको व्यवहारको डिजिटल रेकर्ड सिर्जना र व्यवसाय द्वारा भण्डार गरिएको छ। किनकि यी प्रकारका डाटाहरू व्यक्तिको दैनिक क्रियाकलापहरूको बिरोध हो, तिनीहरू प्राय: डिजिटल निशान भनिन्छ। व्यवसायद्वारा राखिएको यी ट्रेसहरूको अतिरिक्त, सरकारहरूसँग पनि मानिस र व्यवसाय दुवैको बारेमा अविश्वसनीय धनी डेटा छ। सँगै यी व्यवसाय र सरकारी रेकर्डहरू प्राय: ठूलो डाटा भनिन्छ।
ठूलो डाटाको सदा-बढ्ने बाढी भनेको हो कि हामी विश्वबाट चलेका छौं जहाँ व्यवहार डेटा एकदम विश्वमा थियो जहाँ व्यवहार डेटा अति उत्कृष्ट छ। ठूलो डेटाबाट सिक्नको लागि पहिलो चरण यो आश्वस्त छ कि यो डेटा को एक व्यापक श्रेणी को भाग हो जुन सामाजिक अनुसन्धान को लागी धेरै सालों को लागि उपयोग गरिएको छ: अवलोकन डेटा । प्रायः, अवलोकनिक डेटा कुनै पनि डाटा हो जुन सामाजिक प्रणालीको अवलोकन बिना कुनै तरिकामा हस्तक्षेप गर्दछ। यसको बारेमा सोच्ने एक कच्चा तरिका यो हो कि अवलोकन डेटा सबै कुरा हो जुन मान्छे संग कुरा गर्दैन (उदाहरणार्थ, सर्वेक्षण, अध्याय 3 को विषय) वा व्यक्तिको वातावरण परिवर्तन गर्दै (जस्तै, प्रयोगहरू, अध्याय 4 को विषय)। यसैले, व्यवसाय र सरकारी रेकर्डहरूको अलावा, अवलोकन डाटाले चीजहरू जस्तै अखबार लेखहरू र उपग्रह फोटोहरू समावेश गर्दछ।
यस अध्यायमा तीन भागहरू छन्। पहिलो, सेक्शन 2.2 मा, म ठूलो डेटा स्रोतहरु लाई अधिक विस्तार मा वर्णन गर्छु र उनको र उन डेटा को बीच सामान्य अंतर को वर्णन गर्छन जो सामान्यतया अतीत मा सामाजिक अनुसन्धान को लागी प्रयोग गरिएको छ। त्यसपछि, खण्ड 2.3 मा, म ठूलो डाटा स्रोतहरूको दस सामान्य विशेषताहरू वर्णन गर्दछु। यी विशेषताहरू बुझ्दा तपाईंलाई सक्षम तुरुन्तै अवस्थित स्रोतहरूको शक्ति र कमजोरीहरू पहिचान गर्न र भविष्यमा उपलब्ध हुने नयाँ स्रोतहरूलाई सहयोग गर्न मद्दत गर्नेछ। अन्तमा, सेक्शन 2.4 मा, मैले तीनवटा अनुसन्धान रणनीतिहरूको वर्णन गर्दछु जुन तपाईले अवलोकन डेटाबाट सिक्न प्रयोग गर्न सक्नुहुन्छ: गिनती चीजहरू, भविष्यवाणी गर्ने चीजहरू, र प्रयोगको अनुमानित अनुमान।