एनालॉग युगात, वर्तणुकीविषयी माहिती गोळा करणे-कोण काय करते आणि केव्हा महाग होते आणि म्हणूनच तुलनेने दुर्मिळ होते. आता, डिजिटल युगात, अब्जावधी लोकांच्या वर्तणुकीची नोंद, संग्रहित आणि विश्लेषणात्मक आहे. उदाहरणार्थ, प्रत्येक वेळी आपण एखाद्या वेबसाइटवर क्लिक केल्यास, आपल्या मोबाईल फोनवर कॉल करा किंवा आपल्या क्रेडिट कार्डसह काही पैसे द्या, आपल्या व्यवसायाचा डिजिटल रेकॉर्ड तयार केला आणि व्यवसायाद्वारे संचयित केला जातो. कारण या प्रकारची माहिती लोकांच्या रोजच्या कृतींचा उप-उत्पाद आहे, त्यांना अनेकदा डिजिटल ट्रेस असे म्हणतात. व्यवसायांनुसार आयोजित केलेल्या या ट्रेसांव्यतिरिक्त, सरकारे देखील लोक आणि व्यवसायांसाठी दोघेही अचूकपणे समृद्ध डेटा देतात या व्यवसायांसोबत आणि सरकारी नोंदींमध्ये सहसा मोठे डेटा म्हटले जाते.
मोठ्या प्रमाणावरील पूरस्थितीचा अर्थ असा आहे की आपण अशा जगातून गेलो आहोत जिथे वर्तणुकीचा डेटा अशा जगाकडे दुर्लक्ष होता जेथे वर्तणुकीचा डेटा भरपूर होता मोठ्या डेटावरून शिकण्याचा पहिला टप्पा हा साक्षात्कार करीत आहे की तो अनेक वर्षे सामाजिक संशोधनासाठी वापरलेल्या डेटाच्या विस्तृत श्रेणीचा भाग आहे: निरीक्षण डेटा . साधारणपणे, निरीक्षणाचा डेटा हा कोणत्याही डेटामध्ये कोणत्याही प्रकारात हस्तक्षेप न करता सामाजिक प्रणाली पाहण्याचा परिणाम असतो. याबद्दल विचार करण्याजोगा एक कच्चा मार्ग म्हणजे निरीक्षणाचा डेटा म्हणजे सर्व गोष्टी ज्यामध्ये लोकांशी बोलणे (उदा. सर्वेक्षणे, अध्याय 3 चे विषय) किंवा लोकांच्या वातावरणात बदल करणे (उदा. प्रयोग, अध्याय 4 चे विषय) समाविष्ट नाही. अशा प्रकारे, व्यवसाय आणि सरकारी रेकॉर्डव्यतिरिक्त, निरीक्षणात्मक डेटामध्ये वृत्तपत्राच्या लेखांचा मजकूर आणि उपग्रह फोटो देखील समाविष्ट आहे.
या प्रकरणात तीन भाग आहेत. प्रथम, विभाग 2.2 मध्ये, मी मोठ्या डेटा स्त्रोतांचे अधिक तपशीलवार स्पष्टीकरण देतो आणि त्यांच्यात आणि विशेषत: पूर्वीच्या सामाजिक संशोधनासाठी वापरलेल्या डेटामध्ये मूलभूत फरक स्पष्ट करतो. मग, विभाग 2.3 मध्ये मी मोठ्या डेटा स्त्रोतांच्या दहा सामान्य वैशिष्ट्यांचे वर्णन करतो. ही वैशिष्ट्ये समजून घेणे आपल्याला सध्याच्या स्त्रोतांची ताकद आणि कमजोरपणा ओळखण्यास सक्षम करते आणि भविष्यात उपलब्ध होणार्या नवीन स्रोतांचा वापर करण्यास मदत करेल. अखेरीस, विभाग 2.4 मध्ये, मी तीन मुख्य संशोधन योजनांचे वर्णन करतो ज्याचा वापर आपण अवलोकन डेटामधून शिकण्यासाठी करू शकता: गोष्टींची गणना करणे, गोष्टी अंदाज लावणे, आणि प्रयोग अंदाजे करणे