मोठ्या डेटा स्त्रोतांमधील मोजमाप वर्तन बदलण्याची शक्यता कमी आहे.
सामाजिक संशोधनाचा एक आव्हान हा आहे की जेव्हा लोक संशोधकांनी त्यांचे निरीक्षण केले जात आहे तेव्हा लोक त्यांचे वर्तन बदलू शकतात. सामान्यत: सामाजिक वैज्ञानिक या प्रतिक्रियाला म्हणतात (Webb et al. 1966) . उदाहरणार्थ, क्षेत्रीय अभ्यासापेक्षा लोकशाही अभ्यासांमध्ये लोक अधिक उदार होऊ शकतात कारण पूर्वी त्यांना याची जाणीव आहे की (Levitt and List 2007a) देखिल जात आहे. बर्याच संशोधकांनी मोठ्या प्रमाणात डेटा मिळवण्याचा एक पैलू आहे की सहभागींना सामान्यत: हे माहित नसते की त्यांचे डेटा कॅप्चर केले जात आहेत किंवा ते या डेटाच्या संकलनासाठी इतके सवय झालेले आहेत की ते त्यांचे वर्तन बदलत नाहीत. कारण सहभागी अपुरा नसल्याने , मोठ्या डेटाचे अनेक स्त्रोत पूर्वी वर्तणुकीचा अभ्यास करण्यासाठी वापरला जाऊ शकतो जो पूर्वी अचूक मापनास पात्र नाही. उदाहरणार्थ, Stephens-Davidowitz (2014) ने संयुक्त राज्य अमेरिकाच्या विविध भागांमध्ये जातीय Stephens-Davidowitz (2014) शोध इंजिन प्रश्नांमध्ये वर्णनात्मक संज्ञा वापरली. नॉनरेक्टिव्ह आणि मोठे (विभाग 2.3.1 पहा) शोध डेटा सक्षम मापनाचे स्वरूप ज्या इतर पद्धतींचा वापर करणे कठीण होईल, जसे की सर्वेक्षण.
Nonreactivity, तथापि, हे डेटा कोणत्याही प्रकारे लोकांच्या वागणूकीचा किंवा दृष्टिकोनाचा प्रत्यक्ष प्रतिबिंब आहे हे सुनिश्चित करीत नाही. उदाहरणार्थ, एक मुलाखत-आधारित अभ्यासात दिलेल्या प्रतिबंधात असे म्हटले आहे की, "मला असे काही त्रास होत नाहीत की मी त्यांना फेसबुकवर टाकत नाही" (Newman et al. 2011) . दुसऱ्या शब्दांत, जरी काही मोठे डेटा स्त्रोत nonreactive आहेत, ते नेहमी सामाजिक वांछनीयता पूर्वापश्चात नसतात, तर लोक स्वतःला शक्य तितक्या सर्वोत्कृष्ट प्रकारे सादर करू इच्छितात. पुढे, मी अध्याय मध्ये नंतर वर्णन करेल म्हणून, मोठ्या डेटा स्त्रोतांकडून मिळविलेले वागणूक कधीकधी प्लॅटफॉर्म मालकांच्या लक्ष्याने प्रभावित होते, एक समस्या मी अल्गोरिदमिक गोंधळ कॉल करू. अखेरीस, जरी नॉन-अॅक्टिविटी हे संशोधनासाठी फायदेशीर असले तरी लोकांना त्यांच्या संमतीविना व जागरुकता न पाळता नैतिक चिंता वाढवितात ज्या मी अध्याय 6 मध्ये तपशीलवार वर्णन करतो.
तीन गुणधर्म ज्या मी वर्णन केल्या आहेत-मोठे, नेहमी-चालू आणि गैर-क्रियाशील-सामान्यत :, परंतु सामाजिक संशोधनासाठी नेहमीच फायदेशीर नसते. पुढे, मी मोठ्या डेटा स्रोतांच्या सात गुणधर्मांकडे वळणार आहे - अपूर्ण, प्रवेशयोग्य, प्रतिनिधी-नसलेला, ड्रिपिंग, एल्गोरिथम मधून गोंधळलेला, गलिच्छ आणि संवेदनशील-जे सर्वसाधारणपणे परंतु नेहमीच संशोधनासाठी समस्या निर्माण करत नाहीत.