बड़े डेटा स्रोतों में मापन व्यवहार को बदलने की संभावना कम है।
सामाजिक शोध की एक चुनौती यह है कि जब लोग जानते हैं कि वे शोधकर्ताओं द्वारा देखे जा रहे हैं तो लोग अपना व्यवहार बदल सकते हैं। सामाजिक वैज्ञानिक आमतौर पर इस प्रतिक्रियाशीलता (Webb et al. 1966) । उदाहरण के लिए, लोग क्षेत्रीय अध्ययनों की तुलना में प्रयोगशाला अध्ययन में अधिक उदार हो सकते हैं क्योंकि पूर्व में वे बहुत जानते हैं कि उन्हें देखा जा रहा है (Levitt and List 2007a) । बड़े शोधकर्ताओं का एक पहलू जो कई शोधकर्ताओं को आशाजनक लगता है कि प्रतिभागियों को आम तौर पर पता नहीं है कि उनके डेटा पर कब्जा कर लिया जा रहा है या वे इस डेटा संग्रह के प्रति आदी हो गए हैं कि यह अब उनके व्यवहार को बदल नहीं सकता है। चूंकि प्रतिभागी गैर - निष्क्रिय होते हैं, इसलिए, बड़े डेटा के कई स्रोतों का उपयोग ऐसे व्यवहार का अध्ययन करने के लिए किया जा सकता है जो पहले सटीक माप के लिए उपयुक्त नहीं हैं। उदाहरण के लिए, Stephens-Davidowitz (2014) ने संयुक्त राज्य के विभिन्न क्षेत्रों में नस्लीय एनिमस को मापने के लिए खोज इंजन प्रश्नों में जातिवादी शब्दों के प्रसार का उपयोग किया। गैर-सक्रिय और बड़े (अनुभाग 2.3.1 देखें) खोज डेटा सक्षम माप की प्रकृति जो सर्वेक्षणों जैसे अन्य विधियों का उपयोग करना मुश्किल होगा।
हालांकि, गैर-सक्रियता यह सुनिश्चित नहीं करती है कि ये डेटा किसी भी तरह से लोगों के व्यवहार या दृष्टिकोण का प्रत्यक्ष प्रतिबिंब है। उदाहरण के लिए, एक साक्षात्कार आधारित अध्ययन में एक उत्तरदाता ने कहा, "ऐसा नहीं है कि मुझे कोई समस्या नहीं है, मैं उन्हें फेसबुक पर नहीं डाल रहा हूं" (Newman et al. 2011) । दूसरे शब्दों में, भले ही कुछ बड़े डेटा स्रोत अपरिवर्तनीय हैं, फिर भी वे हमेशा सामाजिक वांछनीयता पूर्वाग्रह से मुक्त नहीं होते हैं, लोगों के लिए सबसे अच्छा संभव तरीके से पेश करना चाहते हैं। इसके अलावा, जैसा कि मैंने अध्याय में बाद में वर्णन किया है, बड़े डेटा स्रोतों में कब्जा कर लिया गया व्यवहार कभी-कभी प्लेटफार्म मालिकों के लक्ष्यों से प्रभावित होता है, एक मुद्दा मैं एल्गोरिदमिक उलझन में कॉल करूंगा। अंत में, यद्यपि गैर-सक्रियता अनुसंधान के लिए फायदेमंद है, लोगों की व्यवहार को उनकी सहमति के बिना ट्रैक करना और जागरूकता नैतिक चिंताओं को उठाती है जिसे मैं अध्याय 6 में विस्तार से बताऊंगा।
मैंने जिन तीन गुणों का वर्णन किया है- बड़े, हमेशा-पर, और गैर-निष्क्रिय-आम तौर पर, लेकिन सामाजिक अनुसंधान के लिए फायदेमंद नहीं होते हैं। इसके बाद, मैं बड़े डेटा स्रोतों के सात गुणों को बदल दूंगा-अपूर्ण, अपर्याप्त, गैर-प्रतिनिधि, बहती हुई, एल्गोरिदमिक रूप से उलझन, गंदे, और संवेदनशील-जो आम तौर पर, लेकिन हमेशा नहीं, अनुसंधान के लिए समस्याएं पैदा करते हैं।