القياس في مصادر البيانات الكبيرة أقل احتمالا لتغيير السلوك.
أحد تحديات البحث الاجتماعي هو أن الناس يمكنهم تغيير سلوكهم عندما يعرفون أن الباحثين يراقبونه. يطلق علماء الاجتماع عادةً هذه التفاعلية (Webb et al. 1966) . على سبيل المثال ، يمكن أن يكون الناس أكثر سخاءً في الدراسات المختبرية من الدراسات الميدانية لأنهم في السابق يدركون تمامًا أنه يتم ملاحظتهم (Levitt and List 2007a) . يتمثل أحد جوانب البيانات الضخمة التي يجدها العديد من الباحثين الواعدين في أن المشاركين لا يدركون عمومًا أن بياناتهم يتم التقاطها أو أنهم اعتادوا على جمع البيانات هذا بحيث لم يعد يغير سلوكهم. نظرًا لأن المشاركين غير متفاعلين ، لذلك ، يمكن استخدام العديد من مصادر البيانات الكبيرة لدراسة السلوك الذي لم يكن قابلاً للقياس الدقيق سابقًا. على سبيل المثال ، Stephens-Davidowitz (2014) مدى انتشار المصطلحات العنصرية في استعلامات محركات البحث لقياس العداء العرقي في مناطق مختلفة من الولايات المتحدة. ساعدت طبيعة البيانات البحثية الكبيرة وغير التفاعلية (انظر القسم 2.3.1) على إجراء قياسات قد تكون صعبة باستخدام طرق أخرى ، مثل الدراسات الاستقصائية.
ومع ذلك ، لا تضمن عدم النشاط أن هذه البيانات هي بطريقة ما انعكاس مباشر لسلوك أو مواقف الناس. على سبيل المثال ، كما قال أحد المشاركين في الدراسة المستندة إلى المقابلة ، "ليس الأمر أني لا أعاني من مشاكل ، فأنا لا أضعها على فيسبوك" (Newman et al. 2011) . وبعبارة أخرى ، على الرغم من أن بعض مصادر البيانات الضخمة غير فعالة ، فإنها لا تكون دائمًا خالية من الانحياز الاجتماعي المرغوب ، وهو ميل الأشخاص إلى تقديم أنفسهم بأفضل طريقة ممكنة. علاوة على ذلك ، كما وصفت لاحقًا في الفصل ، فإن السلوك الذي يتم التقاطه في مصادر البيانات الضخمة يتأثر أحيانًا بأهداف مالكي المنصات ، وهي مسألة سأسميها خوارزمية معقدة . وأخيرًا ، على الرغم من أن الميزة غير المفيدة في البحث ، إلا أنها تتبع سلوك الأشخاص دون موافقتهم ، ويزيد الوعي من المخاوف الأخلاقية التي سأذكرها بالتفصيل في الفصل السادس.
الخصائص الثلاثة التي وصفتها للتو - كبيرة ، ودائمة ، وغير متفاعلة - بشكل عام ، ولكنها ليست دائمًا ، مفيدة للبحث الاجتماعي. بعد ذلك ، سأتحول إلى الخصائص السبع لمصادر البيانات الضخمة - غير مكتملة ، يتعذر الوصول إليها ، غير تمثيلية ، تنجرف ، مرتبكة خوارزميًا ، قذرة ، وحساسة - بشكل عام ، ولكن ليس دائمًا ، تخلق مشاكل للبحث.