اندازه گیری در منابع داده بزرگ بسیار کمتر به تغییر رفتار است.
یکی از چالش های تحقیق اجتماعی این است که مردم می توانند رفتار خود را تغییر دهند، زمانی که می دانند که آنها توسط محققان مشاهده می شوند. دانشمندان علوم اجتماعی عموما این واکنش را می نامند (Webb et al. 1966) . به عنوان مثال، در مطالعات آزمایشگاهی مردم می توانند نسبت به مطالعات میدانی سخاوتمندانه تر باشند، زیرا در اولین آنها بسیار آگاه هستند که در حال مشاهده هستند (Levitt and List 2007a) . یک جنبه از داده های بزرگ که بسیاری از محققان امیدوار کننده می دانند این است که شرکت کنندگان عموما آگاه نیستند که اطلاعات آنها در دست گرفتن یا تبدیل شدن به چنین جمع آوری داده ها عادت کرده اند که دیگر رفتار آنها را تغییر نمی دهد. از آنجا که شرکت کنندگان غیر فعال هستند، بنابراین، بسیاری از منابع داده بزرگ می توانند مورد استفاده قرار گیرد برای مطالعه رفتار که قبل از اندازه گیری دقیق قابل قبول نیست. به عنوان مثال، Stephens-Davidowitz (2014) از شایع بودن شرایط نژادپرستانه در پرسشهای موتور جستوجوی برای سنجش نژاد نژادی در مناطق مختلف ایالات متحده استفاده کرد. غیر فعال و بزرگ (نگاه کنید به بخش 2.3.1) ماهیت داده های جستجو داده ها فعال اندازه گیری است که با استفاده از روش های دیگر، مانند نظرسنجی ها مشکل است.
با این حال، عدم پاسخگویی اطمینان حاصل می کند که این اطلاعات به نوعی نمایانگر مستقیم رفتار یا نگرش مردم است. به عنوان مثال، به عنوان یک پاسخ دهنده در یک مطالعه مبتنی بر مصاحبه گفت: "این نیست که من مشکل ندارم، من فقط آنها را در فیس بوک قرار نمی دهم" (Newman et al. 2011) . به عبارت دیگر، حتی اگر برخی از منابع بزرگ داده ها غیر فعال باشند، آنها همیشه از تعصب مطلوب اجتماعی محروم نیستند، تمایل مردم به خواندن بهترین راه ممکن است. علاوه بر این، همانطور که در فصل بعد توضیح خواهم داد، رفتارهایی که در منابع داده بزرگ گرفته شده اند، گاهی تحت تأثیر اهداف صاحبان پلتفرم قرار می گیرند، مسئله ای که من با آن مخالف الگوریتمی می نامم . در نهایت، اگرچه عدم پاسخگویی برای تحقیقات سودمند است، ردیابی رفتار افراد بدون رضایت و آگاهی آنها موجب نگرانی های اخلاقی می شود که من در بخش 6 به طور کامل توضیح خواهم داد.
سه ویژگی که من فقط توضیح دادم - بزرگ، همیشه و غیر فعال - معمولا، اما نه همیشه، برای تحقیقات اجتماعی سودمند است. بعد، من به هفت خصوصیت منابع داده بزرگ تبدیل خواهم کرد - ناقص، غیرقابل دسترس، غیر نماینده، روانکاری، الگوریتمی غلط، کثیف و حساس - که معمولا، اما نه همیشه، باعث ایجاد مشکل برای تحقیق می شود.