Вимірювання набагато менше шансів змінити поведінку в великих джерелах даних.
Одне із завдань соціального дослідження є те, що люди можуть змінити свою поведінку, коли вони знають, що за ними спостерігають дослідниками. Соціологи зазвичай називаємо це зміна поведінки у відповідь на вимірювання дослідника реактивності (Webb et al. 1966) і (Webb et al. 1966) , (Webb et al. 1966) . Одним з аспектів великих обсягів даних, що багато дослідник знайти перспективних є те, що учасники, як правило, не знають, що їх дані перехоплюються або вони настільки звикли до цього збору даних, що вона більше не змінює свою поведінку. Так як вони не реагують, тому багато джерел великих обсягів даних може бути використана для вивчення поведінки, яка не була виправити для точного вимірювання раніше. Наприклад, Stephens-Davidowitz (2014) використовували поширеність расистських термінів в запитах в пошукових системах для вимірювання расової анимус в різних регіонах Сполучених Штатів. Неактивного і великий (див попередній розділ) характер даних пошуку дозволило результати вимірювань, які було б важко з допомогою інших методів, таких як опитування.
Non-реакційна здатність, однак, не гарантує, що ці дані якимось прямим відображають поведінку або ставлення людей. Наприклад, в якості одного з респондентів сказав Newman et al. (2011) і Newman et al. (2011) , "Це не те, що у мене немає проблем, я просто не прикладаючи їх на Facebook." Іншими словами, навіть якщо деякі великі джерела даних не є реактивними, вони не завжди вільні від упередженості соціальної бажаності , тенденція людей хочуть представити себе в кращому вигляді. Крім того, як я опишу більш нижче, ці джерела даних іноді вплив цілей власників платформи, проблема називається алгоритмічної вмешивающимся (більш докладно описано нижче).
Хоча не-реактивність є кращим для дослідження, відстеження поведінки людей без їх згоди і розуміння викликає етичні проблеми обговорюються нижче й докладно описані в главі 6. Публічне люфту проти збільшення цифрового спостереження може призвести великі системи даних, щоб стати більш реактивним з плином часу, і сильний занепокоєння з приводу цифрового спостереження може навіть привести деяких людей , щоб спробувати відмовитися від великих систем даних повністю, збільшуючи стурбованість з приводу відсутності репрезентативності (описано понад нижче).
Ці три хороші властивості великих обсягів даних для соціальних досліджень, великий, завжди на, і не реактивно-виникають, як правило, тому що ці джерела даних не були створені дослідниками для дослідження. Тепер, я перетворю до семи властивостей великих джерел даних, які погано для досліджень. Ці функції також, як правило, виникають через цих даних не була створена дослідниками для дослідження.