Вимірювання великих джерел даних значно менш імовірно змінює поведінку.
Одним з викликів соціальних досліджень є те, що люди можуть змінювати свою поведінку, коли знають, що їх дотримуються дослідники. Соціологи зазвичай називають цю реактивність (Webb et al. 1966) . Наприклад, люди можуть бути більш щедрими в лабораторних дослідженнях, ніж польові дослідження, оскільки в перших вони дуже добре знають, що вони спостерігаються (Levitt and List 2007a) . Один із аспектів великих даних, який багато дослідників вважає перспективним, полягає в тому, що учасники, як правило, не усвідомлюють, що їх дані зафіксовані або вони настільки звикли до цього збору даних, що вони більше не змінюють свою поведінку. Тому що учасники не реактивні , тому багато джерел великих даних можуть бути використані для вивчення поведінки, яка раніше не піддавалася точному вимірюванню. Наприклад, Stephens-Davidowitz (2014) використовував поширеність расистських термінів у пошукових системах, щоб виміряти расові анімуси в різних регіонах США. Неактивні та великі (див. Розділ 2.3.1) характер даних, які вводяться в пошукові дані, які важко використовувати за допомогою інших методів, таких як опитування.
Проте, відсутність реактивності не гарантує, що ці дані якимось чином є прямим відображенням поведінки або ставлення людей. Наприклад, як зазначив один з респондентів в інтерв'ю, "Я не маю проблем, я просто не розміщую їх на Facebook" (Newman et al. 2011) . Інакше кажучи, навіть якщо деякі великі джерела даних є нереакційними, вони не завжди є вільними від упередженості соціальної доцільності, тобто тенденції до того, що люди хочуть представити себе найкращим чином. Крім того, як я описав пізніше в цій главі, поведінка, зафіксована у великих джерелах даних, іноді вражає цілі власників платформи, це проблема, яку я називаю алгоритмічним змішуванням . Нарешті, хоча невідповідність є вигідною для досліджень, відстеження поведінки людей без їх згоди та обізнаності висуває етичні проблеми, які я докладно описати в розділі 6.
Ці три властивості, які я щойно описав, - великі, постійні та нееактивні - загалом, але не завжди, вигідні для соціальних досліджень. Далі я звернуся до семи властивостей великих джерел даних - неповних, недоступних, не представницьких, дрейфуючих, алгоритмічно конфліктованих, брудних та чутливих - що загалом, але не завжди, створюють проблеми для досліджень.