Поведінка у великих системах даних не природна; це керується інженерними цілями систем.
Хоча багато великих джерел даних нееактивні, оскільки люди не знають, що їхні дані записуються (розділ 2.3.3), дослідники не повинні враховувати, що поведінка в цих онлайнових системах "природно зустрічається". Насправді цифрові системи, які записують поведінку, надзвичайно спроектований, щоб спонукати до певної поведінки, наприклад, натискання реклами або публікації вмісту. Способи, якими цілі системних конструкторів можуть вводити моделі в дані, називається алгоритмічним змішуванням . Алгоритмічний конфлікт порівняно невідомий для соціальних дослідників, але це серйозне занепокоєння уважними вченими даних. І, на відміну від деяких інших проблем із цифровими слідами, алгоритмічне затьмарювання багато в чому невидиме.
Відносно простий приклад алгоритмічного змішування - той факт, що на Facebook є аномально велика кількість користувачів із приблизно 20 друзями, як це було виявлено Йоханом Уґандером та його колегами (2011) . Вчені, аналізуючи ці дані без розуміння того, як працює робота в Facebook, без сумніву можуть створити багато історій про те, як 20 - це якийсь магічний соціальний номер. На щастя, Угандер та його колеги мали глибоке розуміння процесу, який генерує дані, і вони знали, що Facebook заохочує людей, які мають кілька підключень на Facebook, щоб залучити нових друзів до досягнення 20 друзів. Хоча Угандер та його колеги цього не говорять в своїй роботі, така політика, імовірно, була створена Facebook, з тим щоб заохотити нових користувачів стати більш активними. Однак, не знаючи про існування цієї політики, легко зробити неправильний вивід з даних. Іншими словами, на диво велика кількість людей з приблизно 20 друзями розповідає нам більше про Facebook, ніж про людську поведінку.
У цьому попередньому прикладі алгоритмічне змішування викликало химерний результат, який ретельний дослідник міг би виявити та дослідити далі. Проте існує ще більш складна версія алгоритмічного змішування, що трапляється, коли дизайнери онлайн-систем усвідомлюють соціальні теорії, а потім готують ці теорії до роботи своїх систем. Соціологи називають цю оперативність : коли теорія змінює світ таким чином, що він зближує світ з теорією. У випадку перформативного алгоритмічного змішування, конфліктність даних дуже важко виявляти.
Одним з прикладів структури, створений завдяки оперативності, є транзитивність в онлайнових соціальних мережах. У 70-х і 80-х роках дослідники неодноразово з'ясували, що, якщо ви дружитесь з Алісою і Бобом, тоді Аліса і Боб, швидше за все, будуть друзями один з одним, ніж якщо вони були двома випадковими обраними людьми. Ця сама картина була знайдена в соціальному графіку на Facebook (Ugander et al. 2011) . Таким чином, можна зробити висновок, що закономірності дружби на Facebook реплікують шаблони офлайнових друзів, принаймні з точки зору транзитивності. Проте величина транзитивності в соціальному графіку Facebook частково обумовлена алгоритмічним змішуванням. Тобто вчені даних у Facebook знали про емпіричні та теоретичні дослідження про транзитивність, а потім запелили його в тому, як працює Facebook. У Facebook є функція "Люди, які ви можете знати", яка пропонує нові друзі, і один із способів, на основі яких Facebook вирішує, хто запропонувати вам, є транзитивністю. Тобто, Facebook частіше за все припускає, що ви стаєте друзями з друзями ваших друзів. Таким чином, ця функція впливає на збільшення транзитивності в соціальному графіку Facebook; Іншими словами, теорія транзитивності зближує світ з прогнозами теорії (Zignani et al. 2014; Healy 2015) . Таким чином, коли великі джерела даних, як видається, відтворюють передбачення соціальної теорії, ми повинні бути впевнені, що сама теорія не була закутана в те, як система працювала.
Замість того, щоб думати про великі джерела даних, як про спостереження за людьми в природному середовищі, метафора більше підходить для спостереження за людьми в казино. Казино - це високоінженерні середовища, призначені для стимулювання певної поведінки, і дослідник ніколи не очікує поведінки в казино, щоб забезпечити безперешкодне вікно в поведінку людей. Звичайно, ви могли б дізнатися про поведінку людини, вивчаючи людей у казино, але якщо ви ігнорували той факт, що дані створюються в казино, ви можете зробити деякі погані висновки.
На жаль, проблему алгоритмічного конфлікту особливо важко, оскільки багато функцій онлайнових систем є фірмовими, слабо документованими та постійно змінюються. Наприклад, як я поясню далі в цьому розділі, алгоритмічне змішування було одним з можливих пояснень поступового розбиття Google Flu Trends (розділ 2.4.2), але це твердження було важко оцінити, оскільки внутрішня робота алгоритму пошуку Google є власний Динамічний характер алгоритмічного змішування є однією з форм дрейфу системи. Алгоритмічне зазіхання означає, що ми повинні бути обережними щодо будь-яких претензій щодо поведінки людей, які походять від єдиної цифрової системи, незалежно від того, наскільки велика вона.