2.3.2.5 Алгоритмічно осоромлені

Поведінка в знайдених даних не є природним, він приводиться в рух інженерних задач систем.

Хоча багато знайдені джерела даних не реагують, тому що люди не знають, їх дані записуються (розділ 2.3.1.3), дослідники не повинні розглядати поведінку в цих інтернет-системах, щоб бути "природним" або "чистим". Насправді, цифрові системи які записують поведінку високо спроектовані, щоб викликати певну поведінку, такі як натискання на рекламу або розміщення контенту. Шляхи , що цілі розробників системи можна ввести шаблони в даних називається алгоритмічної втручається. Алгоритмічне вмешивающимся щодо невідомих соціальних вчених, але це є серйозною проблемою серед обережних вчених даних. І, на відміну від деяких інших проблем, пов'язаних з цифровими слідами, алгоритмічне втручається в значній мірі невидимим.

Щодо простий приклад алгоритмічного змішання є той факт , що на Facebook є аномально велику кількість користувачів з приблизно 20 друзів (Ugander et al. 2011) і (Ugander et al. 2011) . Вчені, що аналізують з цими даними без будь-якого розуміння того, як Facebook працює може генерувати багато безсумнівно історії про те, як 20 є свого роду магічним соціальне число. Проте, Ugander і його колеги зробили істотний розуміння процесу, який створив ці дані, і вони знали, що Facebook закликав людей з невеликою кількістю з'єднань на Facebook, щоб зробити більше друзів, поки вони не досягли 20 друзів. Хоча Ugander і його колеги не говорять про це в газеті, ця політика була імовірно створена Facebook для того, щоб заохотити нових користувачів, щоб стати більш активними. Не знаючи про існування цієї політики, однак, це легко зробити невірний висновок з даних. Іншими словами, на превеликий подив велика кількість людей, близько 20 друзів говорить нам більше про Facebook, ніж поведінка людини.

Більш згубним, ніж це в попередньому прикладі, де алгоритмічна вмешивающимся виробництва виверткий результат, що ретельне дослідники могли б досліджувати далі, є ще більш хитрим версія алгоритмічної змішання, що відбувається, коли розробники онлайнових систем знають про соціальних теорій, а потім випікати ці теорії в робоче їх систем. Соціологи називають цю перформативности: коли теорії змінити світ таким чином , що вони приносять мир у відповідність з теорією. У випадках перформативной алгоритмічної змішання, то проклятий характер даних, швидше за все, невидимим.

Одним із прикладів візерунка, створеного перформативности є транзитивність в онлайнових соціальних мережах. У 1970-х і 1980-х роках, дослідники виявили, що кілька разів, якщо ви дружите з Алісою, і ви дружите з Бобом, то Боб і Аліса мають більше шансів бути друзями один з одним, ніж двох випадково обраних людей. І ця ж картина була виявлена ​​в соціальний граф на Facebook (Ugander et al. 2011) і (Ugander et al. 2011) . Таким чином, можна зробити висновок про те, що зразки дружби на Facebook тиражувати моделі в автономному режимі дружбою, по крайней мере, з точки зору транзитивності. Проте, величина транзитивності в соціальний граф Facebook частково управляється алгоритмічної змішання. Тобто, вчені даних на Facebook знав про емпіричних і теоретичних досліджень про транзитивності і потім запікають його в тому, як працює Facebook. Facebook має "Можливо, ви знайомі", яка передбачає нових друзів, і один із способів, що facebook вирішує, хто запропонувати вам це транзитивність. Тобто, Facebook, більш імовірно припустити, що ви стали друзями з друзями ваших друзів. Таким чином, ця функція має ефект збільшення транзитивність в соціальний граф Facebook; Іншими словами, теорія перехідності приносить мир у відповідність з передбаченнями теорії (Healy 2015) . Таким чином, коли великі джерела даних, як видається, відтворюють передбачення соціальної теорії, ми повинні бути впевнені, що сама теорія не випікали в тому, як ця система працювала.

Замість того, щоб думати про великі джерел даних, як спостереження за людьми в природному середовищі, більш підходяща метафора спостерігає людей в казино. Казино високо інженерії середовища, розроблені, щоб викликати певні типи поведінки, і ще дослідники ніколи не могли б очікувати, що поведінка в казино забезпечить необмежену вікно в поведінці людини. Звичайно, ми могли б дізнатися щось про поведінку вивчення людей людини в казино, насправді казино може бути ідеальним місцем для вивчення взаємозв'язку між споживанням алкоголю і ризиком переваг, але якщо ми не враховували, що дані створювалася в казино ми могли б зробити деякі погані висновки.

На жаль, справа з алгоритмічної змішання особливо важко, тому що багато особливостей онлайнових систем є власністю компанії, погано документовані, і постійно змінюється. Наприклад, як я поясню пізніше в цій главі, алгоритмічне вмешивающимся був одним з можливих пояснень поступового розвалу Google Flu Trends (розділ 2.4.2), але ця вимога була важко оцінити, так як внутрішня робота пошуку компанії Google алгоритм є приватною власністю. Динамічний характер алгоритмічної змішання є однією з форм дрейфу системи. Алгоритмічне вмешивающимся означає, що ми повинні проявляти обережність відносно будь-яких претензій до людської поведінки, яке виходить з єдиної цифрової системи, незалежно від того, наскільки велика.