Поведение в больших системах данных не является естественным; это обусловлено инженерными целями систем.
Хотя многие крупные источники данных неактивны, потому что люди не знают, что их данные записываются (раздел 2.3.3), исследователи не должны рассматривать поведение в этих онлайн-системах как «естественное». На самом деле цифровые системы, которые регистрируют поведение, с высокой степенью инженерии, чтобы побуждать к конкретному поведению, например, кликать по объявлениям или размещать контент. Пути, с помощью которых разработчики системы могут вводить шаблоны в данные, называются алгоритмическими . Алгоритмическое смешение относительно неизвестно социологам, но это серьезная проблема среди ученых-исследователей. И, в отличие от некоторых других проблем с цифровыми трассами, алгоритмическое смешение в значительной степени невидимо.
Сравнительно простым примером алгоритмического смешения является тот факт, что на Facebook существует аномально большое количество пользователей с примерно 20 друзьями, как было обнаружено Йоханом Угандером и его коллегами (2011) . Ученые, анализирующие эти данные без какого-либо понимания того, как работает Facebook, могут, несомненно, генерировать много историй о том, как 20 является своего рода магическим социальным номером. К счастью, Угандер и его коллеги прекрасно понимали процесс, который генерировал данные, и они знали, что Facebook поощряет людей с небольшим количеством связей на Facebook, чтобы больше друзей, пока они не достигли 20 друзей. Хотя Угандер и его коллеги не говорят об этом в своей статье, эта политика предположительно была создана Facebook, чтобы побудить новых пользователей активизироваться. Однако, не зная о существовании этой политики, легко сделать неверный вывод из данных. Другими словами, удивительно большое количество людей с примерно 20 друзьями рассказывает нам больше о Facebook, чем о человеческом поведении.
В этом предыдущем примере алгоритмическое смешение породило изворотливый результат, который тщательный исследователь мог обнаружить и исследовать дальше. Тем не менее, существует еще более сложная версия алгоритмического смешения, которая возникает, когда разработчики онлайн-систем знают о социальных теориях, а затем испепеляют эти теории в работе своих систем. Социологи называют эту перформативность : когда теория меняет мир таким образом, что он приближает мир к теории. В случае перформативного алгоритмического смешения, сложный характер данных очень трудно обнаружить.
Одним примером шаблона, созданного перформативностью, является транзитивность в онлайновых социальных сетях. В 1970-х и 1980-х годах исследователи неоднократно обнаруживали, что если вы дружите с Алисой и Бобом, тогда Алиса и Боб с большей вероятностью будут дружить друг с другом, чем если бы они были двумя случайно выбранными людьми. Эта же картина была найдена в социальном графе на Facebook (Ugander et al. 2011) . Таким образом, можно сделать вывод, что модели дружбы на Facebook реплицируют модели автономной дружбы, по крайней мере, с точки зрения транзитивности. Однако величина транзитивности в социальном графике Facebook частично обусловлена алгоритмическим смешением. То есть ученые-данные в Facebook знали об эмпирических и теоретических исследованиях транзитивности, а затем испекли это в том, как работает Facebook. Facebook имеет функцию «Люди, которых вы знаете», которая предлагает новых друзей, и один из способов, которым Facebook решает, кто вам предлагать, - это транзитивность. То есть, Facebook с большей вероятностью предложит вам подружиться с друзьями своих друзей. Таким образом, эта функция имеет эффект увеличения транзитивности в социальном графе Facebook; другими словами, теория транзитивности приводит мир в соответствие с предсказаниями теории (Zignani et al. 2014; Healy 2015) . Таким образом, когда большие источники данных, по-видимому, воспроизводят прогнозы социальной теории, мы должны быть уверены, что сама теория не запекла в том, как работает система.
Вместо того, чтобы думать о больших источниках данных как о наблюдении людей в естественной обстановке, более подходящая метафора наблюдает за людьми в казино. Казино - это сильно спроектированные среды, предназначенные для того, чтобы вызывать определенное поведение, и исследователь никогда не ожидал, что поведение в казино обеспечит неограниченное окно в человеческое поведение. Конечно, вы могли бы узнать что-то о человеческом поведении, изучая людей в казино, но если вы проигнорировали тот факт, что данные создавались в казино, вы можете сделать некоторые плохие выводы.
К сожалению, проблема с алгоритмическим смешением особенно сложна, потому что многие функции онлайновых систем являются собственностью, плохо документированы и постоянно меняются. Например, как я объясню позже в этой главе, алгоритмическое смешение было одним из возможных объяснений постепенного распада Google Flu Trends (раздел 2.4.2), но это утверждение было трудно оценить, поскольку внутренняя работа алгоритма поиска Google собственность. Динамическая природа алгоритмического смешения является одной из форм дрейфа системы. Алгоритмическое смешение означает, что мы должны быть осторожны в отношении любых заявлений о поведении людей, которые исходят из единой цифровой системы, независимо от того, насколько велика.