2.3.2.5 Алгоритмически посрамлены

Поведение в найденных данных не является естественным, он приводится в движение инженерных задач систем.

Хотя многие найдены источники данных не реагируют, потому что люди не знают, их данные записываются (раздел 2.3.1.3), исследователи не должны рассматривать поведение в этих интернет-системах, чтобы быть "естественным" или "чистым". В действительности, цифровые системы которые записывают поведение высоко спроектированные, чтобы вызвать определенное поведение, такие как нажатие на рекламу или размещения контента. Пути , что цели разработчиков системы можно ввести шаблоны в данных называется алгоритмической вмешивающимся. Алгоритмическое вмешивающимся относительно неизвестных социальных ученых, но это является серьезной проблемой среди осторожных ученых данных. И, в отличие от некоторых других проблем, связанных с цифровыми следами, алгоритмическое вмешивающимся в значительной степени невидимым.

Относительно простой пример алгоритмического смешению является тот факт , что на Facebook есть аномально большое количество пользователей с приблизительно 20 друзей (Ugander et al. 2011) и (Ugander et al. 2011) . Ученые, анализирующие с этими данными без какого-либо понимания того, как Facebook работает может генерировать много несомненно истории о том, как 20 является своего рода магическим социальное число. Тем не менее, Ugander и его коллеги оказали существенное понимание процесса, создавшего эти данные, и они знали, что Facebook призвал людей с небольшим количеством соединений на Facebook, чтобы сделать больше друзей, пока они не достигли 20 друзей. Хотя Ugander и его коллеги не говорят об этом в газете, эта политика была предположительно создана Facebook для того, чтобы поощрить новых пользователей, чтобы стать более активными. Не зная о существовании этой политики, однако, это легко сделать неверный вывод из данных. Другими словами, на удивление большое количество людей, около 20 друзей говорит нам больше о Facebook, чем поведение человека.

Более губительным, чем это в предыдущем примере, где алгоритмическая вмешивающимся производства изворотливую результат, что тщательное исследователи могли бы исследовать дальше, есть еще более хитрым версия алгоритмической смешению, что происходит, когда разработчики онлайновых систем знают о социальных теорий, а затем выпекать эти теории в рабочее их систем. Социологи называют эту перформативности: когда теории изменить мир таким образом , что они приносят мир в соответствие с теорией. В случаях перформативной алгоритмической смешению, то проклятый характер данных, скорее всего, невидимым.

Одним из примеров узора, созданного перформативности является транзитивность в онлайновых социальных сетях. В 1970-х и 1980-х годах, исследователи обнаружили, что несколько раз, если вы дружите с Алисой, и вы дружите с Бобом, то Боб и Алиса имеют больше шансов быть друзьями друг с другом, чем двух случайно выбранных людей. И эта же картина была обнаружена в социальный граф на Facebook (Ugander et al. 2011) и (Ugander et al. 2011) . Таким образом, можно сделать вывод о том, что образцы дружбы на Facebook тиражировать модели в автономном режиме дружбой, по крайней мере, с точки зрения транзитивности. Тем не менее, величина транзитивности в социальный граф Facebook частично управляется алгоритмической смешению. То есть, ученые данных на Facebook знал о эмпирических и теоретических исследований о транзитивности и затем запекают его в том, как работает Facebook. Facebook имеет "Возможно, вы знакомы", которая предполагает новых друзей, и один из способов, что facebook решает, кто предложить вам это транзитивность. То есть, Facebook, более вероятно предположить, что вы стали друзьями с друзьями ваших друзей. Таким образом, эта функция имеет эффект увеличения транзитивность в социальный граф Facebook; Другими словами, теория переходности приносит мир в соответствие с предсказаниями теории (Healy 2015) . Таким образом, когда большие источники данных, как представляется, воспроизводят предсказания социальной теории, мы должны быть уверены, что сама теория не выпекали в том, как эта система работала.

Вместо того, чтобы думать о больших источников данных, как наблюдения за людьми в естественной обстановке, более подходящая метафора наблюдает людей в казино. Казино высоко инженерии среды, разработанные, чтобы вызвать определенные типы поведения, и еще исследователи никогда не могли бы ожидать, что поведение в казино обеспечит неограниченную окно в поведении человека. Конечно, мы могли бы узнать что-то о поведении изучения людей человека в казино, на самом деле казино может быть идеальным местом для изучения взаимосвязи между потреблением алкоголя и риском предпочтений, но если мы не учитывали, что данные создавалась в казино мы могли бы сделать некоторые плохие выводы.

К сожалению, дело с алгоритмической смешению особенно трудно, потому что многие особенности онлайновых систем являются собственностью компании, плохо документированы, и постоянно меняется. Например, как я объясню позже в этой главе, алгоритмическое вмешивающимся был одним из возможных объяснений постепенного развала Google Flu Trends (раздел 2.4.2), но это требование было трудно оценить, так как внутренняя работа поиска компании Google алгоритм являются частной собственностью. Динамический характер алгоритмической смешению является одной из форм дрейфа системы. Алгоритмическое вмешивающимся означает, что мы должны проявлять осторожность в отношении любых претензий к человеческому поведению, которое исходит из единой цифровой системы, независимо от того, насколько велика.