Zachowanie się, iż dane nie jest sposobem naturalnym, ale jest napędzany przez celów inżynierii systemów.
Chociaż wiele znalezione źródła danych są niereaktywne, ponieważ ludzie nie są świadomi ich dane są rejestrowane (sekcja 2.3.1.3), naukowcy nie powinni rozważyć zachowanie w tych systemach internetowych za "naturalnie występujący" lub "czysty". W rzeczywistości, systemy cyfrowe, które są wysoko zachowanie rekord zaprojektowane w celu wywołania określonych zachowań, takich jak kliknięcie na reklamy lub umieszczanie treści. Sposoby że cele projektantów systemów mogą wprowadzić wzory na dane nazywa algorytmiczne mylących. Algorytmiczne zakłócającym jest stosunkowo nieznany nauk społecznych, ale jest poważnym problemem wśród naukowców ostrożnych danych. I, w przeciwieństwie do niektórych innych problemów ze śladów cyfrowych, algorytmiczne zakłócającym jest w dużej mierze niewidoczne.
Stosunkowo proste przykład algorytmicznego mylenia jest fakt, że na Facebooku nie są nienormalnie wysoka liczba użytkowników z około 20 znajomych (Ugander et al. 2011) . Naukowcy analizując z tymi danymi bez zrozumienia jak działa Facebook niewątpliwie może generować wiele opowieści o tym, jak 20 to jakiś rodzaj magicznej liczby społecznej. Jednak Ugander i jego współpracownicy mieli znaczną wiedzę na temat procesu, który wygenerował dane, a oni wiedzieli, że Facebook zachęcać ludzi z kilku połączeń na Facebooku, aby więcej znajomych, aż dotarli do 20 znajomych. Chociaż Ugander i współpracownicy nie mówią o tym dokumencie, polityka ta była prawdopodobnie stworzony przez Facebook, aby zachęcić nowych użytkowników, aby stać się bardziej aktywne. Nie wiedząc o istnieniu tej polityki, jednak nie jest łatwo wyciągnąć błędne wnioski z tych danych. Innymi słowy, zaskakująco wysoka liczba osób z około 20 przyjaciół mówi nam więcej o Facebook, niż ludzkie zachowanie.
Bardziej szkodliwe niż ten poprzedni przykład, gdzie algorytmiczne mylących produkowanego ekscentryczne wynik, który starannej naukowcy mogą badać dalej, tam jest jeszcze trudniejsze wersja algorytmicznej mylenia, który występuje, gdy projektanci systemów internetowych są świadomi teorii społecznych, a następnie piec te teorie do pracy swoich systemów. Socjologowie nazywają to Performatywność: kiedy teorie zmienić świat w taki sposób, że przynoszą one świat bardziej w zgodzie z teorią. W przypadkach performatywnej algorytmicznego mylenia, The confounded charakter danych prawdopodobnie niewidoczne.
Jednym z przykładów wzoru stworzonego przez performatywności jest przechodniości w internetowych sieciach społecznych. W latach 1970 i 1980 naukowcy wielokrotnie stwierdzone, że jeśli są przyjaciółmi z Alice i przyjaźnią się z Bobem, a Bob i Alice są bardziej prawdopodobne, aby zaprzyjaźnić się z sobą niż dwóch losowo wybranych osób. I dokładnie ten sam wzór został znaleziony na wykresie społecznej na Facebooku (Ugander et al. 2011) . W ten sposób, można by stwierdzić, że wzorce przyjaźni na Facebooku powielać wzorce offline, przyjaźniach, przynajmniej jeśli chodzi o przechodniości. Jednak skala przechodniości w Facebooku wykresie społecznej jest częściowo napędzany przez algorytmicznego mylenia. Oznacza to, że naukowcy danych na Facebooku wiedział o empirycznych i teoretycznych badań na temat przechodniości, a następnie piecze go, w jaki sposób Facebook pracuje. Facebook ma "ludzie mogą wiedzieć", która sugeruje, nowych przyjaciół, a jednym ze sposobów, że Facebook decyduje kto zaproponować Ci to przechodniości. Oznacza to, że Facebook jest bardziej prawdopodobne, aby sugerować, że stają się przyjaciółmi z przyjaciół znajomych. Funkcja ta ma zatem wpływ na zwiększenie przechodniości w Facebooku wykresie społecznej; Innymi słowy, teoria przechodniości przynosi świat na zgodne z przewidywaniami teorii (Healy 2015) . Tak więc, gdy pojawia się duże źródła danych do odtworzenia przewidywania teorii społecznej, musimy mieć pewność, że sama teoria nie został upieczony w jaki system działa.
Zamiast myśleć o dużych źródeł danych, jak obserwowanie ludzi w otoczeniu przyrody, bardziej trafne metafory jest obserwowanie ludzi w kasynie. Kasyna są bardzo inżynierii środowiska mające na celu wywołania określonych zachowań, a badacze nigdy nie spodziewałby się, że zachowanie w kasynie stanowiłyby nieskrępowany wgląd ludzkich zachowań. Oczywiście, możemy dowiedzieć się czegoś o zachowaniu studiowania osób ludzkich w kasynach w rzeczywistości kasyno może być idealne ustawienie do badania relacji między spożyciem alkoholu a ryzykiem preferencji, ale jeśli pominąć faktu, że dane były tworzone w kasynie moglibyśmy wyciągnąć złe wnioski.
Niestety, do czynienia z algorytmicznego mylenia jest szczególnie trudne, ponieważ wiele cech systemów internetowych są zastrzeżone, słabo udokumentowane i stale się zmienia. Na przykład, jak wyjaśnię w dalszej części tego rozdziału, algorytmiczne mylących był jednym z możliwych wyjaśnień stopniowym podziałem Google Flu Trends (sekcja 2.4.2), ale twierdzenie to było trudne do oceny, ponieważ wewnętrzne funkcjonowanie wyszukiwania Google algorytm są zastrzeżone. Dynamiczny charakter algorytmiczny mylenia jest jedną z form dryf systemu. Algorytmiczne mylących oznacza, że powinniśmy być ostrożni wszelkich roszczeń do ludzkich zachowań, które pochodzi z jednego systemu cyfrowego, bez względu na to jak duży.