Zachowanie w dużych systemach danych nie jest naturalne; jest napędzany przez cele inżynieryjne systemów.
Chociaż wiele dużych źródeł danych nie reaguje, ponieważ ludzie nie są świadomi, że ich dane są rejestrowane (sekcja 2.3.3), badacze nie powinni uważać zachowań w tych systemach internetowych za "naturalnie występujące". W rzeczywistości cyfrowe systemy rejestrujące zachowanie są wysoce zaprojektowane, aby wywoływać określone zachowania, takie jak klikanie reklam lub publikowanie treści. Sposoby, w jakie projektanci systemu mogą wprowadzać wzorce do danych, nazywają się algorytmicznymi zakłóceniami . Algorytmiczne zakłócanie jest stosunkowo mało znane naukowcom zajmującym się socjologią, ale jest to główny problem wśród ostrożnych naukowców zajmujących się danymi. I, w przeciwieństwie do innych problemów z cyfrowymi śladami, algorytmiczne zakłócanie jest w dużej mierze niewidoczne.
Stosunkowo prostym przykładem algorytmicznego mylenia jest fakt, że na Facebooku jest anomalnie duża liczba użytkowników z około 20 przyjaciółmi, jak odkryli Johan Ugander i jego współpracownicy (2011) . Naukowcy analizujący te dane bez zrozumienia, w jaki sposób działa Facebook, mogą bez wątpienia wygenerować wiele historii o tym, że 20 to jakaś magiczna liczba społeczna. Na szczęście Ugander i jego koledzy dobrze rozumieli proces, który generował dane, i wiedzieli, że Facebook zachęcał ludzi, którzy mają niewiele znajomości na Facebooku, do zawierania nowych znajomości, aż dotarli do 20 przyjaciół. Chociaż Ugander i jego współpracownicy nie mówią tego w swoich artykułach, polityka ta została prawdopodobnie stworzona przez Facebooka, aby zachęcić nowych użytkowników do większej aktywności. Jednak nie wiedząc o istnieniu tej polityki, łatwo wyciągnąć błędne wnioski z danych. Innymi słowy, zaskakująco duża liczba osób z około 20 znajomymi mówi nam więcej o Facebooku niż o ludzkich zachowaniach.
W tym poprzednim przykładzie algorytmiczne zakłócenie dało dziwaczny wynik, który uważny badacz może wykryć i zbadać dalej. Istnieje jednak jeszcze trudniejsza wersja algorytmicznego zakłócenia, która występuje, gdy projektanci systemów internetowych są świadomi teorii społecznych, a następnie wypiekają te teorie w działaniu swoich systemów. Naukowcy społeczni nazywają to performatywnością : kiedy teoria zmienia świat w taki sposób, że przybliża świat do teorii. W przypadku performatywnego mieszania algorytmicznego, trudny do wykrycia charakter danych jest bardzo trudny do wykrycia.
Przykładem wzoru stworzonego przez performatywność jest przechodniość w internetowych sieciach społecznościowych. W latach 70. i 80. XX wieku naukowcy wielokrotnie odkrywali, że jeśli przyjaźnią się zarówno z Alice, jak i Bobem, to Alice i Bob są bardziej skłonni do przyjaźni ze sobą, niż gdyby byli to dwie losowo wybrane osoby. Ten sam wzór został znaleziony na wykresie społecznym na Facebooku (Ugander et al. 2011) . Można zatem wnioskować, że wzorce przyjaźni na Facebooku replikują wzorce przyjaźni offline, przynajmniej pod względem przechodniości. Jednak wielkość przechodniów na wykresie społecznym Facebooka częściowo wynika z algorytmicznego zakłócenia. Oznacza to, że analitycy danych na Facebooku znali badania empiryczne i teoretyczne na temat przechodniów, a następnie wypaliły je na temat działania Facebooka. Facebook ma funkcję "Ludzie, którą możesz znać", która sugeruje nowych przyjaciół, a jednym ze sposobów, w jaki Facebook decyduje, komu zaproponować, jest przechodniość. Oznacza to, że Facebook może sugerować, że zaprzyjaźniłeś się z przyjaciółmi znajomych. Ta cecha powoduje zatem zwiększenie przechodniości na wykresie społecznym Facebooka; Innymi słowy, teoria przechodniości dostosowuje świat do przewidywań teorii (Zignani et al. 2014; Healy 2015) . Tak więc, kiedy duże źródła danych wydają się odtwarzać przewidywania teorii społecznej, musimy być pewni, że sama teoria nie została upieczona na sposób działania systemu.
Zamiast myśleć o dużych źródłach danych jako obserwujących ludzi w naturalnym otoczeniu, bardziej trafną metaforą jest obserwowanie ludzi w kasynie. Kasyna to wysoce zaprojektowane środowiska zaprojektowane do wywoływania określonych zachowań, a naukowiec nigdy nie oczekiwałby zachowania w kasynie, aby zapewnić nieskrępowane okno na ludzkie zachowania. Oczywiście możesz dowiedzieć się czegoś o ludzkich zachowaniach, badając ludzi w kasynach, ale jeśli zignorujesz fakt, że dane zostały utworzone w kasynie, możesz wyciągnąć złe wnioski.
Niestety, radzenie sobie z algorytmicznymi zakłóceniami jest szczególnie trudne, ponieważ wiele funkcji systemów online jest zastrzeżonych, słabo udokumentowanych i ciągle się zmienia. Na przykład, jak wyjaśnię w dalszej części tego rozdziału, algorytmiczne zakłócanie było jednym z możliwych wyjaśnień stopniowego podziału Google Flu Trends (sekcja 2.4.2), ale twierdzenie to było trudne do oszacowania, ponieważ wewnętrzne działanie algorytmu wyszukiwania Google to: prawnie zastrzeżony. Dynamiczna natura algorytmicznego zakłócenia jest jedną z form dryfu systemu. Algorytmiczne zakłócanie oznacza, że powinniśmy zachować ostrożność w odniesieniu do wszelkich roszczeń dotyczących ludzkich zachowań, które pochodzą z jednego systemu cyfrowego, bez względu na to, jak duży.