Gedrag in big data-systemen is niet natuurlijk; het wordt gedreven door de technische doelen van de systemen.
Hoewel veel big data-bronnen niet-reactief zijn omdat mensen zich er niet van bewust zijn dat hun gegevens worden opgeslagen (paragraaf 2.3.3), moeten onderzoekers gedrag in deze online systemen niet als 'van nature voorkomend' beschouwen. In werkelijkheid zijn de digitale systemen die gedrag registreren sterk ontwikkeld om specifieke gedragingen te induceren, zoals klikken op advertenties of het plaatsen van inhoud. De manieren waarop de doelen van systeemontwerpers patronen in gegevens kunnen introduceren, worden algoritmische verstoringen genoemd . Algorithmic confounding is relatief onbekend bij sociale wetenschappers, maar het is een groot probleem bij zorgvuldige data scientists. En, in tegenstelling tot sommige andere problemen met digitale sporen, is algoritmische confounding grotendeels onzichtbaar.
Een relatief eenvoudig voorbeeld van algoritmische confounding is het feit dat er op Facebook een abnormaal groot aantal gebruikers is met ongeveer 20 vrienden, zoals werd ontdekt door Johan Ugander en collega's (2011) . Wetenschappers die deze gegevens analyseren zonder enig begrip van hoe Facebook werkt, zouden ongetwijfeld vele verhalen kunnen genereren over hoe 20 een soort van magisch sociaal nummer is. Gelukkig hadden Ugander en zijn collega's een goed begrip van het proces dat de gegevens genereerde, en ze wisten dat Facebook mensen met weinig connecties op Facebook aanmoedigde om meer vrienden te maken tot ze 20 vrienden bereikten. Hoewel Ugander en collega's dit niet in hun krant zeggen, werd dit beleid vermoedelijk door Facebook gemaakt om nieuwe gebruikers aan te moedigen actiever te worden. Zonder van het bestaan van dit beleid op de hoogte te zijn, is het echter gemakkelijk om de verkeerde conclusie uit de gegevens te trekken. Met andere woorden, het verrassend hoge aantal mensen met ongeveer 20 vrienden vertelt ons meer over Facebook dan over menselijk gedrag.
In dit vorige voorbeeld produceerde algoritmische confounding een eigenzinnig resultaat dat een zorgvuldige onderzoeker verder zou kunnen detecteren en onderzoeken. Er is echter een nog moeilijkere versie van algoritmische verwarring die optreedt wanneer ontwerpers van online systemen sociale theorieën kennen en vervolgens deze theorieën in de werking van hun systemen bakken. Sociale wetenschappers noemen deze performativiteit : wanneer een theorie de wereld op zo'n manier verandert dat het de wereld meer in overeenstemming brengt met de theorie. In het geval van performatieve algoritmische verstoringen, is de verwarde aard van de gegevens erg moeilijk te detecteren.
Een voorbeeld van een patroon gecreëerd door performativiteit is transitiviteit in online sociale netwerken. In de jaren 1970 en 1980 ontdekten onderzoekers herhaaldelijk dat als je vrienden bent met zowel Alice als Bob, dat Alice en Bob eerder vrienden met elkaar zijn dan dat ze twee willekeurig gekozen mensen zouden zijn. Ditzelfde patroon werd gevonden in de sociale grafiek op Facebook (Ugander et al. 2011) . Zo zou je kunnen concluderen dat vriendschapspatronen op Facebook patronen van offline vriendschappen repliceren, tenminste in termen van transitiviteit. De grootte van transitiviteit in de sociale grafiek van Facebook wordt echter gedeeltelijk bepaald door algoritmische verstoringen. Dat wil zeggen dat datawetenschappers op Facebook wisten van het empirische en theoretische onderzoek naar transitiviteit en het vervolgens gebruikten om Facebook te laten werken. Facebook heeft een "People You May Know" -functie die nieuwe vrienden voorstelt, en een manier waarop Facebook beslist wie je moet voorstellen is transitiviteit. Dat wil zeggen dat Facebook eerder geneigd is om vrienden te worden met vrienden van je vrienden. Deze functie heeft dus als effect dat de transitiviteit in de sociale Facebook-grafiek toeneemt; met andere woorden, de transitietheorie brengt de wereld in overeenstemming met de voorspellingen van de theorie (Zignani et al. 2014; Healy 2015) . Dus als big data-bronnen voorspellingen van de sociale theorie lijken weer te geven, moeten we er zeker van zijn dat de theorie zelf niet werkte in hoe het systeem werkte.
In plaats van te denken aan big data-bronnen als het observeren van mensen in een natuurlijke omgeving, is een meer geschikte metafoor het observeren van mensen in een casino. Casino's zijn sterk aangelegde omgevingen die zijn ontworpen om bepaalde gedragingen te induceren, en een onderzoeker zou nooit verwachten dat gedrag in een casino een onbelemmerd beeld geeft van het gedrag van mensen. Natuurlijk kun je iets leren over menselijk gedrag door mensen in casino's te bestuderen, maar als je het feit dat de gegevens in een casino werden gemaakt negeerde, zou je een aantal slechte conclusies kunnen trekken.
Helaas is het omgaan met algoritmische confounding bijzonder moeilijk omdat veel functies van online systemen eigendom zijn, slecht gedocumenteerd en voortdurend in verandering. Zoals ik verderop in dit hoofdstuk zal uitleggen, was algoritmische verwarring bijvoorbeeld een mogelijke verklaring voor de geleidelijke afbraak van Google Grieptrends (paragraaf 2.4.2), maar deze bewering was moeilijk te beoordelen omdat de interne werking van Google's zoekalgoritme proprietary. Het dynamische karakter van algoritmische confounding is een vorm van systeemafwijking. Algorithmic confounding betekent dat we voorzichtig moeten zijn met elke claim betreffende menselijk gedrag die afkomstig is van een enkel digitaal systeem, hoe groot ook.