Beteende bland träffarna uppgifter är inte naturligt, det drivs av tekniska mål systemen.
Även om många har hittats datakällor är icke-reaktiva, eftersom människor inte är medvetna om sina data spelas in (avsnitt 2.3.1.3), bör forskarna inte att beteendet i dessa online-system för att vara "naturligt förekommande" eller "ren". I själva verket digitala system som registrerar beteende är mycket konstruerade för att framkalla specifika beteenden såsom att klicka på annonser eller lägga upp innehåll. Sätten att målen för systemkonstruktörer kan införa mönster i data kallas algoritmisk confounding. Algoritmisk förbryllande är relativt okänd för samhällsvetare, men det är ett stort problem bland noggranna uppgifter forskare. Och till skillnad från vissa av de andra problem med digitala spår, är algoritmisk confounding i stort sett osynlig.
Ett relativt enkelt exempel på algoritmisk confounding är det faktum att på Facebook finns det ett abnormt högt antal användare med ca 20 vänner (Ugander et al. 2011) . Forskare analyserar denna data utan någon förståelse för hur Facebook fungerar skulle utan tvekan generera många historier om hur 20 är något slags magisk social nummer. Men Ugander och hans kollegor hade en väsentlig förståelse för den process som genererade data, och de visste att Facebook uppmuntrade folk med några anslutningar på Facebook för att göra fler vänner tills de nådde 20 vänner. Även Ugander och kollegor inte säga det i tidningen, var denna policy förmodligen skapad av Facebook för att uppmuntra nya användare att bli mer aktiva. Utan att veta om förekomsten av denna politik, men det är lätt att dra felaktiga slutsatser från data. Med andra ord, den överraskande höga antalet personer med cirka 20 vänner berättar mer om Facebook än mänskligt beteende.
Mer skadliga än denna tidigare exempel där algoritmisk confounding producerade en excentrisk resultat att en noggrann forskare kan undersöka vidare, finns det en ännu svårare version av algoritmisk confounding som uppstår när konstruktörer av online-system är medvetna om sociala teorier och sedan baka dessa teorier i arbets av sina system. Samhällsvetare kallar detta performativitet: när teorier förändra världen på ett sådant sätt att de tar världen mer i linje med teorin. I fallen med performativ algoritmisk confounding, kommer sannolikt osynliga den förbannade naturen av data.
Ett exempel på ett mönster som skapats av performativitet är transitivitet i sociala nätverk. Under 1970- och 1980-talet fann forskarna upprepade gånger att om du är vänner med Alice och du är vänner med Bob, då Bob och Alice är mer benägna att vara vänner med varandra än två slumpvis utvalda personer. Och var detta mycket samma mönster som finns i sociala grafen på Facebook (Ugander et al. 2011) . Således kan man dra slutsatsen att mönster av vänskap på Facebook replikera mönster av offline vänskap, åtminstone när det gäller transitivity. Emellertid är storleken på transitivitet i Facebook sociala graf delvis drivs av algoritmisk confounding. Det är data forskare vid Facebook kände till empirisk och teoretisk forskning om transitivitet och sedan bakade det i hur Facebook fungerar. Facebook har en "personer du kanske känner" funktion som föreslår nya vänner, och ett sätt att Facebook bestämmer vem som tyder på att du är transitivity. Det vill säga, är Facebook mer benägna att föreslå att du blir vänner med vänner till dina vänner. Denna funktion har således effekten att öka transitivitet i Facebook sociala graf; Med andra ord, teorin om transitivity ger världen i linje med förutsägelser av teorin (Healy 2015) . Således, när stora datakällor tycks återge förutsägelser om social teori, måste vi vara säkra på att själva teorin inte bakades i hur systemet fungerade.
Snarare än att tänka på stora datakällor som observera människor i en naturlig miljö, är en mer apt metafor observera människor i ett kasino. Kasinon är mycket konstruerade miljöer som syftar till att förmå vissa beteenden, och en forskare skulle aldrig förvänta sig att beteendet i ett kasino skulle ge en fri fönster i mänskligt beteende. Naturligtvis kan vi lära oss något om mänskligt beteende att studera människor i kasinon-i själva verket ett kasino kan vara en idealisk miljö för att studera sambandet mellan alkoholkonsumtion och riskpreferenser, men om vi bortse från att data skapas i ett kasino vi kanske dra några dåliga slutsatser.
Tyvärr, som handlar om algoritmisk confounding är särskilt svårt eftersom många funktioner i online-system är egenutvecklade, dåligt dokumenterade, och ständigt förändras. Till exempel, som jag ska förklara senare i detta kapitel, algoritm confounding var en möjlig förklaring till den gradvisa nedbrytningen av Google Flu Trends (avsnitt 2.4.2), men detta påstående var svårt att bedöma eftersom det inre arbetet i Googles sök algoritm är patentskyddad. Den dynamiska karaktären av algoritmisk confounding är en form av systemdrift. Algoritm confounding innebär att vi bör vara försiktig med alla krav för mänskligt beteende som kommer från ett enda digitalt system, oavsett hur stor.