Beteende i stora datasystem är inte naturligt; det drivs av systemens tekniska mål.
Även om många stora datakällor är icke-reaktiva eftersom människor inte är medvetna om att deras data registreras (avsnitt 2.3.3), bör forskare inte betrakta beteendet i dessa onlinesystem som "naturligt förekommande". I verkligheten är de digitala system som registrerar beteendet mycket konstruerad för att inducera specifika beteenden som att klicka på annonser eller posta innehåll. De sätt som systemdesigners mål kan introducera mönster till data kallas algoritmisk confounding . Algoritmisk förvirring är relativt okänd för samhällsvetenskapliga, men det är ett stort problem bland noggranna datavetenskapare. Och till skillnad från några av de andra problemen med digitala spår är algoritmisk förvirring i stor utsträckning osynlig.
Ett relativt enkelt exempel på algoritmisk förvirring är det faktum att på Facebook finns ett anomalt högt antal användare med cirka 20 vänner, vilket upptäcktes av Johan Ugander och kollegor (2011) . Forskare som analyserar dessa data utan att förstå hur Facebook fungerar utan tvekan kan generera många historier om hur 20 är något slags magiskt socialt nummer. Lyckligtvis hade Ugander och hans kollegor en betydande förståelse för processen som genererade data, och de visste att Facebook uppmuntrar personer med få anslutningar på Facebook för att göra fler vänner tills de nått 20 vänner. Även om Ugander och kollegor inte säger detta i sitt papper, var denna politik förmodligen skapad av Facebook för att uppmuntra nya användare att bli mer aktiva. Utan att veta om förekomsten av denna politik är det emellertid lätt att dra en felaktig slutsats från data. Med andra ord berättar det överraskande höga antalet personer med cirka 20 vänner mer om Facebook än om mänskligt beteende.
I det här exemplet producerade algoritmiska förvirring ett otroligt resultat som en noggrann forskare kan upptäcka och undersöka vidare. Det finns dock en ännu svårare version av algoritmisk förvirring som uppträder när designers av onlinesystem är medvetna om sociala teorier och sedan bakar dessa teorier in i arbetet med sina system. Socialforskare kallar detta performativitet : när en teori förändrar världen på ett sådant sätt att det får världen att stämma överens med teorin. I fallet med utförande algoritmisk confounding är den förvirrade naturen av data mycket svår att detektera.
Ett exempel på ett mönster som skapas av performativitet är transitivity i sociala nätverk på nätet. På 1970-talet och 1980-talet fann forskare upprepade gånger att om du är vänner med både Alice och Bob, är Alice och Bob mer benägna att vara vänner med varandra än om de var två slumpmässigt utvalda människor. Det här samma mönstret hittades i socialdiagrammet på Facebook (Ugander et al. 2011) . Således kan man dra slutsatsen att vänskapsmönster på Facebook replikerar mönster för offlinevänskap, åtminstone när det gäller transitivitet. Storleken på transitivitet i Facebooks sociala diagram drivs emellertid delvis av algoritmisk confounding. Dvs, datavetenskapare på Facebook visste om den empiriska och teoretiska forskningen om transitivitet och sedan bakade den in i hur Facebook fungerar. Facebook har en "People You May Know" -funktion som föreslår nya vänner, och ett sätt som Facebook bestämmer vem du ska föreslå är transitivity. Det vill säga att Facebook är mer benägna att föreslå att du blir vänner med dina vänners vänner. Denna funktion har sålunda effekten av ökad transitivitet i Facebooks sociala diagram; Med andra ord förmedlar teorin om transitivitet världen i linje med teorins (Zignani et al. 2014; Healy 2015) . Så när stora datakällor verkar reproducera förutsägelser om social teori måste vi vara säkra på att teorin i sig inte var bakad i hur systemet fungerade.
Snarare än att tänka på stora datakällor som att observera människor i en naturlig miljö, är en mer lämplig metafor observera människor i ett kasino. Kasinon är högteknologiska miljöer som är utformade för att inducera vissa beteenden, och en forskare skulle aldrig förvänta sig beteende i ett kasino för att ge ett oöppnat fönster i mänskligt beteende. Naturligtvis kan du lära dig något om mänskligt beteende genom att studera människor på kasinon, men om du ignorerar det faktum att data skapades i ett kasino, kan du dra några dåliga slutsatser.
Tyvärr är det svårt att hantera algoritmisk förvirring eftersom det finns många egenskaper hos onlinesystem som är proprietära, dåligt dokumenterade och ständigt förändrade. Till exempel, som jag kommer att förklara senare i det här kapitlet, var algoritmisk confounding en möjlig förklaring till den gradvisa nedbrytningen av Google Flu Flu Trends (avsnitt 2.4.2), men detta påstående var svårt att bedöma eftersom de inre funktionerna i Googles sökalgoritm är Proprietär. Den dynamiska karaktären av algoritmisk förvirring är en form av systemdrift. Algoritmisk förvirring betyder att vi bör vara försiktiga med alla anspråk på mänskligt beteende som kommer från ett enda digitalt system, oavsett hur stor.