Atferd i store datasystemer er ikke naturlig; det drives av de tekniske målene til systemene.
Selv om mange store datakilder ikke er reaktive fordi folk ikke er klar over at dataene blir registrert (avsnitt 2.3.3), bør forskere ikke vurdere atferd i disse nettbaserte systemene er "naturlig forekommende". I virkeligheten er de digitale systemene som registrerer oppførsel, svært utviklet for å indusere bestemte atferd som for eksempel å klikke på annonser eller legge inn innhold. Måter som systemdesigners mål kan introdusere mønstre i data kalles algoritmisk confounding . Algoritmisk confounding er relativt ukjent for samfunnsvitenskapsmenn, men det er et stort problem blant forsiktige datavitenskapere. Og i motsetning til noen av de andre problemene med digitale spor, er algoritmisk confounding i stor grad usynlig.
Et relativt enkelt eksempel på algoritmisk confounding er det faktum at på Facebook er det et uregelmessig høyt antall brukere med ca 20 venner, som ble oppdaget av Johan Ugander og kolleger (2011) . Forskere som analyserer disse dataene uten forståelse av hvordan Facebook fungerer, kan uten tvil generere mange historier om hvordan 20 er en slags magisk sosialtall. Heldigvis hadde Ugander og hans kollegaer en betydelig forståelse av prosessen som genererte dataene, og de visste at Facebook oppfordret folk med få tilkoblinger på Facebook for å få flere venner til de nådde 20 venner. Selv om Ugander og kolleger ikke sier dette i deres papir, ble denne politikken formodentlig skapt av Facebook for å oppmuntre nye brukere til å bli mer aktive. Uten å vite om eksistensen av denne politikken er det imidlertid lett å trekke feil konklusjon fra dataene. Med andre ord forteller det overraskende høye antallet personer med ca 20 venner oss mer om Facebook enn om menneskelig atferd.
I dette tidligere eksempelet produserte algoritmiske confounding et quirky resultat som en forsiktig forsker kan oppdage og undersøke videre. Det er imidlertid en enda vanskeligere versjon av algoritmisk confounding som oppstår når designere av elektroniske systemer er klar over sosiale teorier og deretter bake disse teoriene inn i arbeidet med deres systemer. Sosialforskere kaller dette performativitet : Når en teori forandrer verden på en slik måte at den bringer verden mer i tråd med teorien. I tilfelle av utførende algoritmisk confounding, er den forvirrede naturen av dataene svært vanskelig å oppdage.
Et eksempel på et mønster opprettet av performativitet er transitivitet i sosiale nettverk. På 1970- og 1980-tallet fant forskerne gjentatte ganger at hvis du er venner med både Alice og Bob, er Alice og Bob mer sannsynlig å være venner med hverandre enn hvis de var to tilfeldig utvalgte personer. Dette samme mønsteret ble funnet i den sosiale grafen på Facebook (Ugander et al. 2011) . Dermed kan man konkludere med at mønstre av vennskap på Facebook replikerer mønstre av offline vennskap, i det minste når det gjelder transittivitet. Størrelsen på transittlighetsgrad i Facebooks sosiale diagram er imidlertid delvis drevet av algoritmisk confounding. Det vil si, datavitenskapere på Facebook visste om den empiriske og teoretiske forskningen om transitivitet og deretter bakte den inn i hvordan Facebook fungerer. Facebook har en "People You May Know" -funksjon som foreslår nye venner, og en måte at Facebook bestemmer hvem som skal foreslå deg, er transitivitet. Det vil si at Facebook er mer sannsynlig å foreslå at du blir venner med vennene til vennene dine. Denne funksjonen har følgelig effekten av å øke overgangsevnen i Facebooks sosiale diagram; Med andre ord bringer teorien om transitivitet verden inn i linje med teoriens spådommer (Zignani et al. 2014; Healy 2015) . Når store datakilder ser ut til å reprodusere spådommer om sosial teori, må vi derfor være sikre på at selve teorien ikke ble bakt inn i hvordan systemet fungerte.
I stedet for å tenke på store datakilder som å observere mennesker i en naturlig setting, er en mer egnet metafor observert mennesker i et kasino. Kasinoer er svært konstruerte miljøer designet for å indusere visse atferd, og en forsker ville aldri forvente atferd i et kasino for å gi et uhindret vindu til menneskelig oppførsel. Selvfølgelig kan du lære noe om menneskelig atferd ved å studere folk i kasinoer, men hvis du ignorerer det faktum at dataene ble opprettet i et kasino, kan du trekke noen dårlige konklusjoner.
Dessverre er det vanskelig å håndtere algoritmisk confounding fordi mange funksjoner i nettbaserte systemer er proprietære, dårlig dokumentert og stadig skiftende. For eksempel, som jeg vil forklare senere i dette kapitlet, var algoritmisk confounding en mulig forklaring på den gradvise sammenbruddet av Google Flu-trender (avsnitt 2.4.2), men dette kravet var vanskelig å vurdere fordi de indre arbeidene til Googles søkealgoritme er proprietær. Den dynamiske naturen til algoritmisk confounding er en form for systemdrift. Algoritmisk confounding betyr at vi bør være forsiktige med ethvert krav om menneskelig atferd som kommer fra et enkelt digitalt system, uansett hvor stort.