2.3.2.5 algoritmisk beskæmmet

Adfærd i fundet data er ikke naturligt, det er drevet af de tekniske mål for systemerne.

Selv om mange fundet datakilder er ikke-reaktive, fordi folk ikke er klar over deres data bliver registreret (afsnit 2.3.1.3), bør forskerne ikke overveje adfærd i disse online-systemer til at være "naturligt forekommende" eller "ren". I virkeligheden digitale systemer, der registrerer adfærd er stærkt manipuleret til at fremkalde specifikke adfærd såsom at klikke på annoncer eller udstationering indhold. De måder, at målene for system designere kan indføre mønstre i data kaldes algoritmisk confounding. Algoritmisk confounding er relativt ukendt for samfundsforskere, men det er et stort problem blandt omhyggelige data videnskabsfolk. Og i modsætning til nogle af de andre problemer med digitale spor, algoritmisk confounding er stort set usynlige.

Et relativt enkelt eksempel på algoritmisk confounding er, at på Facebook der er et unormalt stort antal brugere med ca. 20 venner (Ugander et al. 2011) . Forskere analysere med disse data uden nogen forståelse af, hvordan Facebook fungerer kunne utvivlsomt generere mange historier om, hvordan 20 er en slags magisk social nummer. Men Ugander og hans kolleger havde en betydelig forståelse af processen, der genererede data, og de vidste, at Facebook opfordrede folk med få forbindelser på Facebook for at få flere venner, indtil de nåede 20 venner. Selvom Ugander og kolleger ikke siger dette i papiret, blev denne politik formodentlig skabt af Facebook for at tilskynde nye brugere til at blive mere aktive. Uden at vide om eksistensen af ​​denne politik, er det imidlertid let at drage den forkerte konklusion fra dataene. Med andre ord, den overraskende høje antal mennesker med omkring 20 venner fortæller os mere om Facebook end menneskelig adfærd.

Mere skadelige end dette tidligere eksempel, hvor algoritmisk confounding produceret en quirky resultat, at en omhyggelig forskere kan undersøge det nærmere, der er en endnu vanskeligere version af algoritmisk confounding, der opstår, når designere af online systemer er opmærksomme på de sociale teorier og derefter bage disse teorier ind i arbejdsmiljøet af deres systemer. Sociale forskerne kalder denne performativitet: når teorier ændre verden på en sådan måde, at de bringe verden i bedre overensstemmelse med teorien. I tilfælde af performativ algoritmisk confounding, den forbandede karakter af dataene er sandsynligt usynlig.

Et eksempel på et mønster skabt af performativitet er transitivitet i online sociale netværk. I 1970'erne og 1980'erne, forskere gentagne gange konstateret, at hvis du er venner med Alice og du er venner med Bob, så Bob og Alice er mere tilbøjelige til at være venner med hinanden end to tilfældigt udvalgte folk. Og det samme mønster blev fundet i den sociale graf på Facebook (Ugander et al. 2011) . Således kunne man konkludere, at mønstre af venskab på Facebook replikere mønstre af offline venskaber, i hvert fald hvad angår transitivitet. Imidlertid er størrelsen af ​​transitivitet i Facebook sociale graf delvist drevet af algoritmisk confounding. Det vil sige, data forskere ved Facebook kendte til empirisk og teoretisk forskning om transitivitet og derefter bages det i, hvordan Facebook fungerer. Facebook har en "Folk du måske kender" funktion, der tyder på nye venner, og en måde at Facebook beslutter, hvem der skal foreslå dig er transitivitet. Det vil sige, er mere tilbøjelige til at foreslå, at du bliver venner med venner af dine venner Facebook. Denne funktion har således den virkning at øge transitivitet i Facebook sociale graf; med andre ord, teorien om transitivitet bringer verden på linje med forudsigelserne af teorien (Healy 2015) . Således når store datakilder synes at gengive forudsigelser af social teori, skal vi være sikre på, at teorien ikke selv var bages i, hvordan systemet fungerede.

Snarere end at tænke store datakilder som observere folk i naturlige omgivelser, er en mere passende metafor observere mennesker i et kasino. Kasinoer er stærkt manipuleret miljøer med henblik på at fremkalde visse former for adfærd, og en forskerne ville aldrig forvente, at adfærden i et kasino ville give en uhæmmet vindue i menneskelig adfærd. Selvfølgelig kunne vi lære noget om menneskelige adfærd studere folk i kasinoer-faktisk et casino kan være en ideel ramme for at studere sammenhængen mellem alkoholforbrug og risikopræferencer-men hvis vi ignoreret, at data blev skabt i et casino vi måske drage nogle dårlige konklusioner.

Desværre, der beskæftiger sig med algoritmisk confounding er særlig vanskelig, fordi mange funktioner i online systemer er proprietære, dårligt dokumenteret, og konstant forandring. For eksempel, som jeg vil forklare senere i dette kapitel, algoritmisk confounding var en mulig forklaring på den gradvise nedbrydning af Google Flu Trends (afsnit 2.4.2), men denne påstand var svært at vurdere, fordi de indre funktioner i Googles søgning algoritme er proprietære. Den dynamiske karakter af algoritmisk confounding er en form for systemets drift. Algoritmisk confounding betyder, at vi skal være forsigtige med ethvert krav om menneskelig adfærd, der kommer fra et enkelt digitalt system, uanset hvor stort.