2.3.2.5 algoritmer vist

Opptreden i funnet data er ikke naturlig, det er drevet av de tekniske målene for systemene.

Selv om mange funnet datakilder er ikke-reaktivt fordi folk ikke er klar over sine data blir registrert (punkt 2.3.1.3), skal forskerne ikke vurdere atferd i disse elektroniske systemer for å være "naturlig forekommende" eller "ren". I virkeligheten, digitale systemer som registrerer atferd er sterkt utviklet for å indusere spesifikke atferd som å klikke på annonser eller skrive innlegg. Måtene at målene for systemet designere kan innføre mønstre i data kalles algoritmisk forvirrende. Algoritmisk confounding er relativt ukjent for samfunnsvitere, men det er et stort problem blant forsiktig data forskere. Og, i motsetning til noen av de andre problemene med digitale spor, er algoritmisk confounding stort sett usynlig.

Et forholdsvis enkelt eksempel på algoritmisk forvirrende er det faktum at på Facebook det finnes et unormalt høyt antall brukere med ca 20 venner (Ugander et al. 2011) . Forskere analyserer med denne informasjonen uten noen forståelse av hvordan Facebook fungerer kan utvilsomt generere mange historier om hvordan 20 er en slags magisk personnummer. Men Ugander og hans kolleger hadde en betydelig forståelse av prosessen som genererte data, og de visste at Facebook oppfordret folk med få tilkoblinger på Facebook for å få flere venner til de nådde 20 venner. Selv Ugander og kolleger ikke si dette i avisen, ble denne politikken antakelig opprettet av Facebook for å oppmuntre nye brukere til å bli mer aktive. Uten å vite om eksistensen av denne politikken, men det er lett å trekke feil konklusjon fra dataene. Med andre ord, den overraskende høyt antall mennesker med ca. 20 venner forteller om mer enn Facebook menneskelig atferd.

Mer skadelig enn dette tidligere eksempel hvor algoritmisk confounding produsert en quirky resultat at en forsiktig forskere kan undersøke dette nærmere, er det en enda mer komplisert versjon av algoritmisk confounding som oppstår når designere av elektroniske systemer er klar over sosiale teorier og deretter bake disse teoriene i arbeids av sine systemer. Samfunnsvitere kaller dette performativitet: når teorier forandre verden på en slik måte at de gir verden mer i tråd med teorien. I de tilfeller av performativ algoritmisk forvirrende, den fordømte natur dataene er sannsynlig usynlig.

Et eksempel på et mønster laget av performativitet er transitivity i online sosiale nettverk. På 1970- og 1980-tallet, forskere gjentatte ganger funnet ut at hvis du er venner med Alice og du er venner med Bob, så Bob og Alice er mer sannsynlig å være venner med hverandre enn to tilfeldig valgte personer. Og denne samme mønsteret ble funnet i den sosiale grafen på Facebook (Ugander et al. 2011) . Dermed kan man konkludere med at mønstre av vennskap på Facebook replikere mønstre av offline vennskap, i hvert fall når det gjelder transitivity. Imidlertid er omfanget av transitivity i Facebook sosiale grafen delvis drevet av algoritmisk forvirrende. Det vil si at data forskere ved Facebook visste av empirisk og teoretisk forskning om transitivity og deretter bakt det inn i hvordan Facebook fungerer. Facebook har en "personer du kanskje kjenner" har som foreslår nye venner, og en måte at Facebook bestemmer hvem som skal foreslå for deg er transitivity. Det er, er Facebook mer sannsynlig til å foreslå at du blir venner med venner av dine venner. Denne funksjonen har dermed effekten av å øke transitivity i Facebook sosiale grafen; med andre ord, teorien om transitivity bringer verden inn i tråd med spådommer om teorien (Healy 2015) . Dermed når store datakilder synes å reprodusere spådommer om sosial teori, må vi være sikre på at teorien i seg selv ikke var bakt inn i hvordan systemet fungerte.

Snarere enn å tenke på store datakilder som observerer mennesker i en naturlig setting, er et mer passende metafor observere mennesker i et casino. Kasinoer er høyt utviklet miljøer utviklet for å indusere visse atferd, og noen forskere ville aldri forvente at atferd i et kasino vil gi en uhemmet vindu inn menneskelig atferd. Selvfølgelig kunne vi lære noe om menneskelig atferd å studere mennesker i kasinoer-faktisk et kasino kan være en ideell setting for å studere sammenhengen mellom alkoholforbruk og risikopreferanser-men hvis vi ignorert at dataene ble opprettet i et casino vi kan trekke noen dårlige konklusjoner.

Dessverre, som arbeider med algoritmisk confounding er spesielt vanskelig fordi mange funksjoner i elektroniske systemer er proprietære, dårlig dokumentert, og i stadig endring. For eksempel, som jeg vil forklare senere i dette kapitlet, algoritmisk confounding var en mulig forklaring på den gradvise nedbrytningen av Googles influensastatistikk (avsnitt 2.4.2), men denne påstanden var vanskelig å vurdere fordi den interne driften av Googles søke algoritmen er proprietære. Den dynamiske natur algoritmisk confounding er en form for system drift. Algoritmisk confounding betyr at vi bør være forsiktige med eventuelle krav om menneskelig atferd som kommer fra et enkelt digitalt system, uansett hvor stor.