Gedrag in gevind data is nie natuurlike, dit word gedryf deur die ingenieurswese doelwitte van die stelsels.
Hoewel baie gevind databronne nie-reaktiewe, want die mense is nie bewus van hul data word aangeteken (Afdeling 2.3.1.3), moet navorsers nie oorweeg gedrag in hierdie aanlyn stelsels te wees "natuurlike" of "suiwer." In werklikheid, die digitale stelsels wat rekord gedrag hoogs ontwikkelde om spesifieke gedrag veroorsaak soos die druk op advertensies of plaas inhoud. Die maniere waarop die doelwitte van die stelsel ontwerpers patrone kan voer in data genoem algoritmiese confounding. Algoritmiese confounding is relatief onbekend aan sosiale wetenskaplikes, maar dit is 'n groot bron van kommer onder noukeurige data wetenskaplikes. En, in teenstelling met sommige van die ander probleme met digitale spore, algoritmiese confounding is grootliks onsigbaar.
'N relatief eenvoudige voorbeeld van algoritmiese confounding is die feit dat op Facebook is daar 'n anomalously hoë aantal gebruikers met ongeveer 20 vriende (Ugander et al. 2011) . Wetenskaplikes ontleding van hierdie data, sonder enige begrip van hoe Facebook werk kon ongetwyfeld genereer baie stories oor hoe 20 is 'n soort van magiese sosiale getal. Maar Ugander en sy kollegas het 'n wesenlike begrip van die proses wat die data wat gegenereer word, en hulle word gewaar dat Facebook het mense aangemoedig met 'n paar verbindings op Facebook om meer vriende te maak totdat hulle bereik 20 vriende. Hoewel Ugander en kollegas nie hierdie in die papier sê, is hierdie beleid vermoedelik geskep deur Facebook om nuwe gebruikers aan te moedig om meer aktief te raak. Sonder om te weet oor die bestaan van hierdie beleid, maar dit is maklik om die verkeerde gevolgtrekking uit die data te trek. Met ander woorde, die verrassend groot aantal mense met sowat 20 vriende vertel ons meer oor Facebook as menslike gedrag.
Meer skadelike as die vorige voorbeeld waar algoritmiese confounding het 'n prettige gevolg dat 'n versigtige navorsers verder kan ondersoek, is daar 'n nog moeiliker weergawe van algoritmiese confounding wat plaasvind wanneer ontwerpers van online stelsels is bewus van sosiale teorieë en dan bak hierdie teorieë in die werking van hul stelsels. Sosiale wetenskaplikes noem dit performatiwiteit: wanneer teorieë die wêreld te verander in so 'n manier dat hulle die wêreld te bring meer in ooreenstemming met die teorie. In die geval van performatiewe algoritmiese confounding, die beskaamd aard van die data waarskynlik onsigbare.
Een voorbeeld van 'n patroon geskep deur performatiwiteit is transitiwiteit in aanlyn sosiale netwerke. In die 1970's en 1980's het navorsers herhaaldelik gevind dat as jy vriende met Alice en jy vriende met Bob, dan Bob en Alice is meer geneig om vriende met mekaar as twee lukraak uitverkore volk wees. En, was hierdie einste patroon gevind in die sosiale grafiek op Facebook (Ugander et al. 2011) . Dus, kan 'n mens aflei dat patrone van vriendskap op Facebook te herhaal patrone van die regte vriendskappe, ten minste in terme van transitiwiteit. Dit is egter die grootte van transitiwiteit in die Facebook sosiale grafiek gedeeltelik gedryf deur algoritmiese confounding. Dit wil sê, data wetenskaplikes by Facebook geweet van die empiriese en teoretiese navorsing oor transitiwiteit en dan gebak dit in hoe Facebook werk. Facebook het 'n "Mense wat jy dalk ken" funksie wat nuwe vriende stel, en een manier waarop Facebook besluit wat om voor te stel aan jou is transitiwiteit. Dit wil sê, Facebook is meer geneig om voor te stel dat jy vriende geword met die vriende van jou vriende. Hierdie funksie het dus die effek van toenemende transitiwiteit in die Facebook sosiale grafiek; Met ander woorde, die teorie van transitiwiteit bring die wêreld in ooreenstemming met die voorspellings van die teorie (Healy 2015) . Dus, wanneer groot databronne verskyn om voorspellings van sosiale teorie weergee, moet ons seker wees dat die teorie self nie gebak in hoe die stelsel werk.
Eerder as om te dink van die groot data bronne as die waarneming van mense in 'n natuurlike omgewing, is 'n meer gepaste metafoor waarneming van mense in 'n casino. Casino is hoogs ontwikkelde omgewings ontwerp om sekere gedrag veroorsaak, en 'n navorsers sou nooit verwag dat gedrag in 'n casino sou 'n onbelemmerde venster bied in menslike gedrag. Natuurlik, kan ons iets oor menslike gedrag bestudeer mense in leer casino-in werklikheid 'n casino kan 'n ideale omgewing vir die bestudering van die verhouding tussen alkoholgebruik en risiko voorkeure-maar as ons ignoreer dat die data is geskep in 'n casino ons kan trek 'n paar slegte gevolgtrekkings.
Ongelukkig, die hantering van algoritmiese confounding is veral moeilik omdat baie funksies van online stelsels eiendom, swak gedokumenteer, en voortdurend veranderende. Byvoorbeeld, as ek later sal verduidelik in hierdie hoofstuk, algoritmiese confounding was een moontlike verduideliking vir die geleidelike afbreek van Google Flu Trends (Afdeling 2.4.2), maar dit eis was moeilik om te bepaal omdat die innerlike werking van Google se soek algoritme is die eiendom. Die dinamiese aard van algoritmiese confounding is een vorm van stelsel drif. Algoritmiese confounding beteken dat ons nie saak versigtig oor 'n eis vir menslike gedrag wat afkomstig is van 'n enkele digitale stelsel, moet hoe groot.