Pag-uugali sa natagpuan data ay hindi natural, ito ay hinihimok sa pamamagitan ng mga layunin engineering ng mga sistema.
Kahit na maraming mga natagpuan pinagkukunan ng data ay di-reaktibo dahil ang mga tao ay hindi alam ang kanilang data ay naitatala (Seksyon 2.3.1.3), ang mga mananaliksik ay hindi dapat isaalang-alang ang pag-uugali sa mga online na mga sistema upang maging "natural na nagaganap" o "dalisay." Sa katotohanan, ang digital na mga sistema na record na pag-uugali ay lubos na engineered upang ibuyo tiyak na pag-uugali tulad ng pag-click sa mga ad o pag-post ng nilalaman. Ang mga paraan na ang mga layunin ng system designers maaaring ipakilala pattern sa data ay tinatawag na algorithmic confounding. Algorithmic confounding ay relatibong hindi kilala sa mga social siyentipiko, ngunit ito ay isang malaking pag-aalala sa gitna maingat siyentipiko data. At, hindi katulad ng ilang mga iba pang mga problema sa digital traces, algorithmic confounding ay higit sa lahat invisible.
Isang relatibong simpleng halimbawa ng algorithmic confounding ay ang katotohanan na sa Facebook mayroong isang anomalously mataas na bilang ng mga gumagamit na may humigit-kumulang 20 mga (Ugander et al. 2011) . Siyentipiko pag-aaral na may data na ito nang walang anumang pag-unawa sa kung paano gumagana ang Facebook ay maaaring doubtlessly bumuo ng maraming mga kuwento tungkol sa kung paano 20 ay ilang mga uri ng mga kahima-himala numero ng social. Gayunman, Ugander at ang kanyang mga kasamahan ay nagkaroon ng isang makabuluhang pag-unawa ng ang proseso na nabuo ang data, at alam nila na hinihikayat Facebook mga taong may ilang mga koneksyon sa Facebook upang gumawa ng mas maraming mga kaibigan hanggang sa makarating sila ng 20 mga. Kahit Ugander at kasamahan huwag sabihin ito sa papel, ang patakaran na ito ay siguro nilikha sa pamamagitan ng Facebook upang hikayatin ang mga bagong gumagamit upang maging mas aktibo. Walang alam tungkol sa pagkakaroon ng patakaran na ito, gayunman, ito ay madaling upang gumuhit ng maling konklusyon mula sa data. Sa ibang salita, ang nakakagulat na mataas na bilang ng mga tao na may tungkol sa 20 mga nagsasabi sa amin ang nalalaman tungkol sa Facebook kaysa pag-uugali ng tao.
Iba pa pernicious kaysa ito nakaraang halimbawa kung saan algorithmic confounding ginawa ng isang quirky resulta na ang isang maingat na mananaliksik ay maaaring higit pang magsiyasat, diyan ay isang kahit trickier bersyon ng algorithmic confounding na nangyayari kapag ang designer ng online na mga sistema ay may kamalayan ng panlipunang theories at pagkatapos ay maghurno ang mga theories sa uring ng kanilang mga sistema. Social siyentipiko itawag sa performativity: kapag theories baguhin ang mundo sa paraan na sila'y magdala sa mundo higit pa sa linya kasama ang mga teorya. Sa mga kaso ng performative algorithmic confounding, ang confounded likas na katangian ng data ay malamang invisible.
Ang isang halimbawa ng isang pattern nilikha sa pamamagitan ng performativity ay transitivity sa online social network. Sa 1970s at 1980s, mga mananaliksik paulit-ulit na natagpuan na kung kayo kay Alice at kayo kay Bob, pagkatapos Bob at Alice ay mas malamang na maging kaibigan sa bawat isa sa dalawang random na piniling mga tao. At, ito tunay parehong pattern nasumpungan sa social graph sa Facebook (Ugander et al. 2011) . Kaya, ang isa ay maaaring tapusin na kataga ng pagkakaibigan sa Facebook ginagaya pattern ng offline friendships, hindi bababa sa mga tuntunin ng transitivity. Gayunman, ang magnitude ng transitivity sa Facebook social graph ay bahagyang nahimok ng algorithmic confounding. Iyon ay, data siyentipiko sa Facebook nakaalam ng empirical at panteorya pananaliksik tungkol transitivity at pagkatapos ay inihurnong ito sa kung paano gumagana ang Facebook. Facebook ay may isang "People Mayo Mong Malaman" na tampok na nagmumungkahi ng mga bagong kaibigan, at ng isang daan na ang Facebook ay nagpasiya na upang magmungkahi sa iyo ay transitivity. Iyon ay, ang Facebook ay mas malamang na iminumungkahi na ikaw ay naging kaibigan na may mga kaibigan ng iyong mga kaibigan. Ang tampok na ito sa gayon ay may ang epekto ng pagtaas transitivity sa Facebook social graph; sa ibang salita, ang mga teorya ng transitivity nagdudulot sa mundo sa linya kasama ang mga paghuhula ng teorya (Healy 2015) . Kaya, kapag ang malaking pinagkukunan ng data ay lilitaw upang magparami hula ng panlipunang teorya, kailangan naming siguraduhin na ang teorya mismo ay hindi lutong sa kung paano ang sistema ay nagtrabaho.
Sa halip na pag-iisip ng malaking pinagkukunan ng data bilang obserbahan ang mga tao sa isang natural na setting, ang isang mas apt talinghaga ay observing mga tao sa isang casino. Casinos ay mataas na engineered kapaligiran dinisenyo upang magbuod ilang mga pagkilos, at isang mananaliksik ay hindi kailanman inaasahan na pag-uugali sa isang casino ay magbigay ng isang unfettered window sa pag-uugali ng tao. Of course, maaari naming malaman ang isang bagay tungkol sa tao na pag-uugali sa pag-aaral ang mga tao sa casino-sa katunayan ng isang casino ay maaaring maging isang ideal na setting para sa pag-aaral ng kaugnayan sa pagitan ng pagkonsumo ng alak at panganib kagustuhan-ngunit kung kami pinansin na ang data ay pagiging ginawa sa isang casino maaaring namin gumuhit ng ilang masamang pagpapalagay.
Sa kasamaang palad, pagharap sa algorithmic confounding ay partikular na mahirap dahil maraming mga tampok ng online na mga sistema ay pagmamay-ari, hindi maganda dokumentado, at patuloy na nagbabago. Halimbawa, bilang kukunin ko na ipaliwanag sa ibang pagkakataon sa kabanatang ito, algorithmic confounding ay isa posibleng paliwanag para sa unti-unti break-down ng Google Flu Trends (Section 2.4.2), ngunit ang claim na ito ay mahirap upang masuri dahil ang panloob na workings ng Google sa paghahanap algorithm ay pagmamay-ari. Ang pabago-bagong likas na katangian ng algorithmic confounding ay isang uri ng sistema ng drift. Algorithmic confounding nangangahulugan na dapat naming maging maingat tungkol sa anumang paghahabol para sa pag-uugali ng tao na nanggagaling mula sa isang solong digital system, hindi mahalaga kung gaano malaki.