Ang pag-uugali sa mga malalaking data system ay hindi natural; ito ay hinihimok ng mga layunin ng engineering ng mga sistema.
Kahit na maraming mga mapagkukunan ng data ay hindi aktibo dahil ang mga tao ay hindi alam ang kanilang data ay naitala (seksyon 2.3.3), ang mga mananaliksik ay hindi dapat isaalang-alang ang pag-uugali sa mga online na sistema na "natural na nagaganap." Sa katunayan, ang mga digital na system na nagrerekord ng pag-uugali mataas na engineered upang mahikayat ang mga tiyak na pag-uugali tulad ng pag-click sa mga ad o pag-post ng nilalaman. Ang mga paraan na ang mga layunin ng mga designer ng system ay maaaring magpasok ng mga pattern sa data ay tinatawag na algorithmic confounding . Ang pagkalito ng algoritmiko ay medyo hindi kilala sa mga sosyal na siyentipiko, ngunit ito ay isang pangunahing pag-aalala sa maingat na siyentipiko ng data. At, hindi katulad ng ilan sa iba pang mga problema sa mga digital na bakas, ang pagkalito ng algorithm ay higit na nakikita.
Ang isang medyo simpleng halimbawa ng algorithmic confounding ay ang katunayan na sa Facebook mayroong isang anomalus mataas na bilang ng mga gumagamit na may humigit-kumulang na 20 mga kaibigan, tulad ng natuklasan sa pamamagitan ng Johan Ugander at kasamahan (2011) . Ang mga siyentipiko na pinag-aaralan ang data na ito nang walang anumang pag-unawa kung paano gumagana ang Facebook ay maaaring walang alinlangan na bumuo ng maraming mga kuwento tungkol sa kung paano 20 ang ilang mga uri ng mahiwagang numero ng social. Sa kabutihang palad, ang Ugander at ang kanyang mga kasamahan ay nagkaroon ng isang matibay na pag-unawa sa proseso na nakabuo ng data, at alam nila na hinihikayat ng Facebook ang mga tao na may ilang mga koneksyon sa Facebook upang makagawa ng higit pang mga kaibigan hanggang umabot sila sa 20 na mga kaibigan. Bagaman hindi sinasabi ito ng Ugander at mga kasamahan sa kanilang papel, ang patakarang ito ay maaaring nilikha ng Facebook upang hikayatin ang mga bagong gumagamit na maging mas aktibo. Gayunpaman, nang walang nalalaman tungkol sa pagkakaroon ng patakarang ito, madali itong gumuhit ng maling konklusyon mula sa data. Sa ibang salita, ang nakakagulat na mataas na bilang ng mga taong may mga 20 kaibigan ay nagsasabi sa amin ng higit pa tungkol sa Facebook kaysa tungkol sa pag-uugali ng tao.
Sa nakaraang halimbawang ito, ang algorithmic confounding ay nagawa ng isang resulta na isang maingat na tagapagpananaliksik ay maaaring makakita at magsiyasat pa. Gayunpaman, mayroong isang mas mabigat na bersyon ng algorithmic confounding na nangyayari kapag ang mga designer ng mga online system ay may kamalayan ng mga social theories at pagkatapos ay maghurno ang mga teoryang ito sa pagtatrabaho ng kanilang mga sistema. Tinatawag ng mga social scientist ang pagganap na ito : kapag ang isang teorya ay nagbabago sa mundo sa isang paraan na ito ay nagdadala sa mundo ng higit pa sa linya sa teorya. Sa kaso ng algorithmic na nakakalito, ang nakakalito na likas na katangian ng data ay napakahirap matukoy.
Ang isang halimbawa ng isang pattern na nilikha sa pamamagitan ng pagganap ay transitivity sa online social network. Sa mga 1970s at 1980s, paulit-ulit na natagpuan ng mga mananaliksik na kung ikaw ay kaibigan na may parehong Alice at Bob, pagkatapos Alice at Bob ay mas malamang na maging kaibigan sa bawat isa kaysa kung sila ay dalawang random na piniling mga tao. Ang parehong pattern na ito ay matatagpuan sa social graph sa Facebook (Ugander et al. 2011) . Kaya maaaring isaalang-alang ng isa na ang mga pattern ng pagkakaibigan sa Facebook ay gumagaya ng mga pattern ng offline na pakikipagkaibigan, kahit sa mga termino ng transitivity. Gayunpaman, ang laki ng transitivity sa Facebook social graph ay bahagyang hinihimok ng algorithmic confounding. Iyon ay, alam ng mga siyentipiko ng data sa Facebook ang tungkol sa empirical at teoretikong pananaliksik tungkol sa transitivity at pagkatapos ay inihurnong ito sa kung paano gumagana ang Facebook. Ang Facebook ay may tampok na "Mga Tao na Maaari Mong Malaman" na nagpapahiwatig ng mga bagong kaibigan, at isang paraan na tinutukoy ng Facebook kung sino ang iminumungkahi sa iyo ay transitivity. Iyon ay, mas malamang na imungkahi ng Facebook na maging kaibigan ka sa mga kaibigan ng iyong mga kaibigan. Ang tampok na ito kaya ay ang epekto ng pagtaas ng transitivity sa Facebook social graph; sa ibang salita, ang teorya ng transitivity ay nagdadala ng mundo sa linya kasama ang mga hula ng teorya (Zignani et al. 2014; Healy 2015) . Kaya, kapag lumilitaw ang mga pinagmumulan ng data upang magparami ng mga hula ng teorya ng panlipunan, kailangan nating tiyakin na ang teorya mismo ay hindi naluto sa kung paano gumana ang system.
Sa halip na pag-iisip ng mga malalaking pinagkukunan ng data tulad ng pagmamasid sa mga tao sa isang likas na setting, ang isang mas tumpak na metapora ay nagmamasid sa mga tao sa isang casino. Ang mga casino ay mataas ang engineered mga kapaligiran na dinisenyo upang mangyari ang ilang mga pag-uugali, at isang mananaliksik ay hindi inaasahan ang pag-uugali sa isang casino upang magbigay ng isang unfettered window sa pag-uugali ng tao. Siyempre, maaari kang matuto ng isang bagay tungkol sa pag-uugali ng tao sa pamamagitan ng pag-aaral sa mga tao sa mga casino, ngunit kung hindi mo pinansin ang katunayan na ang data ay nilikha sa isang casino, maaari kang gumuhit ng ilang masamang konklusyon.
Sa kasamaang palad, ang pagharap sa algorithmic confounding ay napakahirap dahil maraming mga tampok ng mga online na sistema ang pagmamay-ari, hindi maganda ang dokumentado, at patuloy na nagbabago. Halimbawa, tulad ng ipapaliwanag ko mamaya sa kabanatang ito, ang algorithmic confounding ay isang posibleng paliwanag para sa unti-unting pagkasira ng Google Flu Trends (seksyon 2.4.2), ngunit ang claim na ito ay mahirap masuri dahil ang panloob na paggana ng algorithm sa paghahanap ng Google ay pagmamay-ari. Ang pabago-bagong likas na katangian ng algorithmic confounding ay isang paraan ng paglipat ng sistema. Ang pagkalito ng algorithm ay nangangahulugan na dapat nating maging maingat tungkol sa anumang claim tungkol sa pag-uugali ng tao na nagmumula sa isang solong sistemang digital, gaano man kalaki.