Tabia katika data kupatikana si kawaida, ni inaendeshwa na malengo ya uhandisi wa mifumo.
Ingawa watu wengi data kupatikana vyanzo ni yasiyo ya tendaji kwa sababu watu bila kufahamu data zao ni kuwa kumbukumbu (Sehemu ya 2.3.1.3), watafiti haipaswi kufikiria tabia katika mifumo hii online kuwa "zinazotokea" au "safi." Katika hali halisi, mifumo ya digital kwamba rekodi ya tabia ni yenye engineered kushawishi tabia maalum kama vile kubonyeza matangazo au posting maudhui. Njia ambazo malengo ya mfumo wa wabunifu wanaweza kuanzisha chati katika data inaitwa algorithmic confounding. Algorithmic confounding ni kiasi wasiojulikana na wanasayansi ya jamii, lakini ni tatizo kubwa miongoni mwa makini wanasayansi data. Na, tofauti na baadhi ya matatizo mengine na athari digital, algorithmic confounding ni kuanikwa.
Mfano rahisi ya confounding algorithmic ni ukweli kwamba katika Picha kuna watu anomalously idadi kubwa ya watumiaji na takriban 20 marafiki (Ugander et al. 2011) . Wanasayansi kuchambua na data hii bila ufahamu wowote wa jinsi Facebook kazi inaweza yamefanywa kuzalisha hadithi nyingi kuhusu jinsi 20 ni aina fulani ya idadi ya kichawi ya kijamii. Hata hivyo, Ugander na wenzake walikuwa na uelewa mkubwa wa mchakato kwamba yanayotokana data, na walijua kwamba Facebook moyo watu wenye uhusiano chache katika Picha kufanya marafiki zaidi mpaka kufikiwa marafiki 20. Ingawa Ugander na wenzake hawasemi hii katika karatasi, sera hii ilikuwa labda kuundwa kwa Facebook ili kuhamasisha watumiaji mpya kuwa hai zaidi. Bila kujua kuhusu kuwepo kwa sera hii, hata hivyo, ni rahisi kutoa hitimisho sahihi kutoka data. Kwa maneno mengine, kushangaza juu ya idadi ya watu wapatao 20 marafiki anatueleza zaidi kuhusu Facebook kuliko tabia ya binadamu.
Zaidi ufisadi kuliko mfano huu uliopita ambapo algorithmic confounding zinazozalishwa matokeo quirky kwamba watafiti makini inaweza kuchunguza zaidi, kuna hata trickier toleo la confounding algorithmic kwamba hutokea wakati wabunifu wa mifumo ya online wanatambua nadharia kijamii na kisha kuandaa nadharia hizi katika kazi wa mifumo yao. Wanasayansi ya jamii kuwaita performativity huu: wakati nadharia mabadiliko ya dunia katika namna ambayo wao kuleta dunia zaidi katika mstari na nadharia. Katika kesi ya performative algorithmic confounding, asili kufadhaika ya data ni uwezekano asiyeonekana.
Mfano mmoja ni muundo kuundwa kwa performativity ni transitivity katika mitandao ya kijamii online. Katika miaka ya 1970 na 1980, watafiti kurudia iligundua kuwa kama wewe ni marafiki na Alice na wewe ni marafiki na Bob, basi Bob na Alice ni zaidi ya kuwa na marafiki na kila mmoja kuliko watu wawili nasibu waliochaguliwa. Na, hii mfano huo sana lilipatikana katika graph ya kijamii katika Picha (Ugander et al. 2011) . Hivyo, mtu anaweza kuhitimisha kuwa chati ya urafiki katika Picha kuiga mifumo ya urafiki now, angalau katika suala la transitivity. Hata hivyo, ukubwa wa transitivity katika Facebook graph ya kijamii ni sehemu inaendeshwa na confounding algorithmic. Yaani, wanasayansi data katika Facebook alijua ya utafiti wa kisayansi na kinadharia kuhusu transitivity na kisha Motoni ndani jinsi Facebook kazi. Facebook ina "Watu Mpate kujua" kipengele kwamba unaonyesha marafiki wapya, na njia moja kwamba Facebook anaamua nani kupendekeza na wewe ni transitivity. Yaani, Facebook ni zaidi uwezekano wa zinaonyesha kwamba wewe kuwa na marafiki na marafiki wa rafiki yako. Kipengele hiki hivyo ina athari ya kuongeza transitivity katika Facebook graph kijamii; kwa maneno mengine, nadharia ya transitivity huleta dunia katika mstari na utabiri wa nadharia (Healy 2015) . Hivyo, wakati vyanzo big takwimu inaonekana kuzaliana utabiri wa nadharia ya kijamii, ni lazima kuwa na uhakika kwamba nadharia yenyewe haikuwa Motoni katika jinsi mfumo wa kazi.
Badala ya kufikiri ya vyanzo kubwa data kama kuchunguza watu katika mazingira ya asili, mfano zaidi anayeweza imesimamisha watu katika casino. Kasino ni yenye engineered mazingira iliyoundwa kuchochea tabia fulani, na watafiti kamwe kutarajia kwamba tabia katika casino itatoa dirisha isiyokuwa na ndani ya tabia ya binadamu. Bila shaka, tunaweza kujifunza kitu kuhusu tabia ya kusoma watu binadamu katika kasinon-kwa kweli casino inaweza kuwa mazingira bora kwa ajili ya kusoma uhusiano kati ya matumizi ya pombe na hatari upendeleo-lakini kama sisi kupuuzwa kwamba data alipoumbwa katika casino tupate kuteka baadhi ya hitimisho mbaya.
Kwa bahati mbaya, kukabiliana na confounding algorithmic ni vigumu hasa kwa sababu makala nyingi za mifumo online ni wamiliki, hafifu kumbukumbu, na kubadilika. Kwa mfano, kama mimi itabidi kueleza baadaye katika sura hii, algorithmic confounding alikuwa mmoja maelezo inawezekana kwa taratibu kuvunja-chini ya Google Flu Mwelekeo (Sehemu ya 2.4.2), lakini dai hili ilikuwa vigumu kutathmini kwa sababu utendaji kazi ndani ya utafutaji wa Google algorithm ni wamiliki. asili ya nguvu ya confounding algorithmic ni aina moja ya mfumo wa drift. Algorithmic confounding ina maana kwamba tunapaswa kuwa na tahadhari kuhusu madai yoyote kwa tabia ya binadamu kwamba linatokana na mfumo wa single digital, bila kujali jinsi kubwa.