Kabiasaan dina sistim data badag henteu alam; eta anu disetir ku gol rékayasa sahiji sistem.
Sanajan loba sumber data badag anu nonreactive lantaran urang henteu sadar data maranéhanana ayeuna keur dirékam (bagian 2.3.3), peneliti teu kudu mertimbangkeun kabiasaan di ieu sistem online janten "alami kajadian". Dina kanyataanana, sistem digital anu kabiasaan catetan anu kacida direkayasa keur dipicuna paripolah husus kayaning ngaklik on iklan atawa ngeposkeun eusi. Cara yén tujuan désainer Sistim tiasa ngenalkeun pola kana data disebut confounding algorithmic. confounding Algorithmic relatif kanyahoan mun élmuwan sosial, tapi mangrupakeun perhatian utama diantara élmuwan data ati. Na, kawas sababaraha masalah séjén jeung ngambah digital, confounding algorithmic téh sakitu legana halimunan.
Hiji conto kawilang basajan tina confounding algorithmic nyaéta kanyataan yén on Facebook aya hiji angka anomalously luhur pamaké kalayan kurang leuwih 20 babaturan, sakumaha kapanggih ku Johan Ugander sareng kolega Anjeun (2011) . Élmuwan analisa data ieu tanpa wae pamahaman kumaha Facebook jalan doubtless bisa ngahasilkeun loba carita ngeunaan kumaha 20 nyaéta sababaraha jenis angka sosial magis. Untungna, Ugander sareng kolega Anjeun-Na kungsi pamahaman penting tina prosés anu dihasilkeun data, sarta maranéhna terang yén Facebook wanti jalma kalawan sababaraha sambungan on Facebook sangkan babaturan langkung dugi aranjeunna ngahontal 20 babaturan. Sanajan Ugander sareng kolega Anjeun teu disebutkeun di tulisan maranéhanana, kawijakan ieu presumably dijieun ku Facebook dina urutan ka ajak pamaké anyar pikeun jadi leuwih aktif. Tanpa nyaho ngeunaan ayana kawijakan ieu, kumaha ogé, éta gampang ngagambar kacindekan lepat tina data. Dina basa sejen, jumlah heran tinggi jalma kalawan kira 20 babaturan ngabejaan urang langkung seueur ngeunaan Facebook ti ngeunaan kabiasaan manusa.
Dina conto saméméhna ieu, confounding algorithmic dihasilkeun hasil quirky yén hiji panalungtik ati bisa ngadeteksi na nalungtik salajengna. Najan kitu, aya hiji versi malah trickier of confounding algorithmic nu lumangsung nalika désainer sistem online sadar téori sosial lajeng Panggang téori ieu kana kerja sistem maranéhanana. Élmuwan sosial nelepon performativity ieu: lamun teori robah dunya dina cara sapertos nu eta mawa dunya beuki kana garis kalawan teori. Dina kasus confounding algorithmic performative, alam ngabingungkeun data nu hésé pisan ngadeteksi.
Hiji conto pola dijieun ku performativity nyaeta transitivity dina jaringan sosial online. Dina 1970-an tur 1980-an, peneliti sababaraha kali manggihan yén lamun aya babaturan kalawan duanana Alice sarta Bob, teras Alice sarta Bob anu leuwih gampang jadi babaturan saling ti lamun éta dua jalma dipilih sacara acak. Pola pisan sarua ieu kapanggih dina grafik sosial on Facebook (Ugander et al. 2011) . Ku kituna, salah sahiji bisa disimpulkeun yen pola tina silaturahim on Facebook ngayakeun réplikasi pola of friendships offline, sahenteuna dina watesan transitivity. Sanajan kitu, gedéna transitivity dina grafik sosial Facebook anu sawaréh disetir ku confounding algorithmic. Hartina, data élmuwan dina Facebook terang tina hasil panalungtikan empiris na teoritis ngeunaan transitivity lajeng dipanggang kana kumaha Facebook jalan. Facebook ngabogaan "Jalma Anjeun Dupi Nyaho" fitur nu nunjukkeun babaturan anyar, sarta salah sahiji cara nu Facebook megatkeun saha mun nyarankeun ka anjeun mangrupa transitivity. Maksudna, Facebook mangrupa leuwih gampang nyarankeun nu jadi babaturan jeung babaturan ti babaturan Anjeun. fitur ieu sahingga boga efek ngaronjatkeun transitivity dina grafik sosial Facebook; dina basa sejen, téori transitivity brings dunya kana garis jeung prediksi tina teori (Zignani et al. 2014; Healy 2015) . Ku kituna, nalika sumber data badag kaciri baranahan prediksi teori sosial, urang kedah pastikeun yén téori sorangan teu dipanggang kana kumaha sistem digawé.
Tinimbang mikir sumber data badag salaku observasi jalma dina setting alam, hiji kiasan langkung apt ieu observasi jalma dina kasino a. Casinos anu kacida direkayasa lingkung dirancang dipicuna paripolah nu tangtu, sarta panalungtik a pernah bakal nyangka kabiasaan di kasino pikeun nyadiakeun hiji jandela unfettered kana kabiasaan manusa. Tangtu, anjeun bisa neuleuman hal ngeunaan kabiasaan manusa ku diajar jalma di casinos, tapi lamun dipaliré kanyataan yén data nu ieu keur dijieun dina kasino, Anjeun bisa narik sabagian conclusions goréng.
Hanjakal, kaayaan confounding algorithmic sabagian hésé kusabab loba fitur sistem online nu proprietary, kirang documented, sarta terus ngarobah. Contona, saperti kuring gé ngajelaskeun engké dina bab ieu, confounding algorithmic éta salah katerangan mungkin keur ngarecahna bertahap tina Google Flu Tren (bagian 2.4.2), tapi ngaku ieu hésé assess sabab workings jero algoritma pilarian Google mangrupakeun proprietary. Sifat dinamis tina confounding algorithmic hiji wujud sistem drift. confounding Algorithmic hartina kami kudu cautious ngeunaan ngaku sagala ngeunaan paripolah manusa nu asalna tina sistem digital tunggal, euweuh urusan sabaraha badag.