Aturan ing sistem data amba ora alamiah; iki didhukung dening tujuan rékayasa sistem kasebut.
Senajan akeh sumber data gedhe sing ora aktif amarga wong ora weruh data sing dicathet (bagean 2.3.3), peneliti ngirim ora nimbang tingkah laku ing sistem online iki dadi "alami." Ing kasunyatan, sistem digital sing ngrekam prilaku Highly engineered kanggo ngindhari tindak tanduk tartamtu kayata ngeklik iklan utawa ngemot isi. Cara sing dadi tujuan perancang sistem bisa ngenal pola menyang data kasebut diarani algorithmic confounding . Pengertian algoritma ora dingerteni para ilmuwan sosial, nanging iku minangka prakara utama ing antarane para ilmuwan data sing ati-ati. Lan, ora kaya sawetara masalah liyane karo jejak digital, pengertian algoritma ora bisa dideleng.
Conto algoritma sing relatif sederhana yaiku nyatane yen ing Facebook ana pangguna anomali dhuwur kanthi kira-kira 20 kanca, kaya sing ditemokake dening Johan Ugander lan rekan (2011) . Para ilmuwan nganalisa data kasebut tanpa mangerteni carane kerjane Facebook keraguan bisa ngasilake akeh crita babagan 20 babagan sawetara jenis sosial magis. Muga-muga, Ugander lan kanca-kancane duwe pangerten substansial babagan proses sing ngasilake data kasebut, lan padha ngerti yen Facebook ngajak wong karo sawetara sambungan Facebook kanggo nggawe kanca liyane nganti tekan 20 kanca. Senajan Ugander lan kanca-kanca ora nyatakake iki ing koran, kebijakan iki bisa digawé dening Facebook kanggo nganjurake pangguna anyar dadi luwih aktif. Tanpa mangerteni bab kawujudane kawicaksanan iki, bisa uga gampang kanggo nggambarake kesimpulan saka data kasebut. Ing tembung liya, jumlah wong sing luwih saka 20 kanca ngandhani luwih akeh babagan Facebook tinimbang prilaku manungsa.
Ing conto sadurunge, pengertian algoritma ngasilake asil sing aneh sing bisa ditemokake karo peneliti sing ati-ati. Nanging, ana versi sing luwih rumit saka algorithmic confounding sing dumadi nalika perancang sistem online weruh teori-teori sosial lan banjur nggawe teori-teori kasebut ing sistem. Ilmuwan sosial nyebut performativitas iki: nalika sawijining teori ngowahi jagad kanthi cara kaya mengkono, bisa ngasilake donya luwih akeh kanthi teori. Ing kasus algoritma performative confounding, sifat sing dikuwataké saka data iku angel banget kanggo dideteksi.
Salah sijine pola sing digawe dening performativitas yaiku transitivitas ing jaringan sosial online. Ing taun 1970-an lan 1980-an, para panaliti manawa nemokake yen sampeyan kanca karo Alice lan Bob, banjur Alice lan Bob luwih seneng kanca-kancane tinimbang wong loro sing dipilih kanthi acak. Pola sing padha banget ditemokake ing grafik sosial Facebook (Ugander et al. 2011) . Mangkono, wong bisa nyimpulake yen patunggalan persahabatan ing Facebook niru pola patemon hubungan offline, paling sethithik babagan transitivitas. Nanging, gedhene transitivitas ing grafik sosial Facebook sebagian didhukung dening algorithmic confounding. Mangkono, para ilmuwan data ing Facebook sumurup babagan riset empiris lan teoretis babagan transitivitas lan banjur dipanggang ing cara kerja Facebook. Facebook nduweni fitur "Wong sing Mungkin Dikenalake" sing nyaranake kanca anyar, lan salah sawijining cara sing Facebook nemtokake sapa sing arep menehi transitivitas. Dadi, Facebook luwih seneng nulisake yen sampeyan dadi kanca karo kanca kanca. Fitur iki saingga nduweni pengaruh kanggo nambah transitivitas ing Facebook social graph; ing tembung liya, téori transitivitas ndadekaké donya dadi baris kanthi prediksi teori kasebut (Zignani et al. 2014; Healy 2015) . Mangkono, nalika sumber data gedhe katon kanggo ngasilake ramalan teori sosial, kita kudu manawa téori kasebut ora dipanggang manèh ing sistem apa.
Luwih saka mikir babagan sumber data gedhe minangka ngetungake wong ing lingkungan alam, metafora sing luwih apik ngurusi wong ing kasino. Kasino iku lingkungan sing dirancang kanthi apik kanggo ngindhari tindak tanduk tartamtu, lan peneliti ora bakal nyadari prilaku ing kasino kanggo nyedhiyakake jendhela sing ora bisa dibuwang menyang prilaku manungsa. Mesthi, sampeyan bisa sinau babagan prilaku manungsa kanthi sinau ing wong ing kasino, nanging yen sampeyan ngilangi kasunyatan sing data digawé ing kasino, sampeyan bisa narik sawetara kesimpulan sing ora becik.
Sayange, dealing karo algorithmic confounding utamané angel amarga akeh fitur online sistem sing proprietary, kurang nyathet, lan terus ganti. Contone, kaya sing dak jelasake ing bab iki, pengertian algoritma minangka salah sawijining panjelasan sing bisa ditrapake kanggo Google Flu Trends (bagean 2.4.2), nanging pratelan iki angel ditaksir amarga cara kerja inti saka algoritma pencarian Google tertutup. Sifat dinamis algoritmic confounding salah siji wangun sistem hanyutan. Algorithmic confounding tegese kita kudu ngati-ati babagan pratelan babagan perilaku manungsa sing diwiwiti saka sistem digital siji, ora ketompo carane dadi gedhe.