Perilaku dalam sistem big data tidak alami; itu didorong oleh tujuan rekayasa sistem.
Meskipun banyak sumber data besar tidak aktif karena orang-orang tidak menyadari data mereka sedang direkam (bagian 2.3.3), para peneliti tidak boleh mempertimbangkan perilaku dalam sistem online ini untuk “terjadi secara alami.” Pada kenyataannya, sistem digital yang mencatat perilaku adalah sangat direkayasa untuk menginduksi perilaku tertentu seperti mengklik iklan atau memposting konten. Cara-cara bahwa tujuan perancang sistem dapat memperkenalkan pola ke dalam data disebut pembaur algoritmik . Kebingungan algoritmik relatif tidak dikenal oleh para ilmuwan sosial, tetapi hal ini menjadi perhatian utama di kalangan ilmuwan data yang teliti. Dan, tidak seperti beberapa masalah lain dengan jejak digital, pembaur algoritmik sebagian besar tidak terlihat.
Contoh sederhana dari pengganggu algoritmik adalah fakta bahwa di Facebook terdapat jumlah pengguna yang sangat tinggi dengan sekitar 20 teman, seperti yang ditemukan oleh Johan Ugander dan rekan (2011) . Para ilmuwan menganalisis data ini tanpa pemahaman apa pun tentang cara kerja Facebook tidak diragukan lagi dapat menghasilkan banyak cerita tentang bagaimana 20 adalah semacam nomor sosial magis. Untungnya, Ugander dan rekan-rekannya memiliki pemahaman substansial tentang proses yang menghasilkan data, dan mereka tahu bahwa Facebook mendorong orang-orang dengan sedikit koneksi di Facebook untuk membuat lebih banyak teman sampai mereka mencapai 20 teman. Meskipun Ugander dan rekan tidak mengatakan ini di koran mereka, kebijakan ini mungkin dibuat oleh Facebook untuk mendorong pengguna baru menjadi lebih aktif. Tanpa mengetahui tentang keberadaan kebijakan ini, bagaimanapun, mudah untuk menarik kesimpulan yang salah dari data. Dengan kata lain, jumlah orang yang mengejutkan dengan sekitar 20 teman memberitahu kita lebih banyak tentang Facebook daripada tentang perilaku manusia.
Dalam contoh sebelumnya, pengganggu algoritmik menghasilkan hasil yang unik yang mungkin peneliti teliti mendeteksi dan menyelidiki lebih lanjut. Namun, ada versi yang lebih rumit dari pengganggu algoritmik yang terjadi ketika perancang sistem online menyadari teori sosial dan kemudian memanggang teori-teori ini ke dalam kerja sistem mereka. Ilmuwan sosial menyebut ini performativitas : ketika sebuah teori mengubah dunia sedemikian rupa sehingga membawa dunia lebih sejalan dengan teori. Dalam kasus gangguan algoritmik performatif, sifat data yang membingungkan sangat sulit dideteksi.
Salah satu contoh pola yang dibuat oleh performativitas adalah transitivitas dalam jejaring sosial online. Pada 1970-an dan 1980-an, para peneliti berulang kali menemukan bahwa jika Anda berteman dengan Alice dan Bob, maka Alice dan Bob lebih cenderung berteman satu sama lain daripada jika mereka adalah dua orang yang dipilih secara acak. Pola yang sama ini ditemukan dalam grafik sosial di Facebook (Ugander et al. 2011) . Dengan demikian, orang mungkin menyimpulkan bahwa pola pertemanan di Facebook meniru pola persahabatan luring, setidaknya dalam hal transitivitas. Namun, besarnya transitivitas dalam grafik sosial Facebook sebagian didorong oleh pengganggu algoritmik. Artinya, para ilmuwan data di Facebook tahu tentang penelitian empiris dan teoritis tentang transitivitas dan kemudian memanggangnya ke dalam cara kerja Facebook. Facebook memiliki fitur “Orang yang Anda Ketahui” yang menyarankan teman baru, dan salah satu cara Facebook memutuskan siapa yang disarankan kepada Anda adalah transitivitas. Artinya, Facebook lebih cenderung menyarankan Anda menjadi teman dengan teman teman Anda. Fitur ini sehingga memiliki efek meningkatkan transitivitas dalam grafik sosial Facebook; dengan kata lain, teori transitivitas membawa dunia ke sejalan dengan prediksi teori (Zignani et al. 2014; Healy 2015) . Jadi, ketika sumber data besar muncul untuk mereproduksi prediksi teori sosial, kita harus yakin bahwa teori itu sendiri tidak terpanggang ke dalam bagaimana sistem bekerja.
Daripada memikirkan sumber data besar sebagai mengamati orang dalam pengaturan alam, metafora yang lebih tepat adalah mengamati orang-orang di kasino. Kasino adalah lingkungan yang dirancang dengan sangat baik yang dirancang untuk menginduksi perilaku tertentu, dan seorang peneliti tidak akan pernah mengharapkan perilaku di kasino untuk memberikan jendela yang terbebas ke dalam perilaku manusia. Tentu saja, Anda bisa belajar sesuatu tentang perilaku manusia dengan mempelajari orang-orang di kasino, tetapi jika Anda mengabaikan fakta bahwa data sedang dibuat di kasino, Anda mungkin menarik beberapa kesimpulan yang buruk.
Sayangnya, berurusan dengan pengganggu algoritmik sangat sulit karena banyak fitur sistem daring bersifat eksklusif, didokumentasikan dengan buruk, dan terus berubah. Misalnya, seperti yang akan saya jelaskan nanti di bab ini, pengganggu algoritmik adalah salah satu penjelasan yang mungkin untuk perincian bertahap Google Pantau Flu Dunia (bagian 2.4.2), tetapi klaim ini sulit untuk dinilai karena cara kerja dalam algoritma pencarian Google adalah hak milik. Sifat dinamis dari pengganggu algoritmik adalah salah satu bentuk drift sistem. Perusakan algoritmik berarti bahwa kita harus berhati-hati tentang klaim apa pun mengenai perilaku manusia yang berasal dari sistem digital tunggal, tidak peduli seberapa besar.