Kelakuan dalam sistem data besar tidak semulajadi; ia didorong oleh matlamat kejuruteraan sistem.
Walaupun banyak sumber data besar tidak aktif kerana orang tidak menyedari data mereka direkodkan (seksyen 2.3.3), para penyelidik tidak boleh mempertimbangkan tingkah laku dalam sistem dalam talian ini untuk "secara semula jadi." Pada hakikatnya, sistem digital yang merekodkan tingkah laku sangat kejuruteraan untuk mendorong tingkah laku tertentu seperti mengklik iklan atau kandungan pos. Cara-cara yang menjadi matlamat pereka sistem dapat memperkenalkan corak ke dalam data dipanggil pemalsuan algoritma . Pengertian algoritma agak tidak diketahui oleh saintis sosial, tetapi ia adalah kebimbangan utama di kalangan saintis data yang teliti. Dan, tidak seperti beberapa masalah lain dengan jejak digital, penggabungan algoritma tidak banyak kelihatan.
Satu contoh yang agak mudah untuk mengelirukan algoritma adalah hakikat bahawa di Facebook terdapat bilangan pengguna anomali yang tinggi dengan sekitar 20 kawan, seperti yang ditemui oleh Johan Ugander dan rakan-rakan (2011) . Para saintis menganalisis data ini tanpa pemahaman tentang cara kerja Facebook dengan pasti tidak dapat menghasilkan banyak cerita tentang bagaimana 20 adalah beberapa jenis nombor sosial ajaib. Mujurlah, Ugander dan rakan-rakannya mempunyai pemahaman yang mendalam mengenai proses yang menghasilkan data itu, dan mereka tahu bahawa Facebook menggalakkan orang ramai dengan beberapa hubungan di Facebook untuk membuat lebih banyak kawan sehingga mereka mencapai 20 kawan. Walaupun Ugander dan rakan sekerja tidak mengatakan ini dalam karya mereka, dasar ini mungkin dibuat oleh Facebook untuk menggalakkan pengguna baru menjadi lebih aktif. Tanpa mengetahui tentang kewujudan dasar ini, bagaimanapun, adalah mudah untuk membuat kesimpulan yang salah dari data. Dengan kata lain, jumlah orang yang mengejutkan dengan lebih kurang 20 kawan memberitahu kami lebih banyak mengenai Facebook daripada perilaku manusia.
Dalam contoh yang terdahulu ini, penggabungan algoritma menghasilkan keputusan yang aneh bahawa penyelidik yang teliti dapat mengesan dan menyiasat selanjutnya. Walau bagaimanapun, terdapat versi yang lebih rumit dari pengertian algoritma yang berlaku apabila pereka sistem dalam talian menyedari teori sosial dan kemudian membakar teori-teori ini ke dalam kerja sistem mereka. Ahli sains sosial memanggil performativity ini: apabila teori perubahan dunia dalam apa-apa cara yang ia membawa dunia lebih ke dalam selaras dengan teori. Dalam kes pemalsuan algoritma prestasi, sifat yang dikelirukan data adalah sangat sukar untuk dikesan.
Satu contoh corak yang dihasilkan oleh performativity adalah transitivity dalam rangkaian sosial dalam talian. Pada tahun 1970-an dan 1980-an, para penyelidik berulang kali mendapati bahawa jika anda berkawan dengan Alice dan Bob, maka Alice dan Bob lebih cenderung berteman dengan satu sama lain daripada jika mereka dua orang yang dipilih secara rawak. Corak yang sama ini ditemui dalam graf sosial di Facebook (Ugander et al. 2011) . Oleh itu, seseorang mungkin menyimpulkan bahawa corak persahabatan di Facebook meniru corak persahabatan luar talian, sekurang-kurangnya dari segi transitiviti. Walau bagaimanapun, magnitud transitiviti dalam graf sosial Facebook sebahagiannya didorong oleh penggabungan algoritma. Iaitu, para saintis data di Facebook mengetahui tentang penyelidikan empirikal dan teoretis mengenai transitiviti dan kemudian membakarnya ke dalam cara kerja Facebook. Facebook mempunyai ciri "Orang Yang Anda Ketahui" yang mencadangkan rakan baru, dan satu cara yang memutuskan Facebook untuk mencadangkan kepada anda adalah transit. Iaitu, Facebook lebih cenderung mencadangkan supaya anda menjadi kawan dengan kawan kawan anda. Ciri ini dengan itu memberi kesan peningkatan transitiviti dalam graf sosial Facebook; dalam erti kata lain, teori transitivity membawa dunia seiring dengan ramalan teori (Zignani et al. 2014; Healy 2015) . Oleh itu, apabila sumber data besar muncul untuk menghasilkan semula ramalan teori sosial, kita mesti yakin bahawa teori itu sendiri tidak dibakar ke dalam bagaimana sistem berfungsi.
Daripada memikirkan sumber data besar sebagai memerhatikan orang dalam keadaan semula jadi, metafora yang lebih tepat memerhatikan orang di kasino. Kasino adalah persekitaran yang sangat kejuruteraan yang direka untuk mendorong tingkah laku tertentu, dan penyelidik tidak akan mengharapkan tingkah laku di kasino untuk menyediakan tingkap yang tidak terkawal ke dalam tingkah laku manusia. Sudah tentu, anda boleh belajar sesuatu tentang tingkah laku manusia dengan mengkaji orang-orang di kasino, tetapi jika anda mengabaikan fakta bahawa data sedang dibuat di kasino, anda mungkin membuat kesimpulan yang buruk.
Malangnya, menangani penggabungan algoritma amat sukar kerana banyak ciri sistem dalam talian adalah proprietari, kurang didokumentasikan, dan sentiasa berubah. Contohnya, seperti yang akan saya jelaskan dalam bab ini, pengertian algoritma adalah salah satu penjelasan yang mungkin untuk pecahan secara berterusan Trend Google Flu (seksyen 2.4.2), tetapi tuntutan ini sukar untuk dinilai kerana kerja dalaman algoritma carian Google adalah proprietari. Sifat dinamik pengertian algoritma adalah satu bentuk sistem hanyut. Pengertian algoritma bermakna bahawa kita harus berhati-hati tentang apa-apa tuntutan mengenai kelakuan manusia yang berasal dari sistem digital tunggal, tidak kira berapa besarnya.