2.3.2.5 algorithmically digagalkan

Kelakuan dalam data didapati tidak adalah semula jadi, ia didorong oleh matlamat kejuruteraan sistem.

Walaupun banyak sumber data temui adalah bukan reaktif kerana orang tidak mengetahui data mereka direkodkan (Seksyen 2.3.1.3), penyelidik tidak perlu mengambil kira tingkah laku dalam sistem dalam talian untuk menjadi "wujud secara semula jadi" atau "tulen." Pada hakikatnya, sistem digital bahawa tingkah laku rekod adalah kejuruteraan tinggi untuk mendorong tingkah laku tertentu seperti klik pada iklan atau menghantar kandungan. Cara-cara yang matlamat pereka sistem boleh memperkenalkan corak ke dalam data dipanggil membaurkan algoritma. membaurkan algoritma yang agak tidak diketahui oleh ahli sains sosial, tetapi ia adalah satu kebimbangan utama di kalangan ahli sains data-hati. Dan, tidak seperti beberapa masalah lain dengan kesan digital, membaurkan algoritma adalah sebahagian besarnya tidak kelihatan.

Satu contoh yang agak mudah untuk membaurkan algoritma adalah hakikat bahawa di Facebook terdapat bilangan anomalously tinggi dari pengguna dengan kira-kira 20 rakan-rakan (Ugander et al. 2011) . Para saintis menganalisis dengan data ini tanpa sebarang pemahaman mengenai bagaimana Facebook berfungsi doubtlessly boleh menjana banyak cerita tentang bagaimana 20 beberapa jenis nombor sosial ajaib. Walau bagaimanapun, Ugander dan rakan-rakannya mempunyai pemahaman yang besar proses pentadbiran yang mewujudkan data, dan mereka tahu bahawa Facebook menggalakkan orang ramai dengan beberapa sambungan Facebook untuk mencari lebih ramai rakan sehingga mereka mencapai 20 rakan-rakan. Walaupun Ugander dan rakan-rakan tidak mengatakan ini dalam karya, polisi ini mungkin dicipta oleh Facebook untuk menggalakkan pengguna-pengguna baru untuk menjadi lebih aktif. Tanpa mengetahui tentang kewujudan polisi ini, bagaimanapun, ia adalah mudah untuk menarik kesimpulan yang salah daripada data. Dalam erti kata lain, bilangan sangat tinggi orang dengan kira-kira 20 rakan-rakan memberitahu kita lebih lanjut mengenai Facebook daripada tingkah laku manusia.

Lebih jahat daripada contoh sebelum ini di mana membaurkan algoritma dihasilkan hasil aneh bahawa penyelidik-hati mungkin menyiasat lebih lanjut, ada versi yang lebih sukar daripada membaurkan algoritma yang berlaku apabila pereka sistem online mengetahui teori-teori sosial dan kemudian bakar teori-teori ini ke dalam kerja sistem mereka. Ahli sains sosial memanggil performativity ini: apabila teori mengubah dunia dalam apa-apa cara yang mereka membawa dunia lebih ke dalam selaras dengan teori. Dalam kes-kes membaurkan algoritma performative, alam semula jadi yang membingungkan data itu mungkin tidak dapat dilihat.

Satu contoh corak dicipta oleh performativity adalah ketransitifan dalam rangkaian sosial dalam talian. Pada 1970-an dan 1980-an, penyelidik berulang kali mendapati bahawa jika anda berkawan dengan Alice dan anda berkawan dengan Bob, kemudian Bob dan Alice lebih cenderung untuk berkawan dengan satu sama lain daripada dua orang dipilih secara rawak. Dan, corak yang sama ini ditemui dalam graf sosial Facebook (Ugander et al. 2011) . Oleh itu, seseorang mungkin menyimpulkan bahawa corak persahabatan di Facebook meniru corak persahabatan di luar talian, sekurang-kurangnya dari segi ketransitifan. Walau bagaimanapun, magnitud ketransitifan dalam graf sosial Facebook sebahagiannya didorong oleh membaurkan algoritma. Iaitu, ahli-ahli sains data di Facebook tahu kajian empirik dan teori mengenai ketransitifan dan kemudian dibakar ke dalam bagaimana Facebook berfungsi. Facebook mempunyai "orang yang mungkin dikenali" ciri yang mencadangkan rakan-rakan baru, dan salah satu cara yang Facebook memutuskan siapa yang cadangkan kepada anda adalah ketransitifan. Iaitu, Facebook adalah lebih cenderung untuk menunjukkan bahawa anda menjadi kawan dengan rakan-rakan rakan-rakan. Ciri ini dengan itu mempunyai kesan meningkatkan ketransitifan dalam graf sosial Facebook; dalam erti kata lain, teori ketransitifan membawa dunia ke dalam selaras dengan ramalan teori (Healy 2015) . Oleh itu, apabila sumber-sumber data yang besar muncul untuk mengeluarkan semula ramalan teori sosial, kita perlu memastikan bahawa teori itu sendiri tidak dibakar ke dalam bagaimana sistem ini bekerja.

Daripada memikirkan sumber data yang besar seperti memerhatikan orang dalam suasana yang semula jadi, metafora yang lebih apt memerhatikan orang di kasino. Casinos adalah persekitaran direka untuk mendorong tingkah laku tertentu kejuruteraan tinggi dan penyelidik tidak akan menjangkakan bahawa tingkah laku di kasino akan memberi tetingkap tidak terbatas ke dalam tingkah laku manusia. Sudah tentu, kita boleh belajar sesuatu tentang tingkah laku belajar orang manusia di kasino-sebenarnya kasino mungkin persekitaran yang sesuai untuk mengkaji hubungan antara pengambilan alkohol dan risiko pilihan-tetapi jika kita diabaikan bahawa data telah diwujudkan di kasino kita mungkin membuat beberapa kesimpulan yang tidak baik.

Malangnya, berurusan dengan membaurkan algoritma amat sukar kerana banyak ciri-ciri sistem dalam talian adalah hak milik, kurang didokumenkan, dan sentiasa berubah. Sebagai contoh, seperti yang saya akan terangkan kemudian dalam bab ini, membaurkan algoritma adalah salah satu penjelasan yang mungkin untuk secara beransur-ansur break-down Google Trend Flu (Seksyen 2.4.2), tetapi tuntutan ini adalah sukar untuk menilai kerana kerja dalaman carian Google algoritma adalah hak milik. Sifat dinamik membaurkan algoritma adalah salah satu bentuk sistem drift. membaurkan algoritma bermakna kita perlu berhati-hati tentang apa-apa tuntutan bagi tingkah laku manusia yang berasal dari sistem digital, tidak kira berapa besar.