Sesetengah maklumat bahawa syarikat-syarikat dan kerajaan mempunyai sensitif.
Syarikat insurans kesihatan mempunyai maklumat terperinci tentang penjagaan perubatan yang diterima oleh pelanggan mereka. Maklumat ini boleh digunakan untuk penyelidikan penting mengenai kesihatan, tetapi jika ia menjadi awam, ia berpotensi membawa kepada kecederaan emosi (misalnya, malu) atau bahaya ekonomi (contohnya, kehilangan pekerjaan). Banyak sumber data besar lain juga mempunyai maklumat yang sensitif , yang merupakan sebahagian daripada sebab mengapa mereka sering tidak dapat diakses.
Malangnya, ternyata agak rumit untuk menentukan maklumat apa yang sebenarnya sensitif (Ohm 2015) , seperti yang digambarkan oleh Hadiah Netflix. Seperti yang saya akan terangkan dalam bab 5, pada tahun 2006 Netflix mengeluarkan 100 juta penarafan filem yang disediakan oleh hampir 500,000 ahli dan mempunyai panggilan terbuka di mana orang dari seluruh dunia menyerahkan algoritma yang dapat meningkatkan kemampuan Netflix untuk mencadangkan filem. Sebelum melepaskan data, Netflix memadam sebarang maklumat mengenal pasti secara peribadi, seperti nama. Tetapi, hanya dua minggu selepas data yang dikeluarkan Arvind Narayanan dan Vitaly Shmatikov (2008) menunjukkan bahawa ia mungkin untuk mengetahui tentang penarafan filem orang tertentu menggunakan silap mata yang akan saya tunjukkan pada bab 6. Walaupun seorang penyerang dapat menemui rating filem orang, masih tidak kelihatan apa-apa sensitif di sini. Walaupun itu mungkin benar pada umumnya, sekurang-kurangnya beberapa daripada 500,000 orang dalam dataset, penarafan filem adalah sensitif. Sebenarnya, sebagai tindak balas kepada pembebasan dan pengenalan semula data, seorang wanita lesbian yang ditutupi menyertai saman tindakan kelas terhadap Netflix. Begini bagaimana masalah itu dinyatakan dalam tuntutan ini (Singel 2009) :
"[M] data ovie dan penarafan mengandungi maklumat ... sifat yang sangat peribadi dan sensitif. Data filem ahli mendedahkan kepentingan peribadi Netflix dan / atau perjuangan dengan pelbagai isu yang sangat peribadi, termasuk seksualiti, penyakit mental, pemulihan daripada alkoholisme, dan pembunuhan dari incest, penyalahgunaan fizikal, keganasan rumah tangga, perzinaan, dan rogol. "
Contoh ini menunjukkan terdapat maklumat bahawa sesetengah orang menganggap sensitif di dalam apa yang mungkin muncul sebagai pangkalan data yang jinak. Selanjutnya, ia menunjukkan bahawa pertahanan utama yang digunakan penyelidik untuk melindungi data sensitif-de-identifikasi-boleh gagal dalam cara mengejutkan. Dua idea ini dikembangkan secara terperinci dalam bab 6.
Perkara terakhir yang perlu diingat mengenai data sensitif ialah mengumpulnya tanpa persetujuan orang menimbulkan persoalan etika, walaupun tidak ada bahaya tertentu. Sama seperti menonton seseorang yang mandi tanpa kebenaran mereka mungkin dianggap melanggar privasi orang itu, mengumpul maklumat sensitif-dan ingat betapa sukarnya untuk menentukan apa yang sensitif-tanpa persetujuan mewujudkan kebimbangan privasi yang berpotensi. Saya akan kembali kepada soalan mengenai privasi dalam bab 6.
Sebagai kesimpulan, sumber data besar, seperti rekod pentadbiran kerajaan dan perniagaan, secara amnya tidak dicipta untuk tujuan penyelidikan sosial. Sumber data besar hari ini, dan mungkin esok, cenderung mempunyai 10 ciri. Kebanyakan sifat yang pada umumnya dianggap baik untuk penyelidikan-besar, sentiasa-aktif, dan tidak aktif-datang dari fakta dalam syarikat-syarikat digital dan kerajaan dapat mengumpul data pada skala yang tidak mungkin sebelum ini. Dan banyak sifat yang pada umumnya dianggap tidak baik untuk penyelidikan yang tidak lengkap, tidak boleh diakses, tidak mewakili, hanyut, secara algoritma terkeliru, tidak dapat diakses, kotor, dan sensitif-datang dari fakta bahawa data ini tidak dikumpulkan oleh penyelidik untuk penyelidik. Setakat ini, saya telah bercakap tentang data kerajaan dan perniagaan bersama, tetapi terdapat beberapa perbezaan antara kedua-dua. Dalam pengalaman saya, data kerajaan cenderung kurang mewakili, kurang dikelirukan secara algoritma, dan kurang hanyut. Sebaliknya, rekod pentadbiran perniagaan cenderung untuk menjadi lebih mudah. Memahami 10 ciri umum ini adalah langkah pertama yang berguna untuk belajar dari sumber data besar. Dan kini kita beralih kepada strategi penyelidikan yang boleh kita gunakan dengan data ini.