Beberapa informasi bahwa perusahaan-perusahaan dan pemerintah memiliki sensitif.
Perusahaan asuransi kesehatan memiliki informasi rinci tentang perawatan medis yang diterima oleh pelanggan mereka. Informasi ini dapat digunakan untuk penelitian penting tentang kesehatan, tetapi jika itu menjadi publik, berpotensi menyebabkan bahaya emosional (misalnya, malu) atau bahaya ekonomi (misalnya, kehilangan pekerjaan). Banyak sumber data besar lainnya juga memiliki informasi yang sensitif , yang merupakan bagian dari alasan mengapa mereka sering tidak dapat diakses.
Sayangnya, ternyata cukup sulit untuk memutuskan informasi apa yang sebenarnya sensitif (Ohm 2015) , seperti yang diilustrasikan oleh Hadiah Netflix. Seperti yang akan saya jelaskan di bab 5, pada tahun 2006, Netflix merilis 100 juta peringkat film yang disediakan oleh hampir 500.000 anggota dan memiliki panggilan terbuka di mana orang-orang dari seluruh dunia mengirimkan algoritme yang dapat meningkatkan kemampuan Netflix untuk merekomendasikan film. Sebelum merilis data, Netflix menghapus informasi identitas pribadi yang jelas, seperti nama. Tapi, hanya dua minggu setelah data dirilis Arvind Narayanan dan Vitaly Shmatikov (2008) menunjukkan bahwa adalah mungkin untuk belajar tentang penilaian film orang tertentu menggunakan trik yang akan saya tunjukkan di bab 6. Meskipun penyerang bisa menemukan peringkat film seseorang, sepertinya masih tidak ada yang sensitif di sini. Meskipun itu mungkin benar secara umum, setidaknya untuk sebagian dari 500.000 orang dalam kumpulan data, peringkat film sensitif. Bahkan, sebagai tanggapan terhadap pembebasan dan identifikasi ulang data, seorang wanita lesbian yang dikurung bergabung dengan gugatan class action terhadap Netflix. Inilah bagaimana masalah itu diungkapkan dalam gugatan ini (Singel 2009) :
“[M] ovie dan data rating berisi informasi dari ... sifat yang sangat pribadi dan sensitif. Data film anggota memperlihatkan minat pribadi dan / atau perjuangan anggota Netflix dengan berbagai masalah yang sangat pribadi, termasuk seksualitas, penyakit mental, pemulihan dari alkoholisme, dan viktimisasi dari incest, kekerasan fisik, kekerasan dalam rumah tangga, perzinahan, dan pemerkosaan. ”
Contoh ini menunjukkan bahwa ada informasi yang oleh sebagian orang dianggap sensitif di dalam apa yang mungkin tampak sebagai basis data yang jinak. Lebih lanjut, ini menunjukkan bahwa pertahanan utama yang digunakan para peneliti untuk melindungi data sensitif — de-identifikasi — dapat gagal dengan cara yang mengejutkan. Kedua gagasan ini dikembangkan secara lebih rinci dalam bab 6.
Hal terakhir yang perlu diingat tentang data sensitif adalah bahwa mengumpulkannya tanpa persetujuan orang menimbulkan pertanyaan etis, bahkan jika tidak ada bahaya khusus yang ditimbulkan. Sama seperti menonton seseorang mandi tanpa persetujuan mereka mungkin dianggap sebagai pelanggaran privasi orang itu, mengumpulkan informasi sensitif — dan ingat betapa sulitnya memutuskan apa yang sensitif — tanpa persetujuan menciptakan potensi masalah privasi. Saya akan kembali ke pertanyaan tentang privasi di bab 6.
Kesimpulannya, sumber data besar, seperti catatan administrasi pemerintah dan bisnis, umumnya tidak dibuat untuk tujuan penelitian sosial. Sumber data besar hari ini, dan kemungkinan besok, cenderung memiliki 10 karakteristik. Banyak properti yang secara umum dianggap baik untuk penelitian — besar, selalu aktif, dan tidak reaktif — berasal dari fakta di perusahaan era digital dan pemerintah dapat mengumpulkan data dalam skala yang sebelumnya tidak mungkin. Dan banyak properti yang umumnya dianggap buruk untuk penelitian — tidak lengkap, tidak dapat diakses, tidak mewakili, hanyut, membingungkan secara algoritme, tidak dapat diakses, kotor, dan sensitif — berasal dari fakta bahwa data ini tidak dikumpulkan oleh peneliti untuk peneliti. Sejauh ini, saya sudah bicara tentang data pemerintah dan bisnis bersama-sama, tetapi ada beberapa perbedaan di antara keduanya. Dalam pengalaman saya, data pemerintah cenderung kurang representatif, kurang membingungkan algoritmik, dan kurang hanyut. Di sisi lain, catatan administrasi bisnis cenderung lebih selalu aktif. Memahami 10 karakteristik umum ini merupakan langkah pertama yang membantu dalam pembelajaran dari sumber data besar. Dan sekarang kita beralih ke strategi penelitian yang dapat kita gunakan dengan data ini.