2.3.2.7 Sensitif

Beberapa informasi bahwa perusahaan-perusahaan dan pemerintah memiliki sensitif.

perusahaan asuransi kesehatan memiliki informasi rinci tentang perawatan medis yang diterima oleh pelanggan mereka. Informasi ini dapat digunakan untuk penelitian penting tentang kesehatan, tetapi jika itu menjadi publik itu berpotensi menyebabkan kerugian emosional (misalnya, malu) dan membahayakan ekonomi (misalnya, kehilangan pekerjaan). Jauh dari khas, banyak sumber data besar memiliki informasi yang sensitif. Sifat sensitif informasi ini adalah bagian dari alasan bahwa sumber data yang besar seringkali tidak dapat diakses (dijelaskan di atas).

Salah satu cara yang peneliti mencoba untuk menangani situasi ini adalah untuk de-mengidentifikasi dataset yang memiliki informasi sensitif. Tapi, seperti yang saya akan menunjukkan secara rinci dalam Bab 6 (Etika) pendekatan ini serius terbatas dalam cara-cara yang tidak dihargai secara luas oleh kedua ilmuwan sosial dan ilmuwan data.

Kesimpulannya, sumber data besar hari ini (dan besok) umumnya memiliki sepuluh karakteristik. Banyak sifat-besar baik, selalu-on, dan reaktif-berasal dari fakta di perusahaan era digital dan pemerintah mampu mengumpulkan data pada skala yang tidak mungkin sebelumnya. Dan, banyak dari yang buruk sifat-lengkap, tidak dapat diakses, non-perwakilan, drifting, algoritma bingung, tidak dapat diakses, kotor, dan sensitif-berasal dari fakta bahwa data tidak dikumpulkan oleh peneliti untuk peneliti. Memahami karakteristik ini adalah langkah pertama yang diperlukan untuk belajar dari data besar. Dan, sekarang kita beralih ke penelitian strategi kita dapat menggunakan dengan data ini.