Şirketler ve hükümetler olması bilgilerden bazıları duyarlıdır.
Sağlık sigortası şirketleri, müşterileri tarafından alınan tıbbi bakım hakkında ayrıntılı bilgiye sahiptir. Bu bilgi sağlıkla ilgili önemli araştırmalar için kullanılabilir, ancak eğer kamuoyuna açıklanırsa, potansiyel olarak duygusal zarara (örneğin, utanç) veya ekonomik zarara (örneğin, iş kaybı) yol açabilir. Diğer pek çok büyük veri kaynağı da hassas olan ve çoğunlukla erişilememe nedenlerinin bir parçası olan bilgiye sahiptir.
Ne yazık ki, Netflix Ödülü tarafından gösterildiği gibi, hangi bilgilerin gerçekten hassas olduğuna karar vermek oldukça zordur (Ohm 2015) . Beşinci bölümde açıklayacağım gibi, Netflix, 2006'da 500.000 üye tarafından sağlanan 100 milyon film derecelendirmesini yayınladı ve Netflix'in film önerme yeteneğini artırabilecek, dünyanın dört bir yanından gelen kişilerin algoritmaları gönderdiği bir açık çağrı yaptı. Verileri yayınlamadan önce, Netflix, adlar gibi açık herhangi bir kişisel tanımlama bilgisini kaldırdı. Ancak, veriler serbest bırakıldıktan sadece iki hafta sonra Arvind Narayanan ve Vitaly Shmatikov (2008) , bölüm 6'da size göstereceğim bir hile kullanarak belirli kişilerin film derecelendirmelerini öğrenmenin mümkün olduğunu gösterdi. Kişinin film derecelendirmeleri, hala burada hassas bir şey gibi görünmüyor. Bu genel olarak doğru olsa da, veri kümesindeki en az 500.000 kişi için, film derecelendirmeleri hassastır. Aslında, verilerin serbest bırakılması ve yeniden tanımlanmasına cevaben, gizli bir lezbiyen kadın Netflix'e karşı bir sınıf aksiyon takımına katıldı. Sorunun bu davada nasıl ifade edildiği (Singel 2009) :
“[M] ovie ve derecelendirme verileri… son derece kişisel ve hassas nitelikteki bilgileri içerir. Üyenin film verileri bir Netflix üyesinin kişisel ilgisini ve / veya cinsellik, akıl hastalığı, alkolizmden kurtulma ve ensest, fiziksel taciz, aile içi şiddet, zina ve tecavüzden mağduriyet dahil olmak üzere çeşitli kişisel konularla mücadele eder. ”
Bu örnek, bazı kişilerin iyi niyetli bir veritabanı olarak görünebilecekleri içeride hassas olduğunu düşündükleri bilgiler olabileceğini göstermektedir. Dahası, araştırmacıların hassas verileri korumak için kullandıkları temel bir savunmanın — de-tanımlama — şaşırtıcı şekillerde başarısız olabileceğini göstermektedir. Bu iki fikir, 6. bölümde daha ayrıntılı olarak geliştirildi.
Hassas veriler hakkında akılda tutulması gereken son şey, belirli bir zarara neden olmasa bile, insanların rızası olmadan toplanmasının etik soruları gündeme getirmesidir. Bir kimsenin rızası olmadan duş almasını izlemek, o kişinin mahremiyetinin ihlali olarak değerlendirilebilir, hassas bilgilerin toplanması ve neyin hassas olduğuna karar vermenin ne kadar zor olabileceğinin hatırı sayılır bir biçimde potansiyel gizlilik endişeleri yaratması gibi. 6. bölümdeki gizlilikle ilgili sorulara döneceğim.
Sonuç olarak, hükümet ve işletme idari kayıtları gibi büyük veri kaynakları genellikle sosyal araştırma amacıyla oluşturulmamaktadır. Bugünün büyük veri kaynakları ve muhtemelen yarın, 10 karaktere sahip olma eğilimindedir. Araştırma için iyi olduğu düşünülen özelliklerin birçoğu (büyük, her zaman açık ve reaktif olmayan), dijital çağdaki şirketlerdeki gerçeklerden gelmektedir ve hükümetler daha önce mümkün olmayan bir ölçekte veri toplayabilmektedir. Araştırma için kötü olduğu düşünülen özelliklerin çoğu - eksik, erişilemez, temsili olmayan, sürüklenmeyen, algoritmik olarak karıştırılan, erişilemeyen, kirli ve hassas - bu verilerin araştırmacılar tarafından araştırmacılar tarafından toplanmadığı gerçeğinden kaynaklanmaktadır. Şimdiye kadar, hükümet ve iş verileri hakkında konuştum, ancak ikisi arasında bazı farklılıklar var. Tecrübemde, hükümet verileri daha az temsilci değil, daha az algoritmik olarak karışık ve daha az sürüklenme eğilimi gösteriyor. Diğer yandan, işletme idari kayıtları her zaman daha fazla olma eğilimindedir. Bu 10 genel özelliği anlamak, büyük veri kaynaklarından öğrenmeye yönelik ilk adımdır. Ve şimdi bu verilerle kullanabileceğimiz araştırma stratejilerine yöneliyoruz.