Işletmeler ve hükümetler tarafından tutulan veri araştırmacıların erişmek için zordur.
Mayıs 2014 yılında, ABD Ulusal Güvenlik Gündem, İstihbarat Topluluğu Kapsamlı Ulusal Siber Girişimi Veri Merkezi garip bir ada sahip kırsal Utah bir veri merkezi açtı. Ancak, Utah Veri Merkezi olarak bilinen geldi, bu veri merkezi, şaşırtıcı yeteneklere sahip olduğu bildirilmiştir. Bir rapor Utah Veri Merkezi depolamak ve "tam özel e-postaların içerikleri, cep telefonu aramaları ve Google aramalarında da dahil olmak üzere tüm iletişim biçimlerini, yanı sıra kişisel veri yollar park makbuzları, seyahat güzergahlar her türlü işlemi yapabiliyor iddia , kitapçı alımları ve diğer dijital `cep çöp '" (Bamford 2012) . Daha aşağıda tarif edilecek büyük veri yakalanan bilgilerin, çok hassas doğası hakkında yetiştirme endişelere ek olarak, Utah Veri Merkezi araştırmacılara ulaşılmaz zengin bir veri kaynağının uç bir örnek. Daha genel olarak, araştırmacılar kontrollü ve hükümetler (örneğin, vergi verileri ve eğitim verileri) ve şirketler tarafından kısıtlanır yararlı olacaktır büyük veri birçok kaynaktan (örneğin, sorguları motorları ve telefon meta veri aramak için). Bu nedenle, bu veriler üniversitelerde araştırmacılara hemen kullanılabilir olmayacak ve en hatta hükümetler ya da şirketler araştırmacılara mevcut olmayacaktır.
Benim tecrübeme göre, üniversitelerde dayalı pek çok araştırmacı bu erişilememesi kaynağını yanlış. Bu veriler şirketlerin ve hükümetlerin insanlar, aptal, tembel, ya da ilgisiz olduğu için erişilemez değildir. Aksine, ciddi hukuki, teknik, iş ve veri erişimini önlemek etik engeller bulunmaktadır. Örneğin, web siteleri için bazı terimler-of-service anlaşmaları yalnızca veri çalışanlar tarafından kullanılmak üzere veya hizmet geliştirmek için izin verir. Yani veri paylaşımı bazı formları müşterilerden meşru davalar şirketlerin maruz kalabilirsiniz. veri paylaşımı yapan şirketler için önemli iş riskleri de vardır. kişisel arama verileri yanlışlıkla bir üniversite araştırma projesinin bir parçası olarak Google'dan dışarı sızdırılmış olması halinde kamu nasıl tepki vereceğini hayal etmeye çalışın. Böyle bir veri ihlali, aşırı eğer, hatta şirket için varoluşsal bir risk olabilir. Yani Google ve en büyük çok riskten kaçınan araştırmacılar ile veri paylaşımı konusunda şirketleri-vardır.
Veri Abdur Chowdhury hikayesi bilir Aslında, bir pozisyonda olduğu hemen hemen herkes büyük miktarda erişim sağlamak için. o AOL araştırma başkanı iken 2006 yılında, o kasıtlı olarak o araştırma topluluğuna 650.000 AOL kullanıcılarından arama sorgularını anonim düşündüğüm yayınlandı. Bildiğim kadarıyla söyleyebilirim, Chowdhury ve AOL araştırmacılar iyi niyetleri vardı ve onlar anonim veriler düşündüm. Ama onlar yanlış. Hızla veri araştırmacıların düşünce gibi anonim olmadığını keşfetti ve New York Times muhabirleri kolaylıkla veri kümesi insanları tespit başardık (Barbaro and Zeller Jr 2006) . Bu sorunlar keşfedildi sonra Chowdhury AOL web sitesinden veri kaldırıldı, ama artık çok geçti. Bu veriler, diğer web sitelerinde yayinlanamaz olmuştu ve bu kitabı okurken muhtemelen hala mevcut olacak. Araştırma topluluğu ile veri paylaşımı için onun girişimi nedeniyle, Chowdhury kovuldu ve AOL CTO'su istifa etti (Hafner 2006) . Bu örnekten de anlaşılacağı gibi, içinde veri erişimi kolaylaştırmak için şirketlerin belirli bireyler için yararları oldukça küçük ve en kötü senaryo korkunç.
Araştırma, ancak genel halk için erişilemez verilere erişebilir. Hükümetler araştırmacılar erişmek için başvuruda takip edebilirsiniz prosedürleri var ve örnekler daha sonra bu bölümde gösterisinde olduğu gibi, araştırmacılar bazen kurumsal verilere erişebilir. Örneğin, Einav et al. (2015) online müzayedeler dijital izleri incelemek için eBay bir araştırmacı ile ortaklık. , Araştırmacı ilgi, araştırmacı yeteneği: Daha Sonra bölüm (Bölüm 2.4.3.2) bu işbirliği gelen araştırma hakkında daha fazla konuşacağız, ama ben başarılı ortaklıklar görmek tüm malzemeyi dört vardı çünkü şimdi o söz şirket faiz ve şirket yeteneği. Bir başka deyişle, einav ve arkadaşları ile ilgilenen ve online ihale okuyan yetenekli idi. Ve, eBay de oldu. Ancak, gördüğüm birçok olası işbirliği araştırmacı veya şirket ya bu maddelerden biri yoksun başarısız çünkü.
Eğer ki, bir iş ile bir ortaklık geliştirmek mümkün olsa bile, sizin için bazı olumsuz yanları vardır. İlk olarak, büyük olasılıkla sınırlı olan verilerle soru sorabilir; şirketler onları kötü görünmesi olabilir araştırmalar izin vermemektedirler. İkincisi, muhtemelen diğer araştırmacılar doğrulamak ve sonuçlarını uzatmak mümkün olmayacaktır demektir diğer araştırmacılar, verilerinizi paylaşmak mümkün olmayacaktır. Dahası, bu ortaklıklar insanların sonuçlarınız ortaklıklar tarafından etkilenmiş olduğunu düşünebilir ilgi, bir çatışma, en az görünüm oluşturabilirsiniz. Bu olumsuzlukları Bütün ele alınabilir, ama herkes için erişilebilir değildir verilerle çalışan upsides ve downsides de vardı o açık olmak önemlidir.
Özetle, büyük verinin çok araştırmacılara erişilemez. Orada ciddi hukuki, teknik, ticari, ve veri erişimini önlemek etik engeller ve bu engellerin ortadan kalkmayacaktır. Ulusal hükümetler genellikle veri erişimi sağlayan prosedürlerini kurduk, fakat süreç daha geçici devlet ve yerel düzeylerde olabilir. Ayrıca, bazı durumlarda, araştırmacılar şirketleri ile ortak veri erişim sağlamak için, ancak bu araştırmacılar için çeşitli sorunlar yaratabilir.