Şirketler ve hükümetler tarafından tutulan veriler araştırmacıların erişmesi için zordur.
Mayıs 2014'te ABD Ulusal Güvenlik Ajansı, Utah'ın kırsal kesiminde, İstihbarat Topluluğu Kapsamlı Ulusal Siber Güvenlik Girişimi Veri Merkezi olan bir veri merkezi açtı. Ancak, Utah Veri Merkezi olarak bilinen bu veri merkezinin, şaşırtıcı yeteneklere sahip olduğu bildiriliyor. Bir raporda, “özel e-postaların, cep telefonlarının ve Google aramalarının ve her türlü kişisel veri yolunun tam içeriği”, park makbuzları, seyahat güzergahları, kitapçı alımları dahil olmak üzere her türlü iletişimin saklanabileceğini ve işlenebileceğini iddia ediyor. ve diğer dijital 'cep çöpü' ” (Bamford 2012) . Utah Veri Merkezi, büyük veride ele geçirilen bilgilerin çoğunun hassas doğasıyla ilgili endişeleri arttırmanın yanı sıra, aşağıda daha ayrıntılı olarak açıklanacağı gibi, araştırmacılara ulaşılamayacak zengin bir veri kaynağının aşırı bir örneğidir. Daha genel olarak, yararlı olabilecek birçok büyük veri kaynağı, hükümetler (örneğin, vergi verileri ve eğitim verileri) veya şirketler (örneğin, arama motorları ve telefon çağrıları meta verisi sorguları) tarafından kontrol edilmekte ve sınırlandırılmaktadır. Bu nedenle, bu veri kaynakları mevcut olsa da, sosyal araştırmanın amaçları için faydasızdırlar çünkü erişilemezler.
Benim tecrübelerime göre, üniversitelere dayanan birçok araştırmacı bu erişilemezliğin kaynağını yanlış anlıyor. Bu verilere erişilemez çünkü şirketler ve hükümetlerdeki insanlar aptal, tembel ya da uncaring değillerdir. Aksine, veri erişimini engelleyen ciddi yasal, ticari ve etik engeller vardır. Örneğin, web siteleri için bazı hizmet şartları sözleşmeleri yalnızca verinin çalışanlar tarafından kullanılmasına veya hizmeti iyileştirmesine izin verir. Dolayısıyla, belirli veri paylaşımı biçimleri şirketleri şirketlerden yasal davalara maruz bırakabilir. Verilerin paylaşılmasında yer alan şirketlere önemli iş riskleri de vardır. Kişisel araştırma verilerinin Google’dan bir üniversite araştırma projesi kapsamında Google’dan yanlışlıkla sızması durumunda halkın nasıl tepki vereceğini hayal etmeye çalışın. Böyle bir veri ihlali, eğer aşırı ise, şirket için bile varoluşsal bir risk olabilir. Dolayısıyla, Google ve çoğu büyük şirket, araştırmacılarla verileri paylaşma konusunda çok risklidir.
Nitekim, büyük miktarda veriye erişim sağlama konumunda olan hemen hemen herkes, Abdur Chowdhury'nin hikâyesini bilir. 2006 yılında AOL'de araştırma başkanlığı yaptığı sırada, araştırma topluluğuna bilinçli olarak 650.000 AOL kullanıcısı tarafından yapılan arama sorgularını anonim hale getirdiğini söyledi. Anlayabildiğim kadarıyla, Chowdhury ve AOL'deki araştırmacıların iyi niyetleri vardı ve verileri anonimleştirdiklerini düşündüler. Ama yanılıyorlardı. Verilerin araştırmacıların düşündüğü kadar anonim olmadığı ve New York Times gazetecilerinin veri setindeki bir kimseyi rahatlıkla tanıyabildikleri kısa sürede tespit edildi (Barbaro and Zeller 2006) . Bu problemler keşfedildikten sonra, Chowdhury verileri AOL'un web sitesinden kaldırdı, ancak çok geç oldu. Veriler diğer web sitelerinde yayınlanmıştı ve muhtemelen bu kitabı okurken mevcut olacaktır. Chowdhury kovuldu ve AOL'un baş teknoloji sorumlusu istifa etti (Hafner 2006) . Bu örnekte görüldüğü gibi, şirketlerin içindeki belirli bireylerin veri erişimini kolaylaştırmak için sağladığı faydalar oldukça küçüktür ve en kötü durum senaryosu korkunçtur.
Bununla birlikte, araştırmacılar bazen halk tarafından erişilemeyen verilere erişebilirler. Bazı hükümetler, araştırmacıların erişim için başvurmaları için izleyebilecekleri prosedürlere sahiptir ve bu bölümdeki örneklerin gösterdiği gibi, araştırmacılar zaman zaman kurumsal verilere erişebilir. Örneğin, Einav et al. (2015) çevrimiçi açık artırmaları incelemek için eBay'de bir araştırmacıyla ortaklık kurdu. Bu işbirliğinden gelen bölüm hakkında daha sonra daha ayrıntılı olarak konuşacağım, ama şimdi bunu belirtiyorum çünkü başarılı ortaklıklarda gördüğüm dört malzemeden biri vardı: araştırmacı ilgisi, araştırmacı yeteneği, şirket ilgisi ve şirket kapasitesi . Potansiyel işbirliklerinin başarısız olduğunu gördüm çünkü araştırmacı ya da ortak - bir şirket ya da hükümet olsun - bu bileşenlerden yoksundu.
Bununla birlikte, bir şirketle ortaklık kurabilir ya da kısıtlı devlet verilerine erişebilseniz bile, sizin için bazı olumsuzluklar vardır. Öncelikle, verilerinizi başka araştırmacılarla paylaşamayacaksınız. Bu da diğer araştırmacıların sonuçlarınızı doğrulayamayacağı ve genişletemeyeceği anlamına gelir. İkincisi, sorabileceğiniz sorular sınırlı olabilir; şirketlerin kötü görünmesine neden olabilecek araştırmalara izin verme olasılığı düşük. Son olarak, bu ortaklıklar en azından bir çıkar çatışmasının ortaya çıkmasına neden olabilir; bu da insanların sonuçlarınızın ortaklıklarınızdan etkilendiğini düşünebileceği yerlerdir. Bütün bu olumsuzluklar ele alınabilir, ancak herkes tarafından erişilemeyen verilerle çalışmanın hem aşağı hem de aşağı yönde olduğu açıktır.
Özetle, araştırmacılara çok sayıda büyük veriye ulaşılamaz. Veri erişimini engelleyen ciddi yasal, ticari ve etik engeller vardır ve teknik engeller olmadıklarından teknoloji geliştikçe bu engeller ortadan kalkmayacaktır. Bazı ulusal hükümetler, bazı veri kümeleri için veri erişimini sağlamak için prosedürler oluşturmuşlardır, ancak süreç özellikle eyalet ve yerel düzeylerde geçicitir. Ayrıca, bazı durumlarda, araştırmacılar veri erişimi elde etmek için şirketlerle ortaklık kurabilir, ancak bu araştırmacılar ve şirketler için çeşitli problemler yaratabilir.