Dane posiadane przez firmy i rządy są trudne dla naukowców.
W maju 2014 r. Amerykańska agencja bezpieczeństwa narodowego otworzyła centrum danych na obszarach wiejskich w Utah z niezręczną nazwą - Kompleksowe Centrum Danych Inicjatyw Bezpieczeństwa Cybernetycznego Wspólnoty. Jednak to centrum danych, które zaczęło być znane jako Utah Data Center, ma zdumiewające możliwości. Jeden z raportów twierdzi, że jest w stanie przechowywać i przetwarzać wszystkie formy komunikacji, w tym "pełną zawartość prywatnych wiadomości e-mail, połączeń telefonicznych i wyszukiwań w Google, jak również wszelkiego rodzaju dane osobowe, szlaki parkingowe, plany podróży, zakupy w księgarniach i inny cyfrowy "kieszonkowy" (Bamford 2012) . Oprócz zgłaszania obaw związanych z newralgicznym charakterem większości informacji zebranych w dużych danych, które zostaną opisane poniżej, dane z Utah Data Center są skrajnym przykładem bogatego źródła danych, niedostępnego dla naukowców. Ogólnie rzecz biorąc, wiele źródeł dużych danych, które mogłyby być przydatne, jest kontrolowanych i ograniczanych przez rządy (np. Dane podatkowe i dane edukacyjne) lub firm (np. Zapytania do wyszukiwarek i meta-dane dotyczące połączeń telefonicznych). Dlatego, mimo że te źródła danych istnieją, są one bezużyteczne do celów badań społecznych, ponieważ są one niedostępne.
Z mojego doświadczenia wynika, że wielu naukowców z uniwersytetów źle rozumie źródło tej niedostępności. Dane te są niedostępne nie dlatego, że ludzie w firmach i rządach są głupi, leniwi lub nieuczciwi. Przeciwnie, istnieją poważne bariery prawne, biznesowe i etyczne, które uniemożliwiają dostęp do danych. Na przykład niektóre umowy o świadczenie usług dla witryn internetowych zezwalają tylko na wykorzystanie danych przez pracowników lub na ulepszenie usługi. Tak więc niektóre formy udostępniania danych mogą narazić firmy na legalne procesy sądowe ze strony klientów. Istnieje również poważne ryzyko biznesowe dla firm zaangażowanych w udostępnianie danych. Spróbuj wyobrazić sobie, jak społeczeństwo zareagowałoby, gdyby prywatne dane wyszukiwania przypadkowo wyciekły z Google w ramach uniwersyteckiego projektu badawczego. Takie naruszenie danych, jeśli jest skrajne, może nawet stanowić egzystencjalne zagrożenie dla firmy. Dlatego Google - i większość dużych firm - bardzo niechętnie podchodzi do dzielenia się danymi z badaczami.
W rzeczywistości prawie każdy, kto jest w stanie zapewnić dostęp do dużej ilości danych, zna historię Abdura Chowdhury'ego. W 2006 r., Kiedy był kierownikiem badań w AOL, celowo udostępnił społeczności badawczej, jak sądził, anonimowe zapytania od 650 000 użytkowników AOL. O ile wiem, Chowdhury i badacze z AOL mieli dobre intencje i sądzili, że dokonali anonimizacji danych. Ale byli w błędzie. Szybko okazało się, że dane nie były tak anonimowe, jak sądzili naukowcy, a reporterzy z New York Times byli w stanie z łatwością zidentyfikować kogoś w zbiorze danych (Barbaro and Zeller 2006) . Po wykryciu tych problemów Chowdhury usunął dane ze strony AOL, ale było już za późno. Dane zostały ponownie umieszczone na innych stronach internetowych i prawdopodobnie będą nadal dostępne podczas czytania tej książki. Chowdhury został zwolniony, a główny urzędnik techniczny AOL podał się do dymisji (Hafner 2006) . Jak pokazuje ten przykład, korzyści dla konkretnych osób wewnątrz firm w celu ułatwienia dostępu do danych są dość małe, a najgorszy scenariusz jest straszny.
Naukowcy mogą jednak czasem uzyskać dostęp do danych niedostępnych dla ogółu społeczeństwa. Niektóre rządy mają procedury, które naukowcy mogą stosować, aby ubiegać się o dostęp. Jak pokazują przykłady przedstawione w dalszej części tego rozdziału, badacze mogą czasami uzyskać dostęp do danych korporacyjnych. Na przykład Einav et al. (2015) nawiązał współpracę z badaczem z serwisu eBay w celu zbadania aukcji internetowych. Powiem więcej o badaniach, które pojawiły się podczas tej współpracy w dalszej części rozdziału, ale wspominam o tym teraz, ponieważ zawierały wszystkie cztery składniki, które widzę w udanych partnerstwach: zainteresowania badaczy, zdolności badaczy, zainteresowania firmy i możliwości firmy . Widziałem, jak wiele potencjalnych kolaboracji zawodzi, ponieważ albo badacz, albo partner - czy to firma, czy rząd - nie ma jednego z tych składników.
Nawet jeśli jesteś w stanie nawiązać partnerstwo z firmą lub uzyskać dostęp do zastrzeżonych danych rządowych, są jednak pewne wady. Po pierwsze, prawdopodobnie nie będziesz w stanie udostępnić swoich danych innym badaczom, co oznacza, że inni badacze nie będą w stanie zweryfikować i rozszerzyć twoich wyników. Po drugie, pytania, które możesz zadać, mogą być ograniczone; firmy prawdopodobnie nie pozwolą na badania, które mogłyby sprawić, że będą wyglądać źle. Wreszcie, partnerstwa te mogą stworzyć co najmniej pozór konfliktu interesów, w którym ludzie mogą myśleć, że twoje wyniki są zależne od twoich partnerstw. Wszystkie te wady można rozwiązać, ale ważne jest, aby jasno stwierdzić, że praca z danymi, które nie są dostępne dla wszystkich, ma zarówno zalety, jak i wady.
Podsumowując, wiele dużych danych jest niedostępnych dla badaczy. Istnieją poważne bariery prawne, biznesowe i etyczne, które uniemożliwiają dostęp do danych, a bariery te nie znikną wraz ze wzrostem technologii, ponieważ nie są barierami technicznymi. Niektóre rządy krajowe ustanowiły procedury umożliwiające dostęp do danych dla niektórych zestawów danych, jednak proces ten jest szczególnie doraźny na poziomie państwowym i lokalnym. Ponadto, w niektórych przypadkach naukowcy mogą współpracować z firmami w celu uzyskania dostępu do danych, ale może to spowodować wiele problemów dla naukowców i firm.