Os datos das empresas e os gobernos son difíciles de acceder aos investigadores.
En maio de 2014, a Axencia Nacional de Seguridade de EE. UU. Inaugurou un centro de datos no Utah rural cun nome incómodo, o Centro de Datos da Iniciativa Nacional de Ciberseguridade Integral da Comunidade de Intelixencia. Non obstante, este centro de datos, que foi coñecido como Utah Data Center, ten capacidades asombrosas. Un informe alega que é capaz de almacenar e procesar todas as formas de comunicación, incluíndo "o contido completo dos correos electrónicos privados, chamadas de teléfono móbil e procuras de Google, así como todo tipo de rastreamento de datos persoais, recibos de aparcamento, itinerarios de viaxes, compras de librerías , e outros "petos de peto" dixital (Bamford 2012) . Ademais de plantear preocupacións sobre a natureza sensible de gran parte da información captada en grandes datos, que se describirá máis abaixo, o Utah Data Center é un exemplo extremo dunha fonte de datos rica que é inaccesible para os investigadores. En xeral, moitas fontes de grandes datos que serían útiles son controlados e restrinxidos polos gobernos (por exemplo, datos fiscais e datos educativos) ou empresas (por exemplo, consultas nos buscadores e metadatos de chamadas telefónicas). Polo tanto, aínda que estas fontes de datos existen, son inútiles para os fins da investigación social porque son inaccesibles.
Na miña experiencia, moitos investigadores baseados en universidades malentenden a orixe desta inaccesibilidade. Estes datos son inaccesibles non porque as persoas en empresas e gobernos sexan estúpidas, preguizadas ou incómodas. Pola contra, hai graves barreiras legais, comerciais e éticas que impiden o acceso a datos. Por exemplo, algúns acordos de termos de servizo para sitios web só permiten que os empregados empreguen datos ou melloren o servizo. Así, certas formas de intercambio de datos poden expoñer ás empresas para legalizar os procesos xudiciais dos seus clientes. Tamén hai riscos comerciais substanciais para as empresas que participan na posta en común de datos. Intenta imaxinar como respondería o público se os datos de busca persoal accidentalmente se filtraron de Google como parte dun proxecto de investigación universitaria. Tal infracción de datos, se extrema, pode ata ser un risco existencial para a empresa. Polo tanto, Google e as compañías máis grandes están moi aversas ao risco de compartir datos cos investigadores.
De feito, case todos os que están en posición de proporcionar acceso a grandes cantidades de datos coñecen a historia de Abdur Chowdhury. En 2006, cando era xefe de investigación en AOL, lanzou intencionalmente á comunidade investigadora o que consideraba que eran consultas de busca anónimas de 650.000 usuarios de AOL. Polo que podo dicir, Chowdhury e os investigadores de AOL tiveron boas intencións, e creron que anonimizaron os datos. Pero estaban equivocados. Descubriuse rápidamente que os datos non eran tan anónimos como pensaban os investigadores, e os xornalistas do New York Estafes puideron identificar facilmente alguén no conxunto de datos (Barbaro and Zeller 2006) . Unha vez que se descubriron estes problemas, Chowdhury eliminou os datos do sitio web de AOL, pero era demasiado tarde. Os datos foran repostos noutros sitios web e probablemente aínda estarán dispoñibles cando estea a ler este libro. Chowdhury foi despedido e renunciou ao xefe de tecnoloxía de AOL (Hafner 2006) . Como se mostra neste exemplo, os beneficios para individuos específicos dentro das empresas para facilitar o acceso a datos son bastante pequenos e no caso peor é terrible.
Non obstante, os investigadores poden acceder a datos inaccesibles para o público en xeral. Algúns gobernos teñen procedementos que os investigadores poden seguir para solicitar o acceso, e como os exemplos máis recentes neste capítulo mostran, os investigadores poden ocasionalmente ter acceso a datos corporativos. Por exemplo, Einav et al. (2015) asociouse cun investigador en eBay para estudar poxas en liña. Vou falar máis sobre as investigacións que proviñan desta colaboración máis tarde no capítulo, pero menciono agora porque tiña os catro ingredientes que vexo en alianzas exitosas: o interese do investigador, a capacidade do investigador, o interese da empresa ea capacidade da compañía. . Vin que moitas colaboracións potenciais fallan porque xa sexa o investigador ou o compañeiro -xa sexa unha empresa ou goberno- careceu dun destes ingredientes.
Mesmo se é capaz de desenvolver unha asociación cunha empresa ou obter acceso a datos do goberno restrinxido, con todo, hai algúns inconvenientes para ti. En primeiro lugar, probablemente non poderás compartir os teus datos con outros investigadores, o que significa que outros investigadores non poderán verificar e ampliar os teus resultados. En segundo lugar, as preguntas que pode pedir poden ser limitadas; é improbable que as empresas permitan unha investigación que poida facelos mal. Finalmente, estas alianzas poden crear, polo menos, o aspecto dun conflito de intereses, onde a xente pensa que os teus resultados foron influenciados polas túas asociacións. Todas estas desvantaxes pódense abordar, pero é importante ter claro que traballar con datos que non son accesibles para todos teñen inconvenientes.
En resumo, moitos dos grandes datos son inaccesibles para os investigadores. Hai barreiras legais, comerciais e éticas graves que impiden o acceso a datos, e estas barreiras non desaparecerán xa que a tecnoloxía mellora porque non son barreiras técnicas. Algúns gobernos nacionais estableceron procedementos para permitir o acceso a datos de algúns conxuntos de datos, pero o proceso é especialmente ad hoc a nivel estatal e local. Ademais, nalgúns casos, os investigadores poden asociarse coas empresas para obter acceso a datos, pero isto pode xerar unha variedade de problemas para investigadores e empresas.