Los datos en poder de las empresas y los gobiernos son difíciles para los investigadores acceder.
En mayo de 2014, el Programa Nacional de Seguridad de Estados Unidos abrió un centro de datos en Utah rural que tiene un nombre raro, la Iniciativa Nacional de Ciberseguridad Centro de Datos de Inteligencia Integral Comunitaria. Sin embargo, este centro de datos, que ha llegado a ser conocido como el Centro de Datos de Utah, se informa que tiene capacidades asombrosas. En un informe se alega que el Centro de Datos de Utah es capaz de almacenar y procesar todas las formas de comunicación, como "el contenido completo de correos electrónicos privados, llamadas de teléfonos móviles, y las búsquedas de Google, así como todo tipo de datos personales recibos senderos de aparcamiento, itinerarios de viaje , las compras de librería, y otra digital de bolsillo `basura '" (Bamford 2012) . Además de las preocupaciones sensibilización acerca de la naturaleza sensible de gran parte de la información capturada en grandes volúmenes de datos, que se describirá más adelante, el Centro de Datos de Utah es un ejemplo extremo de una rica fuente de datos que es inaccesible para los investigadores. De manera más general, muchas fuentes de datos grandes que podrían ser útiles para los investigadores son controlados y restringidos por los gobiernos (por ejemplo, datos fiscales y los datos educativos) y las empresas (por ejemplo, las consultas de los motores y llamada telefónica meta-datos de búsqueda). Por lo tanto, estos datos no estarán inmediatamente disponibles para los investigadores en las universidades, y la mayoría no estarán a disposición de los investigadores en los gobiernos o empresas.
En mi experiencia, muchos investigadores basados en las universidades entienden mal la fuente de esta inaccesibilidad. Estos datos no son inaccesibles debido a las personas en las empresas y los gobiernos son estúpidos, perezosos, o indiferente. Por el contrario, existen serios problemas legales, técnicos, de negocios, y las barreras éticas que impiden el acceso de datos. Por ejemplo, algunos acuerdos términos de servicio para los sitios web sólo permiten que los datos sean utilizados por los empleados o para mejorar el servicio. Así que ciertas formas de compartir datos podrían exponer a las empresas a las demandas legítimas de los clientes. También existen riesgos sustanciales de negocios a empresas que participan en el intercambio de datos. Trate de imaginar cómo respondería el público si los datos personales de búsqueda filtró accidentalmente hacia fuera de Google como parte de un proyecto de investigación de la universidad. Tal violación de datos, en caso extremo, incluso podría ser un riesgo existencial para la empresa. Así que Google y más grandes empresas son muy reacios al riesgo de compartir los datos con los investigadores.
De hecho, casi todos los que están en condiciones de proporcionar acceso a grandes cantidades de datos conoce la historia del Abdur Chowdhury. En 2006, cuando era el jefe de investigación AOL, lanzó intencionalmente lo que él pensaba que eran anónimos consultas de búsqueda de 650.000 usuarios de AOL a la comunidad de investigación. Por lo que yo puedo decir, Chowdhury y los investigadores de AOL tenían buenas intenciones y pensaron que habían anónimos los datos. Sin embargo, ellos estaban equivocados. Se descubrió rápidamente que los datos no eran tan anónimo como pensaban los investigadores y reporteros de The New York Times fueron capaces de identificar a las personas en el conjunto de datos con facilidad (Barbaro and Zeller Jr 2006) . Una vez que se descubrieron estos problemas, Chowdhury elimina los datos de la página web de AOL, pero era demasiado tarde. Los datos se habían vuelto a publicar en otros sitios web, y es probable que aún esté disponible cuando usted está leyendo este libro. Debido a su intento de compartir los datos con la comunidad científica, Chowdhury fue despedido, y director de tecnología de AOL renunció (Hafner 2006) . Como muestra este ejemplo, los beneficios para los individuos específicos dentro de las empresas para facilitar el acceso a los datos son bastante pequeñas y el peor de los casos es terrible.
La investigación puede, sin embargo, tener acceso a los datos que es inaccesible para el público en general. Los gobiernos tienen procedimientos que los investigadores pueden seguir para solicitar el acceso, y como los ejemplos más adelante en este capítulo muestran, en ocasiones los investigadores pueden tener acceso a los datos corporativos. Por ejemplo, Einav et al. (2015) se asoció con un investigador en eBay para estudiar las huellas digitales de las subastas en línea. Voy a hablar más sobre la investigación que vino de esta colaboración más adelante en el capítulo (Sección 2.4.3.2), pero lo menciono ahora porque tenía los cuatro ingredientes que veo en asociaciones exitosas: el interés investigador, la capacidad investigadora, interés de la compañía, y la capacidad de la empresa. En otras palabras, Einav y sus colegas estaban interesados en estudiar y capaz de subastas en línea. Y, eBay fue también. Sin embargo, he visto muchas posibilidades de colaboración fracasan porque o bien el investigador o empresa no contaba con uno de estos ingredientes.
Incluso si usted es capaz de desarrollar una asociación con una empresa, sin embargo, hay algunas desventajas para usted. En primer lugar, las preguntas que usted puede hacer con los datos con probable ser limitada; empresas es poco probable que continúe la investigación que podría hacer que se vean mal. En segundo lugar, es probable que no sea capaz de compartir sus datos con otras investigadores, lo que significa que otros investigadores no van a ser capaces de verificar y ampliar los resultados. Además, estas asociaciones pueden crear por lo menos la apariencia de un conflicto de intereses, donde la gente podría pensar que sus resultados fueron influenciados por sus asociaciones. Todos estos inconvenientes se pueden abordar, pero es importante tener claro que el trabajo con datos que no son accesibles para todo el mundo tenía dos ventajas y desventajas.
En resumen, una gran cantidad de datos tan grande es inaccesible para los investigadores. Existen serios problemas legales, técnicos, de negocios, y las barreras éticas que impiden el acceso de datos, y estas barreras no van a desaparecer. Los gobiernos nacionales en general, han establecido procedimientos para habilitar el acceso a datos, pero el proceso puede ser más ad hoc a nivel estatal y local. Además, en algunos casos, los investigadores pueden asociarse con empresas para obtener acceso a los datos, pero esto puede crear una variedad de problemas para los investigadores.