Los datos de las empresas y los gobiernos son difíciles de acceder para los investigadores.
En mayo de 2014, la Agencia de Seguridad Nacional de los EE. UU. Abrió un centro de datos en la zona rural de Utah con un nombre incómodo, el Centro Integral de Información sobre la Iniciativa Nacional de Ciberseguridad de la Comunidad de Inteligencia. Sin embargo, se informa que este centro de datos, que se conoce como el Centro de datos de Utah, tiene capacidades asombrosas. Un informe alega que es capaz de almacenar y procesar todas las formas de comunicación, incluidos "el contenido completo de correos electrónicos privados, llamadas de teléfonos celulares y búsquedas de Google, así como todo tipo de datos personales: recibos de estacionamiento, itinerarios de viaje, compras en la librería y otras "bolsas de bolsillo" digitales " (Bamford 2012) . Además de plantear inquietudes sobre la naturaleza sensible de gran parte de la información capturada en big data, que se describirá más adelante, el Utah Data Center es un ejemplo extremo de una fuente de datos rica que es inaccesible para los investigadores. En general, muchas fuentes de big data que serían útiles son controladas y restringidas por los gobiernos (por ejemplo, datos fiscales y datos educativos) o empresas (por ejemplo, consultas a motores de búsqueda y metadatos de llamadas telefónicas). Por lo tanto, a pesar de que estas fuentes de datos existen, son inútiles para fines de investigación social porque son inaccesibles.
En mi experiencia, muchos investigadores de universidades no entienden la fuente de esta inaccesibilidad. Estos datos son inaccesibles, no porque las personas en las empresas y los gobiernos sean estúpidos, perezosos o indiferentes. Por el contrario, existen serias barreras legales, comerciales y éticas que impiden el acceso a los datos. Por ejemplo, algunos acuerdos de términos de servicio para sitios web solo permiten el uso de datos por parte de los empleados o para mejorar el servicio. Por lo tanto, ciertas formas de intercambio de datos podrían exponer a las empresas a juicios legítimos de los clientes. También existen riesgos comerciales sustanciales para las empresas que participan en el intercambio de datos. Trate de imaginar cómo respondería el público si los datos personales de búsqueda se filtraran accidentalmente de Google como parte de un proyecto de investigación de la universidad. Tal incumplimiento de datos, si es extremo, podría incluso ser un riesgo existencial para la compañía. Por lo tanto, Google, y la mayoría de las grandes compañías, son muy reacias al riesgo de compartir datos con los investigadores.
De hecho, casi todos los que están en condiciones de proporcionar acceso a grandes cantidades de datos conocen la historia de Abdur Chowdhury. En 2006, cuando era el jefe de investigación en AOL, lanzó intencionalmente a la comunidad de investigación lo que él pensaba que eran consultas de búsqueda anónimas de 650,000 usuarios de AOL. Por lo que puedo decir, Chowdhury y los investigadores de AOL tenían buenas intenciones, y pensaban que habían anonimizado los datos. Pero estaban equivocados. Rápidamente se descubrió que los datos no eran tan anónimos como pensaban los investigadores, y los reporteros del New York Times pudieron identificar a alguien en el conjunto de datos con facilidad (Barbaro and Zeller 2006) . Una vez que se descubrieron estos problemas, Chowdhury eliminó los datos del sitio web de AOL, pero ya era demasiado tarde. Los datos se publicaron en otros sitios web, y es probable que aún esté disponible cuando esté leyendo este libro. Chowdhury fue despedido, y el director de tecnología de AOL renunció (Hafner 2006) . Como muestra este ejemplo, los beneficios para individuos específicos dentro de las empresas para facilitar el acceso a los datos son muy pequeños y el peor de los escenarios es terrible.
Sin embargo, los investigadores a veces pueden obtener acceso a datos que son inaccesibles para el público en general. Algunos gobiernos tienen procedimientos que los investigadores pueden seguir para solicitar el acceso, y como muestran los ejemplos más adelante en este capítulo, los investigadores pueden obtener acceso de vez en cuando a datos corporativos. Por ejemplo, Einav et al. (2015) asoció con un investigador en eBay para estudiar subastas en línea. Hablaré más sobre la investigación que surgió de esta colaboración más adelante en el capítulo, pero lo menciono ahora porque tenía los cuatro ingredientes que veo en las alianzas exitosas: interés de los investigadores, capacidad del investigador, interés de la compañía y capacidad de la empresa . He visto fracasar muchas colaboraciones potenciales porque el investigador o el socio, ya sea una empresa o un gobierno, carecían de uno de estos ingredientes.
Incluso si puede desarrollar una asociación con una empresa u obtener acceso a datos gubernamentales restringidos, sin embargo, existen algunas desventajas para usted. Primero, probablemente no podrá compartir sus datos con otros investigadores, lo que significa que otros investigadores no podrán verificar y extender sus resultados. En segundo lugar, las preguntas que puede hacer pueden ser limitadas; es poco probable que las compañías permitan investigaciones que podrían hacer que se vean mal. Finalmente, estas asociaciones pueden crear al menos la apariencia de un conflicto de intereses, donde la gente podría pensar que sus resultados fueron influenciados por sus asociaciones. Se pueden abordar todas estas desventajas, pero es importante tener claro que trabajar con datos que no son accesibles para todos tiene ventajas y desventajas.
En resumen, muchos de los grandes datos son inaccesibles para los investigadores. Existen barreras legales, comerciales y éticas serias que impiden el acceso a los datos, y estas barreras no desaparecerán a medida que la tecnología mejore porque no son barreras técnicas. Algunos gobiernos nacionales han establecido procedimientos para permitir el acceso a datos para algunos conjuntos de datos, pero el proceso es especialmente ad hoc a nivel estatal y local. Además, en algunos casos, los investigadores pueden asociarse con empresas para obtener acceso a los datos, pero esto puede crear una variedad de problemas para los investigadores y las empresas.