Parte de la información que las empresas y los gobiernos tienen es sensible.
Las compañías de seguros médicos tienen información detallada sobre la atención médica que reciben sus clientes. Esta información podría usarse para investigaciones importantes sobre la salud, pero si se hiciera pública, podría ocasionar daños emocionales (por ejemplo, vergüenza) o daños económicos (por ejemplo, pérdida de empleo). Muchas otras fuentes de big data también tienen información sensible , que es parte de la razón por la cual a menudo son inaccesibles.
Desafortunadamente, resulta bastante difícil decidir qué información es realmente sensible (Ohm 2015) , como lo ilustra el Premio Netflix. Como describiré en el capítulo 5, en 2006, Netflix lanzó 100 millones de calificaciones de películas proporcionadas por casi 500,000 miembros y tuvo una convocatoria abierta en la que personas de todo el mundo enviaron algoritmos que podrían mejorar la capacidad de Netflix para recomendar películas. Antes de publicar los datos, Netflix eliminó toda información obvia de identificación personal, como los nombres. Pero, apenas dos semanas después de que se publicaran los datos, Arvind Narayanan y Vitaly Shmatikov (2008) demostraron que era posible conocer las clasificaciones de películas de personas específicas usando un truco que les mostraré en el capítulo 6. Aunque un atacante podría descubrir una calificaciones de la película de la persona, todavía no parece ser nada sensible aquí. Si bien eso podría ser cierto en general, para al menos algunas de las 500,000 personas en el conjunto de datos, las calificaciones de las películas eran delicadas. De hecho, en respuesta a la publicación y nueva identificación de los datos, una lesbiana encerrada se unió a una demanda colectiva contra Netflix. Así es como se expresó el problema en esta demanda (Singel 2009) :
"[M] ovie y los datos de calificación contienen información de ... una naturaleza altamente personal y sensible. Los datos de la película del miembro exponen el interés personal de un miembro de Netflix y / o lucha con varios asuntos altamente personales, incluyendo sexualidad, enfermedad mental, recuperación del alcoholismo y victimización por incesto, abuso físico, violencia doméstica, adulterio y violación ".
Este ejemplo muestra que puede haber información que algunas personas consideran sensible dentro de lo que podría parecer una base de datos benigna. Además, muestra que una defensa principal que los investigadores emplean para proteger la identificación de datos confidenciales puede fallar de manera sorprendente. Estas dos ideas se desarrollan con mayor detalle en el capítulo 6.
Lo último a tener en cuenta acerca de los datos confidenciales es que recopilarlos sin el consentimiento de la gente plantea preguntas éticas, incluso si no se causa ningún daño específico. Al igual que ver a alguien tomando una ducha sin su consentimiento puede considerarse una violación de la privacidad de esa persona, recopilar información confidencial y recordar lo difícil que es decidir qué es lo que es sensible, sin el consentimiento crea posibles problemas de privacidad. Volveré a las preguntas sobre privacidad en el capítulo 6.
En conclusión, las fuentes de grandes volúmenes de datos, como los registros administrativos gubernamentales y comerciales, generalmente no se crean con fines de investigación social. Las grandes fuentes de datos de hoy, y probablemente mañana, tienden a tener 10 características. Muchas de las propiedades que generalmente se consideran buenas para la investigación -grandes, siempre activas y no reactivas- provienen del hecho de que en las empresas de la era digital y los gobiernos pueden recopilar datos a una escala que antes no era posible. Y muchas de las propiedades que generalmente se consideran malas para la investigación -incompletas, inaccesibles, no representativas, derivadas, algorítmicamente confusas, inaccesibles, sucias y sensibles- provienen del hecho de que estos datos no fueron recopilados por los investigadores para los investigadores. Hasta ahora, he hablado sobre datos gubernamentales y comerciales juntos, pero hay algunas diferencias entre los dos. En mi experiencia, los datos del gobierno tienden a ser menos no representativos, menos algorítmicamente confusos y menos variables. Por otro lado, los registros administrativos comerciales tienden a ser más constantes. Comprender estas 10 características generales es un primer paso útil para aprender de las fuentes de big data. Y ahora pasamos a estrategias de investigación que podemos usar con estos datos.