Algunhas das informacións que as empresas e os gobernos teñen é sensible.
As compañías de seguros de saúde teñen información detallada sobre a asistencia médica recibida polos seus clientes. Esta información podería ser utilizada para investigacións importantes sobre a saúde, pero se fose pública, podería potencialmente provocar danos emocionais (por exemplo, vergonza) ou danos económicos (por exemplo, perda de emprego). Moitas outras grandes fontes de datos tamén teñen información sensible , que é parte do motivo polo cal moitas veces son inaccesibles.
Desafortunadamente, resulta bastante complicado decidir que información é realmente sensible (Ohm 2015) , como o ilustra o Premio Netflix. Como describirei no capítulo 5, en 2006 Netflix lanzou 100 millóns de clasificacións de películas proporcionadas por case 500.000 membros e tivo unha convocatoria aberta onde persoas de todo o mundo enviaron algoritmos que podían mellorar a capacidade de Netflix para recomendar películas. Antes de liberar os datos, Netflix eliminou calquera información obvia de identificación persoal, como nomes. Non obstante, só dúas semanas despois de que se publicaron os datos, Arvind Narayanan e Vitaly Shmatikov (2008) demostraron que era posible obter información sobre as calificacións de películas de persoas específicas usando un truco que vos mostrará no capítulo 6. Aínda que un atacante podería descubrir un As cualificacións de películas da persoa, aínda non parece ser nada sensible aquí. Aínda que isto podería ser verdadeiro en xeral, polo menos, algunhas das 500.000 persoas do conxunto de datos, as clasificacións de películas eran sensibles. De feito, en resposta ao lanzamento e reidentificación dos datos, unha muller lesbiana acochada uniuse a un xogo de acción de clase contra Netflix. Vexa como se expresou o problema nesta demanda (Singel 2009) :
"[M] ovie e os datos de clasificación contén información de ... natureza altamente persoal e sensible. Os datos do filme do membro expón o interese persoal dun membro Netflix ou loita con varias cuestións moi persoais, incluíndo a sexualidade, a enfermidade mental, a recuperación do alcoholismo e a vitimización do incesto, o abuso físico, a violencia doméstica, o adulterio ea violación ".
Este exemplo mostra que pode haber información que algunhas persoas consideran sensible dentro do que pode parecer unha base de datos benigna. Ademais, demostra que unha defensa principal que os investigadores empregan para protexer a identificación sensible de datos pode fallar de forma sorprendente. Estas dúas ideas desenvolven en maior detalle no capítulo 6.
A última cousa a ter en conta sobre os datos sensibles é que a recollida sen o consentimento das persoas suscita cuestións éticas, aínda que non se produza ningún dano específico. Do mesmo xeito que asistir a alguén que ducha sen o seu consentimento pode considerarse unha violación da privacidade da persoa, recompilando información sensible e recordar o difícil que pode ser decidir o sensible sen consentimento crea posibles problemas de privacidade. Volveréi a preguntas sobre privacidade no capítulo 6.
En conclusión, as fontes de datos grandes, como os rexistros administrativos e empresariais, generalmente non se crean para a investigación social. As grandes fontes de datos de hoxe, e probablemente mañá, tenden a ter 10 características. Moitas das propiedades que generalmente se consideran boas para a investigación: grandes, sempre e non reactivas, proveñen do feito das empresas de idade dixital e os gobernos poden recoller datos a unha escala que antes non era posible. E moitas das propiedades que generalmente se consideran malas para a investigación, incompletas, inaccesibles, non representativas, derivadas, algoritmicamente confundidas, inaccesibles, sucias e sensibles, proceden do feito de que estes datos non foron recollidos por investigadores para investigadores. Ata o de agora, falei sobre os datos do goberno e os negocios xuntos, pero hai algunhas diferenzas entre os dous. Na miña experiencia, os datos do goberno tenden a ser menos representativos, menos confundidos algorítmicamente e menos á deriva. Por outra banda, os rexistros administrativos comerciais tenden a ser máis sempre. Entender estas 10 características xerais é un primeiro paso útil para aprender de grandes fontes de datos. E agora volvemos ás estratexias de investigación que podemos usar con estes datos.