El riesgo informativo es el riesgo más común en la investigación social; ha aumentado dramáticamente; y es el riesgo más difícil de entender.
El segundo desafío ético para la investigación de la era digital es el riesgo de información , el potencial de daño a partir de la divulgación de información (National Research Council 2014) . Los daños informativos de la divulgación de información personal pueden ser económicos (por ejemplo, perder un trabajo), sociales (por ejemplo, vergüenza), psicológicos (por ejemplo, depresión) o incluso delictivos (por ejemplo, arresto por conducta ilegal). Desafortunadamente, la era digital aumenta dramáticamente el riesgo de información; hay mucha más información sobre nuestro comportamiento. Y el riesgo de información ha demostrado ser muy difícil de comprender y manejar en comparación con los riesgos que eran preocupaciones en la investigación social de la era analógica, como el riesgo físico.
Una manera en que los investigadores sociales disminuyen el riesgo de información es "anónima" de datos. "Anonimización" es el proceso de eliminación de identificadores personales obvios tales como nombre, dirección y número de teléfono a partir de los datos. Sin embargo, este enfoque es mucho menos eficaz que muchas personas se dan cuenta, y es, de hecho, profunda y fundamentalmente limitada. Por esa razón, cada vez que describo "anónima" Voy a usar comillas para recordarles que este proceso crea la apariencia de anonimato, pero no es cierto anonimato.
Un claro ejemplo del fracaso de la "anonimización" proviene de fines de la década de 1990 en Massachusetts (Sweeney 2002) . La Comisión de Seguros Grupales (GIC, por sus siglas en inglés) era una agencia gubernamental responsable de comprar seguro médico para todos los empleados estatales. A través de este trabajo, el GIC recolectó registros de salud detallados sobre miles de empleados estatales. En un esfuerzo por estimular la investigación, el GIC decidió lanzar estos registros a los investigadores. Sin embargo, no compartieron todos sus datos; más bien, "anonimizaron" estos datos al eliminar información como nombres y direcciones. Sin embargo, dejaron otra información que pensaron podría ser útil para los investigadores, como información demográfica (código postal, fecha de nacimiento, origen étnico y sexo) e información médica (datos de visita, diagnóstico, procedimiento) (figura 6.4) (Ohm 2010) . Lamentablemente, esta "anonimización" no fue suficiente para proteger los datos.
Para ilustrar las deficiencias de la "anonimización" de GIC, Latanya Sweeney -entonces una estudiante graduada en el MIT- pagó $ 20 para adquirir los registros de votación de la ciudad de Cambridge, la ciudad natal del gobernador de Massachusetts, William Weld. Estos registros de votación incluyeron información como nombre, dirección, código postal, fecha de nacimiento y sexo. El hecho de que el archivo de datos médicos y el archivo de votante compartieran campos (código postal, fecha de nacimiento y sexo) significaba que Sweeney podía vincularlos. Sweeney sabía que el cumpleaños de Weld era el 31 de julio de 1945, y los registros de votación incluían solo a seis personas en Cambridge con ese cumpleaños. Además, de esas seis personas, solo tres eran hombres. Y, de esos tres hombres, solo uno compartió el código postal de Weld. Por lo tanto, los datos de votación mostraron que cualquier persona en los datos médicos con la combinación de fecha de nacimiento, sexo y código postal de Weld era William Weld. En esencia, estas tres piezas de información le proporcionaron una huella digital única en los datos. Utilizando este hecho, Sweeney pudo ubicar los registros médicos de Weld y, para informarle de su hazaña, le envió una copia de sus registros (Ohm 2010) .
El trabajo de Sweeney ilustra la estructura básica de los ataques de reidentificación, para adoptar un término de la comunidad de seguridad informática. En estos ataques, dos conjuntos de datos, ninguno de los cuales por sí solo revela información sensible, están vinculados, y a través de este enlace, la información sensible queda expuesta.
En respuesta al trabajo de Sweeney y otros trabajos relacionados, los investigadores ahora generalmente eliminan mucha más información, toda la llamada "información de identificación personal" (PII) (Narayanan and Shmatikov 2010) durante el proceso de "anonimización". Además, muchos investigadores Ahora me doy cuenta de que ciertos datos, tales como registros médicos, registros financieros, respuestas a preguntas de la encuesta sobre comportamiento ilegal, son probablemente demasiado sensibles a la liberación incluso después de la "anonimización". Sin embargo, los ejemplos que voy a dar sugieren que los investigadores sociales necesitan para cambiar su forma de pensar Como primer paso, es aconsejable suponer que todos los datos son potencialmente identificables y que todos los datos son potencialmente confidenciales. En otras palabras, en lugar de pensar que el riesgo informativo se aplica a un pequeño subconjunto de proyectos, debemos suponer que se aplica, hasta cierto punto, a todos los proyectos.
Ambos aspectos de esta reorientación se ilustran con el Premio Netflix. Como se describe en el capítulo 5, Netflix lanzó 100 millones de calificaciones de películas proporcionadas por casi 500,000 miembros y tuvo una llamada abierta en la que personas de todo el mundo enviaron algoritmos que podrían mejorar la capacidad de Netflix para recomendar películas. Antes de publicar los datos, Netflix eliminó toda información obvia de identificación personal, como los nombres. También dieron un paso más e introdujeron ligeras perturbaciones en algunos de los registros (por ejemplo, cambiar algunas clasificaciones de 4 estrellas a 3 estrellas). Pronto descubrieron, sin embargo, que a pesar de sus esfuerzos, los datos aún no eran anónimos.
Solo dos semanas después de la publicación de los datos, Arvind Narayanan y Vitaly Shmatikov (2008) demostraron que era posible conocer las preferencias específicas de las películas de las personas. El truco para su ataque de reidentificación fue similar al de Sweeney: fusionar dos fuentes de información, una con información potencialmente delicada y sin información obviamente identificable y otra que contenga las identidades de las personas. Cada una de estas fuentes de datos puede ser individualmente segura, pero cuando se combinan, el conjunto de datos combinado puede crear riesgos informativos. En el caso de los datos de Netflix, así es cómo podría suceder. Imagine que elijo compartir mis pensamientos sobre la acción y las películas de comedia con mis compañeros de trabajo, pero que prefiero no compartir mi opinión sobre las películas religiosas y políticas. Mis compañeros de trabajo podrían usar la información que he compartido con ellos para encontrar mis registros en los datos de Netflix; la información que comparto podría ser una huella digital única, como la fecha de nacimiento, el código postal y el sexo de William Weld. Luego, si encontraron mi huella digital única en los datos, podrían conocer mis calificaciones sobre todas las películas, incluidas las que elijo no compartir. Además de este tipo de ataque dirigido a una sola persona, Narayanan y Shmatikov también demostraron que era posible hacer un ataque amplio -que involucraba a muchas personas- fusionando los datos de Netflix con datos personales y de clasificación de películas que algunas personas habían elegido. para publicar en Internet Movie Database (IMDb). Simplemente, cualquier información que sea una huella digital única para una persona específica, incluso su conjunto de clasificaciones de películas, se puede utilizar para identificarlos.
Aunque los datos de Netflix pueden volver a identificarse en un ataque dirigido o amplio, aún puede parecer de bajo riesgo. Después de todo, las calificaciones de las películas no parecen muy sensibles. Si bien eso podría ser cierto en general, para algunas de las 500,000 personas en el conjunto de datos, las calificaciones de las películas podrían ser bastante sensibles. De hecho, en respuesta a la reidentificación, una mujer lesbiana encerrada se unió a una demanda colectiva contra Netflix. Así es como se expresó el problema en su demanda (Singel 2009) :
"[M] ovie y los datos de calificación contienen información de ... una naturaleza altamente personal y sensible. Los datos de la película del miembro exponen el interés personal de un miembro de Netflix y / o lucha con varios asuntos altamente personales, incluyendo sexualidad, enfermedad mental, recuperación del alcoholismo y victimización por incesto, abuso físico, violencia doméstica, adulterio y violación ".
La reidentificación de los datos del Premio Netflix ilustra tanto que todos los datos son potencialmente identificables y que todos los datos son potencialmente confidenciales. En este punto, puede pensar que esto solo se aplica a datos que pretenden ser sobre personas. Sorprendentemente, ese no es el caso. En respuesta a una solicitud de Ley de Libertad de Información, el gobierno de la ciudad de Nueva York publicó los registros de cada viaje en taxi en Nueva York en 2013, incluidos los horarios de recogida y entrega, ubicaciones y cantidades de tarifas (recuerdo del capítulo 2 que Farber (2015) utilizó datos similares para probar teorías importantes en economía laboral). Estos datos sobre los viajes en taxi pueden parecer benignos porque no parecen proporcionar información sobre las personas, pero Anthony Tockar se dio cuenta de que este conjunto de datos de taxis en realidad contenía mucha información potencialmente delicada sobre las personas. Para ilustrarlo, analizó todos los viajes que comenzaron en el Hustler Club, un gran club de strippers en Nueva York, entre la medianoche y las 6 a. M. Y luego encontró sus lugares de entrega. Esta búsqueda reveló, en esencia, una lista de direcciones de algunas personas que frecuentaban el Hustler Club (Tockar 2014) . Es difícil imaginar que el gobierno de la ciudad tuviera esto en cuenta cuando publicara los datos. De hecho, esta misma técnica podría usarse para encontrar las direcciones de las personas que visitan cualquier lugar de la ciudad: una clínica médica, un edificio del gobierno o una institución religiosa.
Estos dos casos del Premio Netflix y los datos del taxi de la ciudad de Nueva York muestran que las personas relativamente capacitadas pueden no estimar correctamente el riesgo informativo en los datos que publican, y estos casos no son exclusivos (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Además, en muchos casos similares, los datos problemáticos todavía están disponibles de forma gratuita en línea, lo que indica la dificultad de deshacer alguna vez una publicación de datos. Colectivamente, estos ejemplos, así como la investigación en informática sobre privacidad, conducen a una conclusión importante. Los investigadores deben suponer que todos los datos son potencialmente identificables y que todos los datos son potencialmente sensibles.
Lamentablemente, no existe una solución simple a los hechos de que todos los datos sean potencialmente identificables y que todos los datos sean potencialmente confidenciales. Sin embargo, una forma de reducir el riesgo de información mientras trabaja con datos es crear y seguir un plan de protección de datos . Este plan reducirá las posibilidades de que sus datos se filtren y disminuirá el daño si se produce una fuga de alguna manera. Los detalles de los planes de protección de datos, como qué tipo de encriptación usar, cambiarán con el tiempo, pero los servicios de datos del Reino Unido organizan los elementos de un plan de protección de datos en cinco categorías que llaman las cinco cajas fuertes : proyectos seguros, personas seguras , configuraciones seguras, datos seguros y salidas seguras (tabla 6.2) (Desai, Ritchie, and Welpton 2016) . Ninguna de las cinco cajas fuertes brinda una protección perfecta. Pero juntos forman un poderoso conjunto de factores que pueden disminuir el riesgo informativo.
Seguro | Acción |
---|---|
Proyectos seguros | Limita proyectos con datos a aquellos que son éticos |
Gente segura | El acceso está restringido a personas a las que se les puede confiar datos (por ejemplo, personas que han recibido capacitación ética) |
Datos seguros | Los datos se desidentifican y se agregan en la medida de lo posible |
Configuraciones seguras | Los datos se almacenan en computadoras con protección física adecuada (por ejemplo, habitación cerrada) y de software (por ejemplo, protección con contraseña, encriptada) |
Salida segura | El resultado de la investigación se revisa para evitar violaciones de privacidad accidentales |
Además de proteger sus datos mientras los usa, un paso en el proceso de investigación donde el riesgo informativo es particularmente sobresaliente es el intercambio de datos con otros investigadores. El intercambio de datos entre los científicos es un valor central del esfuerzo científico, y facilita en gran medida el avance del conocimiento. Así es como la Cámara de los Comunes del Reino Unido describió la importancia del intercambio de datos (Molloy 2011) :
"El acceso a los datos es fundamental para que los investigadores reproduzcan, verifiquen y desarrollen los resultados que se informan en la literatura. La presunción debe ser que, a menos que haya una razón fuerte de lo contrario, los datos deberían divulgarse por completo y ponerse a disposición del público ".
Sin embargo, al compartir sus datos con otro investigador, puede aumentar el riesgo de información para sus participantes. Por lo tanto, puede parecer que el intercambio de datos crea una tensión fundamental entre la obligación de compartir datos con otros científicos y la obligación de minimizar el riesgo de información para los participantes. Afortunadamente, este dilema no es tan grave como parece. Por el contrario, es mejor pensar en el intercambio de datos como un proceso continuo, y cada punto de ese continuo proporciona una combinación diferente de beneficios para la sociedad y riesgo para los participantes (figura 6.6).
En un extremo, puede compartir sus datos con nadie, lo que minimiza el riesgo para los participantes pero también minimiza los beneficios para la sociedad. En el otro extremo, puede lanzar y olvidar , donde los datos se "anonimizan" y se publican para todos. En relación con no divulgar datos, lanzar y olvidar ofrece mayores beneficios para la sociedad y mayor riesgo para los participantes. Entre estos dos casos extremos hay una variedad de híbridos, incluido lo que llamaré un enfoque de jardín amurallado . Bajo este enfoque, los datos se comparten con personas que cumplen ciertos criterios y que aceptan ciertas reglas (por ejemplo, la supervisión de un IRB y un plan de protección de datos). El enfoque de jardín amurallado ofrece muchos de los beneficios de soltar y olvidar con menos riesgo. Por supuesto, este enfoque genera muchas preguntas: quién debe tener acceso, bajo qué condiciones y por cuánto tiempo, quién debe pagar para mantener y vigilar el jardín amurallado, etc., pero no son insuperables. De hecho, ya existen jardines amurallados en funcionamiento que los investigadores pueden usar en este momento, como el archivo de datos del Consorcio Interuniversitario para la Investigación Política y Social de la Universidad de Michigan.
Entonces, ¿dónde deberían estar los datos de su estudio en el continuo de no compartir, jardín amurallado, y liberar y olvidar? Esto depende de los detalles de sus datos: los investigadores deben equilibrar el respeto por las personas, la beneficencia, la justicia y el respeto por la ley y el interés público. Visto desde esta perspectiva, el intercambio de datos no es un enigma ético distintivo; es solo uno de los muchos aspectos de la investigación en el que los investigadores deben encontrar un equilibrio ético apropiado.
Algunos críticos generalmente se oponen al intercambio de datos porque, en mi opinión, están enfocados en sus riesgos, que sin duda son reales, y están ignorando sus beneficios. Por lo tanto, para alentar la atención tanto sobre los riesgos como sobre los beneficios, me gustaría ofrecer una analogía. Cada año, los automóviles son responsables de miles de muertes, pero no intentamos prohibir la conducción. De hecho, una llamada para prohibir la conducción sería absurda porque conducir permite muchas cosas maravillosas. Por el contrario, la sociedad impone restricciones sobre quién puede conducir (por ejemplo, la necesidad de tener cierta edad y haber pasado ciertas pruebas) y cómo puede conducir (por ejemplo, por debajo del límite de velocidad). La sociedad también tiene personas encargadas de hacer cumplir estas reglas (por ejemplo, la policía), y castigamos a las personas que sean sorprendidas violando. Este mismo tipo de pensamiento equilibrado que la sociedad aplica a la regulación de la conducción también se puede aplicar al intercambio de datos. Es decir, en lugar de hacer argumentos absolutistas a favor o en contra del intercambio de datos, creo que haremos el mayor progreso centrándonos en cómo podemos disminuir los riesgos y aumentar los beneficios del intercambio de datos.
Para concluir, el riesgo de información ha aumentado dramáticamente, y es muy difícil de predecir y cuantificar. Por lo tanto, es mejor asumir que todos los datos son potencialmente identificables y potencialmente sensibles. Para disminuir el riesgo de la información mientras se investiga, los investigadores pueden crear y seguir un plan de protección de datos. Además, el riesgo de información no impide que los investigadores compartan datos con otros científicos.