La ética de la investigación también ha incluido tradicionalmente temas como el fraude científico y la asignación de créditos. Estos se discuten con mayor detalle en Sobre ser un científico por el Institute of Medicine and National Academy of Sciences and National Academy of Engineering (2009) .
Este capítulo está muy influenciado por la situación en los Estados Unidos. Para obtener más información sobre los procedimientos de revisión ética en otros países, consulte los capítulos 6-9 de Desposato (2016b) . Para un argumento de que los principios éticos biomédicos que han influido en este capítulo son excesivamente estadounidenses, ver Holm (1995) . Para una revisión histórica adicional de las Juntas de Revisión Institucional en los Estados Unidos, ver Stark (2012) . La revista PS: Political Science and Politics organizó un simposio profesional sobre la relación entre los científicos políticos y los IRB; ver Martinez-Ebers (2016) para un resumen.
El Informe Belmont y las reglamentaciones posteriores en los Estados Unidos tienden a hacer una distinción entre investigación y práctica. No he hecho tal distinción en este capítulo porque creo que los principios y marcos éticos se aplican a ambos entornos. Para más información sobre esta distinción y los problemas que presenta, ver Beauchamp and Saghai (2012) , MN Meyer (2015) , boyd (2016) y Metcalf and Crawford (2016) .
Para obtener más información sobre la supervisión de la investigación en Facebook, ver Jackman and Kanerva (2016) . Para obtener ideas sobre la supervisión de la investigación en empresas y ONG, consulte Calo (2013) , Polonetsky, Tene, and Jerome (2015) y Tene and Polonetsky (2016) .
En relación con el uso de datos de teléfonos móviles para ayudar a abordar el brote de ébola de 2014 en África occidental (Wesolowski et al. 2014; McDonald 2016) , para más información sobre los riesgos de privacidad de los datos de teléfonos móviles, véase Mayer, Mutchler, and Mitchell (2016) Para ver ejemplos de investigaciones anteriores relacionadas con la crisis que usan datos de teléfonos móviles, ver Bengtsson et al. (2011) y Lu, Bengtsson, and Holme (2012) , y para más sobre la ética de la investigación relacionada con la crisis, ver ( ??? ) .
Mucha gente ha escrito sobre el contagio emocional. La revista Research Ethics dedicó todo su número en enero de 2016 a la discusión del experimento; ver Hunter and Evans (2016) para una visión general. The Proceedings of the National Academics of Science publicó dos piezas sobre el experimento: Kahn, Vayena, and Mastroianni (2014) y Fiske and Hauser (2014) . Otras piezas sobre el experimento incluyen: Puschmann and Bozdag (2014) , Meyer (2014) , Grimmelmann (2015) , MN Meyer (2015) , ( ??? ) , Kleinsman and Buckley (2015) , Shaw (2015) y ( ??? ) .
En términos de vigilancia masiva, se ofrecen amplios panoramas en Mayer-Schönberger (2009) y Marx (2016) . Para un ejemplo concreto de los costos cambiantes de la vigilancia, Bankston and Soltani (2013) estiman que rastrear a un sospechoso criminal utilizando teléfonos móviles es 50 veces más barato que usar vigilancia física. Ver también Ajunwa, Crawford, and Schultz (2016) para una discusión sobre la vigilancia en el trabajo. Bell and Gemmell (2009) proporcionan una perspectiva más optimista sobre la autovigilancia.
Además de poder rastrear el comportamiento observable que es público o parcialmente público (por ejemplo, Tastes, Ties y Time), los investigadores pueden inferir cada vez más cosas que muchos participantes consideran privadas. Por ejemplo, Michal Kosinski y sus colegas (2013) demostraron que podían inferir información sensible sobre las personas, como la orientación sexual y el uso de sustancias adictivas, a partir de datos de rastreo digitales aparentemente comunes (Me gusta de Facebook). Esto puede sonar mágico, pero el enfoque que utilizaron Kosinski y sus colegas -que combinaba rastros digitales, encuestas y aprendizaje supervisado- es algo de lo que ya te he hablado. Recordemos eso en el capítulo 3 (Hacer preguntas). Te conté cómo Joshua Blumenstock y sus colegas (2015) combinaron datos de encuestas con datos de teléfonos móviles para calcular la pobreza en Ruanda. Este mismo enfoque, que se puede usar para medir de manera eficiente la pobreza en un país en desarrollo, también se puede utilizar para inferencias potencialmente violatorias de la privacidad.
Para más información sobre los posibles usos secundarios involuntarios de los datos de salud, ver O'Doherty et al. (2016) . Además de la posibilidad de usos secundarios no deseados, la creación de incluso una base de datos principal incompleta podría tener un efecto de enfriamiento en la vida social y política si las personas no quisieran leer ciertos materiales o discutir ciertos temas; ver Schauer (1978) y Penney (2016) .
En situaciones con reglas superpuestas, el investigador algunas veces participa en "compras reglamentarias" (Grimmelmann 2015; Nickerson and Hyde 2016) . En particular, algunos investigadores que desean evitar la supervisión del IRB pueden formar alianzas con investigadores que no están cubiertos por los IRB (p. Ej., Personas en empresas u ONG) y hacer que esos colegas recopilen y desidentifiquen los datos. Luego, el investigador cubierto por IRB puede analizar estos datos desidentificados sin supervisión del IRB porque la investigación ya no se considera "investigación de sujetos humanos", al menos de acuerdo con algunas interpretaciones de las reglas actuales. Este tipo de evasión de IRB probablemente no sea consistente con un enfoque basado en principios para la ética de la investigación.
En 2011, un esfuerzo comenzó a actualizar la Regla común, y este proceso finalmente se completó en 2017 ( ??? ) . Para obtener más información sobre estos esfuerzos para actualizar la Regla común, vea Evans (2013) , National Research Council (2014) , Hudson and Collins (2015) y Metcalf (2016) .
El enfoque clásico basado en principios para la ética biomédica es el de Beauchamp and Childress (2012) . Proponen que cuatro principios fundamentales deberían guiar la ética biomédica: el respeto por la autonomía, la no maleficencia, la beneficencia y la justicia. El principio de no maleficencia insta a uno a abstenerse de causar daño a otras personas. Este concepto está profundamente relacionado con la idea hipocrática de "No dañar". En la ética de la investigación, este principio a menudo se combina con el principio de Beneficencia, pero vea el capítulo 5 de @ beauchamp_principles_2012 para obtener más información sobre la distinción entre los dos. Para una crítica de que estos principios son demasiado estadounidenses, ver Holm (1995) . Para obtener más información sobre el equilibrio cuando los principios entran en conflicto, ver Gillon (2015) .
Los cuatro principios de este capítulo también se han propuesto para orientar la supervisión ética de las investigaciones que se realizan en empresas y ONG (Polonetsky, Tene, and Jerome 2015) través de organismos denominados "Consumer Subject Review Boards" (CSRB) (Calo 2013) .
Además de respetar la autonomía, el Informe Belmont también reconoce que no todos los humanos son capaces de una verdadera autodeterminación. Por ejemplo, los niños, las personas que sufren enfermedades o las personas que viven en situaciones de libertad severamente restringida pueden no ser capaces de actuar como individuos totalmente autónomos, y estas personas están por lo tanto sujetas a protección adicional.
Aplicar el principio de respeto por las personas en la era digital puede ser un desafío. Por ejemplo, en la investigación de la era digital, puede ser difícil proporcionar protecciones adicionales para las personas con una capacidad disminuida de autodeterminación porque los investigadores a menudo saben muy poco sobre sus participantes. Además, el consentimiento informado en la investigación social de la era digital es un gran desafío. En algunos casos, el consentimiento verdaderamente informado puede sufrir la paradoja de la transparencia (Nissenbaum 2011) , donde la información y la comprensión están en conflicto. A grandes rasgos, si los investigadores brindan información completa sobre la naturaleza de la recopilación de datos, el análisis de datos y las prácticas de seguridad de datos, será difícil de comprender para muchos participantes. Pero si los investigadores proporcionan información comprensible, puede carecer de detalles técnicos importantes. En la investigación médica en la era analógica, el entorno dominante considerado por el Informe Belmont, uno podría imaginarse a un médico hablando individualmente con cada participante para ayudar a resolver la paradoja de la transparencia. En estudios en línea que involucran a miles o millones de personas, un enfoque cara a cara es imposible. Un segundo problema con el consentimiento en la era digital es que, en algunos estudios, como el análisis de repositorios masivos de datos, no sería práctico obtener el consentimiento informado de todos los participantes. Discuto estas y otras preguntas sobre el consentimiento informado en más detalle en la sección 6.6.1. Sin embargo, a pesar de estas dificultades, debemos recordar que el consentimiento informado no es necesario ni suficiente para Respeto por las personas.
Para más información sobre investigación médica antes del consentimiento informado, ver Miller (2014) . Para un tratamiento del consentimiento informado con duración de un libro, ver Manson and O'Neill (2007) . Consulte también las lecturas sugeridas sobre el consentimiento informado a continuación.
Los daños al contexto son los daños que la investigación puede causar no a personas específicas sino a entornos sociales. Este concepto es un tanto abstracto, pero lo ilustraré con un ejemplo clásico: el Wichita Jury Study (Vaughan 1967; Katz, Capron, and Glass 1972, chap. 2) también llamado a veces el Chicago Jury Project (Cornwell 2010) . En este estudio, los investigadores de la Universidad de Chicago, como parte de un estudio más amplio de los aspectos sociales del sistema legal, registraron secretamente seis deliberaciones del jurado en Wichita, Kansas. Los jueces y abogados en los casos habían aprobado las grabaciones, y había una estricta supervisión del proceso. Sin embargo, los jurados no sabían que las grabaciones estaban ocurriendo. Una vez que se descubrió el estudio, hubo indignación pública. El Departamento de Justicia comenzó una investigación del estudio y los investigadores fueron llamados a declarar frente al Congreso. Finalmente, el Congreso aprobó una nueva ley que hace que sea ilegal registrar secretamente la deliberación del jurado.
La preocupación de los críticos del Wichita Jury Study no fue el riesgo de daño a los participantes; más bien, era el riesgo de daños en el contexto de la deliberación del jurado. Es decir, la gente pensó que si los miembros del jurado no creían que estaban teniendo discusiones en un espacio seguro y protegido, sería más difícil que las deliberaciones del jurado continúen en el futuro. Además de la deliberación del jurado, existen otros contextos sociales específicos que la sociedad proporciona con protección adicional, como las relaciones abogado-cliente y la atención psicológica (MacCarthy 2015) .
El riesgo de daños al contexto y la interrupción de los sistemas sociales también surgen en algunos experimentos de campo en ciencias políticas (Desposato 2016b) . Para un ejemplo de un cálculo de costo-beneficio más sensible al contexto para un experimento de campo en ciencias políticas, ver Zimmerman (2016) .
La compensación para los participantes se ha discutido en una serie de entornos relacionados con la investigación de la era digital. Lanier (2014) propone pagar a los participantes las huellas digitales que generan. Bederson and Quinn (2011) discuten los pagos en los mercados laborales en línea. Finalmente, Desposato (2016a) propone pagar a los participantes en experimentos de campo. Él señala que incluso si no se puede pagar a los participantes directamente, se puede hacer una donación a un grupo que trabaje en su nombre. Por ejemplo, en Encore, los investigadores podrían haber hecho una donación a un grupo que trabaja para apoyar el acceso a Internet.
Los acuerdos de términos de servicio deberían tener menos peso que los contratos negociados entre partes iguales y que las leyes creadas por gobiernos legítimos. Las situaciones donde los investigadores han violado los acuerdos de términos de servicio en el pasado generalmente han involucrado el uso de consultas automatizadas para auditar el comportamiento de las empresas (al igual que los experimentos de campo para medir la discriminación). Para discusiones adicionales, ver Vaccaro et al. (2015) , Bruckman (2016a) y Bruckman (2016b) . Para un ejemplo de investigación empírica que discute los términos del servicio, ver Soeller et al. (2016) . Para obtener más información sobre los posibles problemas legales que enfrentan los investigadores si violan los términos del servicio, ver Sandvig and Karahalios (2016) .
Obviamente, se ha escrito una gran cantidad de consecuencialismo y deontología. Para un ejemplo de cómo estos marcos éticos, y otros, pueden usarse para razonar sobre la investigación de la era digital, ver Zevenbergen et al. (2015) . Para un ejemplo de cómo se pueden aplicar a experimentos de campo en economía del desarrollo, ver Baele (2013) .
Para obtener más información sobre los estudios de auditoría de la discriminación, vea Pager (2007) y Riach and Rich (2004) . Estos estudios no solo no cuentan con el consentimiento informado, también implican el engaño sin un informe.
Tanto Desposato (2016a) como Humphreys (2015) ofrecen consejos sobre experimentos de campo sin consentimiento.
Sommers and Miller (2013) revisan muchos argumentos a favor de no interrogar a los participantes después del engaño, y argumentan que los investigadores deberían abstenerse de la debriefing
"En un conjunto muy estrecho de circunstancias, es decir, en la investigación de campo en la que el interrogatorio plantea considerables barreras prácticas, pero los investigadores no tendrían ningún reparo en informar si pudieran hacerlo". No se debe permitir que los investigadores dejen de interrogar a fin de preservar un grupo de participantes ingenuo, protegerse de la ira de los participantes, o proteger a los participantes del daño ".
Otros argumentan que, en algunas situaciones, si el interrogatorio causa más daño que beneficio, debe evitarse (Finn and Jakobsson 2007) . El informe es un caso en el que algunos investigadores priorizan el respeto por las personas sobre la beneficencia, mientras que algunos investigadores hacen lo contrario. Una posible solución sería encontrar la manera de hacer una sesión informativa de una experiencia de aprendizaje para los participantes. Es decir, en lugar de pensar en el informe como algo que puede causar daño, tal vez el informe también sea algo que beneficie a los participantes. Para un ejemplo de este tipo de informes educativos, ver Jagatic et al. (2007) . Los psicólogos han desarrollado técnicas para debriefing (DS Holmes 1976a, 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) , y algunos de ellos pueden aplicarse de manera útil a la investigación de la era digital. Humphreys (2015) ofrece ideas interesantes sobre el consentimiento diferido , que está estrechamente relacionado con la estrategia de informe que describí.
La idea de pedirle a una muestra de participantes su consentimiento está relacionada con lo que Humphreys (2015) llama consentimiento inferido .
Otra idea relacionada con el consentimiento informado que se ha propuesto es crear un panel de personas que acepten participar en experimentos en línea (Crawford 2014) . Algunos han argumentado que este panel sería una muestra no aleatoria de personas. Pero el capítulo 3 (Hacer preguntas) muestra que estos problemas son potencialmente direccionables usando post-estratificación. Además, el consentimiento para estar en el panel podría abarcar una variedad de experimentos. En otras palabras, es posible que los participantes no necesiten dar su consentimiento individual a cada experimento, un concepto llamado consentimiento amplio (Sheehan 2011) . Para obtener más información sobre las diferencias entre el consentimiento por una sola vez y el consentimiento para cada estudio, así como un posible híbrido, ver Hutton and Henderson (2015) .
Lejos de ser único, el Premio Netflix ilustra una importante propiedad técnica de los conjuntos de datos que contienen información detallada sobre las personas, y por lo tanto ofrece lecciones importantes sobre la posibilidad de "anonimización" de conjuntos de datos sociales modernos. Es probable que los archivos con mucha información sobre cada persona sean escasos , en el sentido definido formalmente en Narayanan and Shmatikov (2008) . Es decir, para cada registro, no hay registros que sean iguales, y de hecho no hay registros que sean muy similares: cada persona está muy lejos de su vecino más cercano en el conjunto de datos. Uno puede imaginar que los datos de Netflix pueden ser escasos porque con aproximadamente 20,000 películas en una escala de cinco estrellas, hay aproximadamente \(6^{20,000}\) valores posibles que cada persona podría tener (6 porque, además de 1 a 5 estrellas, alguien podría no haber calificado la película en absoluto). Este número es tan grande que es difícil de comprender.
La escasez tiene dos implicaciones principales. Primero, significa que intentar "anonimizar" el conjunto de datos basado en una perturbación aleatoria probablemente fallará. Es decir, incluso si Netflix fuera a ajustar al azar algunas de las clasificaciones (lo cual hicieron), esto no sería suficiente porque el registro perturbado sigue siendo el registro más cercano posible a la información que tiene el atacante. En segundo lugar, la dispersión significa que la reidentificación es posible incluso si el atacante tiene conocimiento imperfecto o imparcial. Por ejemplo, en los datos de Netflix, imaginemos que el atacante conoce sus calificaciones de dos películas y las fechas en que hizo esas calificaciones \(\pm\) 3 días; solo esa información es suficiente para identificar de forma única al 68% de las personas en los datos de Netflix. Si el atacante conoce ocho películas que ha calificado \(\pm\) 14 días, incluso si dos de estas clasificaciones conocidas son completamente incorrectas, el 99% de los registros pueden identificarse de manera única en el conjunto de datos. En otras palabras, la escasez es un problema fundamental para los esfuerzos por "anonimizar" los datos, lo cual es desafortunado porque la mayoría de los conjuntos de datos sociales modernos son escasos. Para obtener más información sobre la "anonimización" de datos dispersos, ver Narayanan and Shmatikov (2008) .
Los metadatos telefónicos también pueden parecer "anónimos" y no sensibles, pero ese no es el caso. Los metadatos telefónicos son identificables y sensibles (Mayer, Mutchler, and Mitchell 2016; Landau 2016) .
En la figura 6.6, esbocé una compensación entre el riesgo para los participantes y los beneficios para la sociedad a partir del lanzamiento de datos. Para una comparación entre enfoques de acceso restringido (por ejemplo, un jardín amurallado) y enfoques de datos restringidos (por ejemplo, alguna forma de "anonimización"), véase Reiter and Kinney (2011) . Para un sistema de categorización propuesto de niveles de riesgo de datos, ver Sweeney, Crosas, and Bar-Sinai (2015) . Para una discusión más general sobre el intercambio de datos, ver Yakowitz (2011) .
Para un análisis más detallado de esta disyuntiva entre el riesgo y la utilidad de los datos, ver Brickell and Shmatikov (2008) , Ohm (2010) , Reiter (2012) , Wu (2013) y Goroff (2015) . Para ver este trade-off aplicado a datos reales de cursos en línea abiertos masivamente (MOOC), ver Daries et al. (2014) y Angiuli, Blitzstein, and Waldo (2015) .
La privacidad diferencial también ofrece un enfoque alternativo que puede combinar tanto un bajo riesgo para los participantes como un gran beneficio para la sociedad; ver Dwork and Roth (2014) y Narayanan, Huey, and Felten (2016) .
Para obtener más información sobre el concepto de información de identificación personal (PII), que es fundamental para muchas de las normas sobre ética de la investigación, ver Narayanan and Shmatikov (2010) y Schwartz and Solove (2011) . Para obtener más información sobre todos los datos potencialmente sensibles, vea Ohm (2015) .
En esta sección, he retratado la vinculación de diferentes conjuntos de datos como algo que puede conducir a riesgos informativos. Sin embargo, también puede crear nuevas oportunidades para la investigación, como se argumenta en Currie (2013) .
Para más información sobre las cinco cajas fuertes, vea Desai, Ritchie, and Welpton (2016) . Para ver un ejemplo de cómo los productos pueden identificarse, vea Brownstein, Cassa, and Mandl (2006) , que muestra cómo se pueden identificar los mapas de prevalencia de la enfermedad. Dwork et al. (2017) también consideran los ataques contra los datos agregados, como las estadísticas sobre cuántas personas tienen una determinada enfermedad.
Las preguntas sobre el uso de datos y la publicación de datos también generan preguntas sobre la propiedad de los datos. Para obtener más información sobre la propiedad de los datos, vea Evans (2011) y Pentland (2012) .
Warren and Brandeis (1890) es un artículo legal histórico sobre la privacidad y está más asociado con la idea de que la privacidad es un derecho a quedarse solo. Los tratamientos de privacidad de un libro que recomendaría incluyen Solove (2010) y Nissenbaum (2010) .
Para una revisión de la investigación empírica sobre cómo piensan las personas sobre la privacidad, ver Acquisti, Brandimarte, and Loewenstein (2015) . Phelan, Lampe, and Resnick (2016) proponen una teoría de sistema dual -que las personas a veces se centran en preocupaciones intuitivas y, a veces se centran en preocupaciones consideradas- para explicar cómo las personas pueden hacer declaraciones aparentemente contradictorias sobre la privacidad. Para más información sobre la idea de privacidad en entornos en línea como Twitter, ver Neuhaus and Webmoor (2012) .
La revista Science publicó una sección especial titulada "El fin de la privacidad", que aborda los problemas de privacidad y riesgo de información desde una variedad de perspectivas diferentes; para un resumen, ver Enserink and Chin (2015) . Calo (2011) ofrece un marco para pensar sobre los daños que provienen de las violaciones a la privacidad. Un ejemplo temprano de preocupaciones sobre la privacidad en los comienzos de la era digital es Packard (1964) .
Un desafío al tratar de aplicar el estándar de riesgo mínimo es que no está claro de quién es la vida diaria que se utilizará para la evaluación comparativa (National Research Council 2014) . Por ejemplo, las personas sin hogar tienen mayores niveles de incomodidad en su vida cotidiana. Pero eso no implica que sea éticamente permisible exponer a las personas sin hogar a una investigación de alto riesgo. Por esta razón, parece haber un consenso creciente de que el riesgo mínimo debe compararse con un estándar de población general , no con un estándar de población específica . Aunque generalmente estoy de acuerdo con la idea de un estándar de población general, creo que para plataformas grandes en línea como Facebook, un estándar de población específica es razonable. Por lo tanto, al considerar el contagio emocional, creo que es razonable comparar el riesgo diario en Facebook. Un estándar de población específica en este caso es mucho más fácil de evaluar y es poco probable que entre en conflicto con el principio de Justicia, que busca evitar que la carga de la investigación falle injustamente en los grupos desfavorecidos (por ejemplo, prisioneros y huérfanos).
Otros estudiosos también han pedido más artículos para incluir apéndices éticos (Schultze and Mason 2012; Kosinski et al. 2015; Partridge and Allman 2016) . King and Sands (2015) también ofrece consejos prácticos. Zook y sus colegas (2017) ofrecen "diez reglas simples para la investigación responsable de big data".