Cette section est conçue pour être utilisée comme référence, plutôt que d'être lu comme un récit.
Éthique de la recherche est traditionnellement également inclus des sujets tels que la fraude et l'allocation du crédit scientifique. Ces sujets sont abordés plus en détail dans l' Engineering (2009) .
Ce chapitre est fortement influencée par la situation aux États-Unis. Pour en savoir plus sur les procédures d'examen éthique dans d' autres pays, voir les chapitres 6, 7, 8 et 9 de Desposato (2016b) . Pour un argument selon lequel les principes éthiques biomédicales qui ont influencé ce chapitre sont excessivement américain, voir Holm (1995) . Pour un examen plus historique de Institutional Review Board aux États - Unis, voir Stark (2012) .
Le rapport Belmont et des règlements ultérieurs aux États-Unis ont établi une distinction entre la recherche et la pratique. Cette distinction a été critiquée par la suite (Beauchamp and Saghai 2012; boyd 2016; Metcalf and Crawford 2016; Meyer 2015) . Je ne fais pas cette distinction dans ce chapitre parce que je pense que les principes et les cadres éthiques valables pour les deux paramètres. Pour en savoir plus sur la surveillance de la recherche sur Facebook, voir Jackman and Kanerva (2016) . Pour une proposition de surveillance de la recherche dans les entreprises et les ONG, voir Polonetsky, Tene, and Jerome (2015) et de Tene and Polonetsky (2016) .
Pour en savoir plus sur le cas de l'épidémie d' Ebola en 2014, voir McDonald (2016) , et plus sur les risques de données de téléphonie mobile de la vie privée, voir Mayer, Mutchler, and Mitchell (2016) . Pour un exemple de la recherche liée à la crise en utilisant les données de téléphonie mobile, voir Bengtsson et al. (2011) et Lu, Bengtsson, and Holme (2012) .
Beaucoup de gens ont écrit au sujet de contagion émotionnelle. La revue éthique de la recherche a consacré toute leur émission en Janvier 2016 discuter de l'expérience; voir Hunter and Evans (2016) pour une vue d' ensemble. Les Actes des universitaires nationaux des sciences a publié deux morceaux au sujet de l'expérience: Kahn, Vayena, and Mastroianni (2014) et Fiske and Hauser (2014) . D' autres pièces environ l'expérience comprennent: Puschmann and Bozdag (2014) ; Meyer (2014) ; Grimmelmann (2015) ; Meyer (2015) ; Selinger and Hartzog (2015) ; Kleinsman and Buckley (2015) ; Shaw (2015) ; Flick (2015) .
Pour en savoir plus sur Encore, voir Jones and Feamster (2015) .
En termes de surveillance de masse, de larges aperçus sont fournis dans Mayer-Schönberger (2009) et Marx (2016) . Pour un exemple concret de l'évolution des coûts de la surveillance, Bankston and Soltani (2013) estime que le suivi d' un suspect en utilisant les téléphones cellulaires est d' environ 50 fois moins cher que d' utiliser la surveillance physique. Bell and Gemmell (2009) fournit une perspective plus optimiste sur l' auto surveillance. En plus d'être en mesure de suivre le comportement observable qui est public ou partiellement public (par exemple, le goût, cravates, et le temps), les chercheurs peuvent déduire de plus en plus de choses que de nombreux participants considèrent comme privé. Par exemple, Michal Kosinski et ses collègues ont montré qu'ils pouvaient déduire des informations sensibles sur les personnes, telles que l' orientation et l' utilisation de substances addictives à partir des données de traces numériques apparemment ordinaires sexuelle (Facebook Likes) (Kosinski, Stillwell, and Graepel 2013) . Cela peut sembler magique, mais l'approche Kosinski et ses collègues utilisé qui combine des traces numériques, des enquêtes, et supervisé l'apprentissage-est en fait quelque chose que je vous ai déjà parlé. Rappelons que dans le chapitre 3 (Poser des questions) Je vous ai dit comment Josh Blumenstock et ses collègues (2015) de données d'enquête combinées avec des données de téléphonie mobile pour estimer la pauvreté au Rwanda. Cette même approche exacte, qui peut être utilisé pour mesurer efficacement la pauvreté dans un pays en développement, peut également être utilisé pour potentiellement violer la vie privée des inférences.
Les lois et les normes inconsistantes peuvent conduire à la recherche qui ne respecte pas les souhaits des participants, et il peut conduire à des "achats de réglementation" par les chercheurs (Grimmelmann 2015; Nickerson and Hyde 2016) . En particulier, certains chercheurs qui souhaitent éviter la surveillance de la CISR ont des partenaires qui ne sont pas couverts par les RIR (par exemple, les gens dans des entreprises ou des ONG) de recueillir et de-identifier les données. Ensuite, les chercheurs peuvent analyser ces données dépersonnalisées sans contrôle CISR, au moins selon certaines interprétations des règles actuelles. Ce genre de fraude CISR semble être incompatible avec une approche fondée sur des principes.
Pour en savoir plus sur les idées incohérentes et hétérogènes que les gens ont sur les données de santé, voir Fiore-Gartland and Neff (2015) . Pour en savoir plus sur le problème que l' hétérogénéité crée éthique de la recherche des décisions voir Meyer (2013) .
Une différence entre l' âge analogique et la recherche de l' ère numérique est que , dans l' ère numérique interaction de la recherche avec des participants est plus lointain. Ces interactions se produisent souvent par un intermédiaire comme une entreprise, et il y a généralement une grande distance sociale physique et entre les chercheurs et les participants. Cette interaction lointaine fait certaines choses qui sont faciles dans la recherche sur l'âge analogique difficile dans la recherche de l'ère numérique, tels que le dépistage des participants qui ont besoin d'une protection supplémentaire, la détection d'événements indésirables, et la remise en état des dommages si elle se produit. Par exemple, nous allons contraster Contagion émotionnelle avec une expérience de laboratoire hypothétique sur le même sujet. Dans l'expérience de laboratoire, les chercheurs pourraient écarter toute personne qui arrive au laboratoire montrant des signes évidents de détresse émotionnelle. En outre, si l'expérience de laboratoire a créé un événement indésirable, les chercheurs verraient, de fournir des services pour assainir le mal, puis faire des ajustements au protocole expérimental pour prévenir les préjudices futurs. La nature lointaine de l'interaction dans l'expérience Contagion émotionnelle réelle rend chacune de ces étapes simples et sensibles extrêmement difficile. Aussi, je pense que la distance entre les chercheurs et les participants rend les chercheurs moins sensibles aux préoccupations de leurs participants.
Autres sources de normes et de lois incompatibles. Une partie de cette incohérence provient du fait que ces recherches se produit partout dans le monde. Par exemple, Encore impliqué gens de partout dans le monde, et par conséquent, il pourrait être soumis à la protection des données et les lois de nombreux pays différents de la vie privée. Que faire si les normes régissant les requêtes Web tiers (ce que Encore faisait) sont différentes en Allemagne, aux États-Unis, le Kenya et la Chine? Que faire si les normes ne sont même pas cohérente dans un seul pays? Une deuxième source d'incohérence provient de collaborations entre les chercheurs dans les universités et les entreprises; par exemple, Emotional Contagion était une collaboration entre un scientifique de données sur Facebook et un professeur et étudiant diplômé à l'Université Cornell. A Facebook courir de grandes expériences de routine et est, à cette époque, n'a pas besoin d'un examen éthique tiers. À Cornell les normes et les règles sont très différentes; pratiquement toutes les expériences doivent être examinées par le Cornell CISR. Donc, quel ensemble de règles devrait gouverner Emotional Contagion-de Facebook ou Cornell?
Pour en savoir plus sur les efforts de révision de la règle commune, voir Evans (2013) , Council (2014) , Metcalf (2016) , et Hudson and Collins (2015) .
L'approche fondée sur les principes classiques de l' éthique biomédicale est Beauchamp and Childress (2012) . Ils proposent que quatre grands principes devraient guider l'éthique biomédicale: Le respect de l'autonomie, Non-malfaisance, Bienfaisance, et la justice. Le principe de non-malfaisance une invite à s'abstenir de causer des dommages à d'autres personnes. Ce concept est profondément liée à idée hippocratique de «Ne pas nuire». Dans l' éthique de la recherche, ce principe est souvent combiné avec le principe de la Bienfaisance, mais voir Beauchamp and Childress (2012) (chapitre 5) pour en savoir plus sur la distinction entre les deux . Pour une critique que ces principes sont trop américain, voir Holm (1995) . Pour en savoir plus sur l' équilibrage lorsque le conflit de principes, voir Gillon (2015) .
Les quatre principes de ce chapitre ont également été proposées pour guider la surveillance éthique de la recherche qui se passe dans les entreprises et les ONG (Polonetsky, Tene, and Jerome 2015) par le biais des organismes dits «consommateurs Sujet commissions d' examen" (CSRBs) (Calo 2013) .
En plus de respecter l'autonomie, le rapport Belmont reconnaît également que chaque humain est capable d'une véritable autodétermination. Par exemple, les enfants, les personnes qui souffrent d'une maladie, ou les personnes vivant dans des situations de la liberté sévèrement restreint peuvent ne pas être en mesure d'agir comme des individus totalement autonomes, et ces gens sont, par conséquent, soumis à une protection supplémentaire.
L'application du principe de respect de la personne à l'ère numérique peut être difficile. Par exemple, dans la recherche de l'ère numérique, il peut être difficile de fournir des protections supplémentaires pour les personnes ayant une capacité réduite de l'autodétermination parce que les chercheurs savent souvent très peu de choses sur leurs participants. En outre, le consentement éclairé dans la recherche sociale de l'ère numérique est un défi énorme. Dans certains cas, le consentement véritablement éclairé peut souffrir de la transparence paradoxe (Nissenbaum 2011) , où l' information et la compréhension sont en conflit. En gros, si les chercheurs fournissent des informations complètes sur la nature de la collecte de données, l'analyse des données, et les pratiques de sécurité des données, il sera difficile pour de nombreux participants à comprendre. Mais, si les chercheurs fournissent des informations compréhensibles, il peut manquer des informations techniques importantes. Dans la recherche médicale dans l'âge le réglage dominent analogique considéré par le Belmont Report-on pourrait imaginer un médecin parler individuellement avec chaque participant pour aider à résoudre le paradoxe de la transparence. Dans les études en ligne impliquant des milliers ou des millions de personnes, une telle approche face-à-face est impossible. Un deuxième problème avec le consentement à l'ère numérique est que, dans certaines études, telles que l'analyse des dépôts massifs de données, il serait impossible d'obtenir le consentement éclairé de tous les participants. Je discute ces et d'autres questions concernant le consentement éclairé de façon plus détaillée dans la section 6.6.1. Malgré ces difficultés, cependant, nous devons nous rappeler que le consentement éclairé est ni nécessaire ni suffisante pour le respect des personnes.
Pour en savoir plus sur la recherche médicale avant de consentement éclairé, voir Miller (2014) . Pour un traitement de longueur du livre de consentement éclairé, voir Manson and O'Neill (2007) . Voir aussi les lectures suggérées sur le consentement éclairé ci-dessous.
Harms au contexte est le mal que la recherche peut provoquer non à des personnes spécifiques, mais les paramètres sociaux. Ce concept est un peu abstrait, mais je vais l'illustrer par deux exemples: l'un analogique et un numérique.
Un exemple classique de préjudices au contexte provient de l'étude Wichita Jury [ Vaughan (1967) ; Katz, Capron, and Glass (1972) ; Ch 2] -. Aussi parfois appelé le Projet Jury Chicago (Cornwell 2010) . Dans cette étude, des chercheurs de l'Université de Chicago, dans le cadre d'une vaste étude sur les aspects sociaux du système juridique, secrètement enregistré six délibérations du jury à Wichita, Kansas. Les juges et les avocats dans les cas avaient approuvé les enregistrements, et il y avait un contrôle strict du processus. Cependant, les jurés ne savaient pas que les enregistrements se produisaient. Une fois que l'étude a été découvert, il y avait l'indignation du public. Le ministère de la Justice a commencé une enquête de l'étude, et les chercheurs ont été appelés à témoigner devant le Congrès. En fin de compte, le Congrès a adopté une nouvelle loi qui rend illégal d'enregistrer secrètement délibération du jury.
La préoccupation des critiques de l'étude Wichita Jury n'a pas nuire aux participants; plutôt, il était nuit au contexte de la délibération du jury. Autrement dit, les gens croyaient que si les membres du jury ne croyaient pas qu'ils avaient des discussions dans un espace sûr et protégé, il serait plus difficile pour les délibérations du jury de procéder à l'avenir. En plus de délibération du jury, il y a d' autres contextes sociaux spécifiques que la société fournit une protection supplémentaire comme les relations avocat-client et des soins psychologiques (MacCarthy 2015) .
Le risque de dommages au contexte et la perturbation des systèmes sociaux est également livré dans certaines expériences sur le terrain en science politique (Desposato 2016b) . Pour un exemple d'un calcul coûts-avantages plus sensible au contexte pour une expérience sur le terrain en science politique, voir Zimmerman (2016) .
Indemnisation des participants a été discuté dans un certain nombre de paramètres liés à la recherche de l' ère numérique. Lanier (2014) a proposé de payer les participants des traces numériques qu'ils génèrent. Bederson and Quinn (2011) traite les paiements des marchés du travail en ligne. Enfin, Desposato (2016a) propose de payer les participants dans des expériences sur le terrain. Il fait remarquer que, même si les participants ne peuvent pas être payés directement, un don peut être fait à un groupe de travail en leur nom. Par exemple, dans Encore les chercheurs auraient pu faire un don à un groupe de travail pour soutenir l'accès à l'Internet.
Conditions de service accords devraient avoir moins de poids que les contrats négociés entre les parties égales et les lois créées par les gouvernements légitimes. Les situations dans lesquelles les chercheurs ont violé les accords termes de service dans le passé impliquent généralement l'utilisation de requêtes automatisées pour vérifier le comportement des entreprises (un peu comme des expériences sur le terrain pour mesurer la discrimination). Pour une discussion supplémentaire voir Vaccaro et al. (2015) , Bruckman (2016a) , Bruckman (2016b) . Pour un exemple de recherche empirique qui traite de termes de service, voir Soeller et al. (2016) . Pour en savoir plus sur les problèmes juridiques possibles chercheurs font face si elles violent les termes de service voir Sandvig and Karahalios (2016) .
De toute évidence, des quantités énormes ont été écrits sur le conséquentialisme et la déontologie. Pour un exemple de la façon dont ces cadres éthiques, et d' autres, peuvent être utilisés pour raisonner sur la recherche de l' âge numérique, voir Zevenbergen et al. (2015) . Pour un exemple de la façon dont ces cadres éthiques peuvent être appliquées à des expériences sur le terrain dans le développement économique, voir Baele (2013) .
Pour en savoir plus sur les études de vérification de la discrimination, voir Pager (2007) et Riach and Rich (2004) . Non seulement ces études ont pas le consentement éclairé, ils impliquent également la tromperie sans débriefing.
Les deux Desposato (2016a) et Humphreys (2015) offre des conseils sur les expériences de terrain sans le consentement.
Sommers and Miller (2013) Commentaires des nombreux arguments en faveur de ne pas debriefing participants après la tromperie, et fait valoir que les chercheurs devraient renoncer à «debriefing dans un ensemble très restreint de circonstances, à savoir, dans la recherche sur le terrain dans lequel debriefing pose des obstacles pratiques considérables , mais les chercheurs auraient aucun scrupule à débriefing si elles le pouvaient. Les chercheurs ne doivent pas être autorisés à renoncer à débriefing afin de préserver un pool de participants naïfs, se protéger de la colère des participants, ou protéger les participants contre le mal. »D'autres soutiennent que si debriefing provoque plus de mal que de bien il devrait être évité. Débriefing est un cas où certains chercheurs en priorité le respect des personnes de plus de Bienfaisance, et certains chercheurs font le contraire. Une solution possible serait de trouver des façons de faire debriefing une expérience d'apprentissage pour les participants. Autrement dit, plutôt que de penser à debriefing comme quelque chose qui peut causer des dommages, peut-être le débriefing peut aussi être quelque chose qui profite aux participants. Pour un exemple de ce genre d'éducation debriefing, voir Jagatic et al. (2007) sur le débriefing des étudiants après une expérience de phishing sociale. Les psychologues ont développé des techniques pour débriefing (DS Holmes 1976a; DS Holmes 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) et certains d' entre eux peut être utilement appliquée à la recherche de l' ère numérique. Humphreys (2015) propose réflexions intéressantes sur le consentement différé, qui est étroitement liée à la stratégie de débriefing que je l'ai décrit.
L'idée de demander un échantillon de participants pour leur consentement est lié à ce que Humphreys (2015) appelle le consentement inféré.
Une autre idée qui a été proposée liée au consentement éclairé est de construire un panel de personnes qui acceptent d'être dans des expériences en ligne (Crawford 2014) . Certains ont fait valoir que ce groupe serait un échantillon non aléatoire de personnes. Mais, chapitre 3 (Poser des questions) montre que ces problèmes sont potentiellement adressable à l'aide post-stratification et de l'échantillon correspondant. En outre, le consentement à être sur le panneau pourrait couvrir une variété d'expériences. En d' autres termes, les participants pourraient ne pas avoir besoin de consentir à chaque expérience individuelle, un concept appelé consentement général (Sheehan 2011) .
Loin d'être unique, le prix Netflix illustre une propriété technique important des ensembles de données qui contiennent des informations détaillées sur les personnes, et offre ainsi des leçons importantes sur la possibilité de «anonymisation» des ensembles de données sociales modernes. Les fichiers avec de nombreuses informations sur chaque personne sont susceptibles d'être rares, dans le sens défini formellement Narayanan and Shmatikov (2008) . Autrement dit, pour chaque enregistrement, il n'y a pas de dossiers qui sont les mêmes, et en fait il n'y a pas de dossiers qui sont très semblables: chaque personne est loin de leur voisin le plus proche dans l'ensemble de données. On peut imaginer que les données Netflix pourraient être rares car avec environ 20.000 films sur une échelle de 5 étoiles, il y a environ \ (6 ^ {20.000} \) valeurs possibles que chaque personne pourrait avoir (6 parce que en plus d'un à 5 étoiles , quelqu'un aurait non classé le film du tout). Ce nombre est si grand, il est même difficile à comprendre.
Sparsité a deux conséquences principales. Tout d'abord, cela signifie que la tentative de "anonymiser" l'ensemble de données sur la base de perturbation aléatoire va probablement échouer. Autrement dit, même si Netflix devait régler au hasard quelques-unes des notes (ce qu'ils ont fait), ce ne serait pas suffisant parce que le dossier est perturbé toujours le record le plus proche possible de l'information que l'attaquant a. Deuxièmement, le sparsity signifie que de-anonymisation est possible, même si l'attaquant a une connaissance imparfaite ou impartiale. Par exemple, dans les données de Netflix, imaginons l'attaquant connaît vos notes pour deux films et les dates que vous avez fait ces évaluations +/- 3 jours; juste que l'information seule est suffisante pour identifier 68% des personnes dans les données de Netflix. Si les attaquants sait 8 films que vous avez notés +/- 14 jours, alors même si deux de ces évaluations connues sont complètement faux, 99% des dossiers peut être identifié de manière unique dans l'ensemble de données. En d'autres termes, sparsity est un problème fondamental pour les efforts visant à "rendre anonymes" des données, ce qui est regrettable, car ensemble de données sociales les plus modernes sont rares.
métadonnées de téléphone peut également apparaître comme "anonyme" et non sensible, mais qui est pas le cas. Métadonnées de téléphone est identifiable et sensible (Mayer, Mutchler, and Mitchell 2016; Landau 2016) .
Dans la figure 6.6, je dessinai un compromis entre le risque pour les participants et les avantages à la recherche de la diffusion des données. Pour une comparaison entre les approches restreintes d'accès (par exemple, un jardin clos) et des approches de données limité (par exemple, une certaine forme de anonymisation) voir Reiter and Kinney (2011) . Pour un système de catégorisation proposé des niveaux de données de risque, voir Sweeney, Crosas, and Bar-Sinai (2015) . Enfin, pour une discussion plus générale de partage de données, voir Yakowitz (2011) .
Pour une analyse plus détaillée de ce compromis entre le risque et l' utilité des données, voir Brickell and Shmatikov (2008) , Ohm (2010) , Wu (2013) , Reiter (2012) , et Goroff (2015) . Pour voir ce compromis appliqué à des données réelles des cours en ligne massivement ouverts (MOOCs), voir Daries et al. (2014) et Angiuli, Blitzstein, and Waldo (2015) .
Vie privée différentiel offre également une approche alternative qui peut se combiner à la fois haute avantage pour la société et à faible risque pour les participants, voir Dwork and Roth (2014) et Narayanan, Huey, and Felten (2016) .
Pour en savoir plus sur le concept de l' information d' identification personnelle (PII), qui est au cœur de bon nombre des règles sur l' éthique de la recherche, voir Narayanan and Shmatikov (2010) et Schwartz and Solove (2011) . Pour en savoir plus sur toutes les données potentiellement sensibles, voir Ohm (2015) .
Dans cette section, je l'ai dépeint le lien entre les différents ensembles de données comme quelque chose qui peut conduire à un risque informationnel. Cependant, il peut aussi créer de nouvelles opportunités pour la recherche, comme l'a soutenu dans Currie (2013) .
Pour en savoir plus sur les cinq coffres - forts, voir Desai, Ritchie, and Welpton (2016) . Pour un exemple de la façon dont les sorties peuvent être identifier, voir Brownstein, Cassa, and Mandl (2006) , qui montre comment les cartes de prévalence de la maladie peuvent être identifient. Dwork et al. (2017) considère également les attaques contre les données agrégées, telles que les statistiques sur le nombre d' individus ont une certaine maladie.
Warren and Brandeis (1890) est un article juridique historique à propos de la vie privée, et l'article est le plus associé à l'idée que la vie privée est un droit d'être laissé seul. Plus récemment , la longueur du livre des traitements de la vie privée que je recommande notamment Solove (2010) et Nissenbaum (2010) .
Pour un examen de la recherche empirique sur la façon dont les gens pensent à la vie privée, voir Acquisti, Brandimarte, and Loewenstein (2015) . La revue Science a publié un numéro spécial intitulé «La fin de la vie privée», qui aborde les questions de la vie privée et les risques de l' information à partir d' une variété de différents points de vue; pour un résumé voir Enserink and Chin (2015) . Calo (2011) propose un cadre de réflexion sur les méfaits qui viennent de violations de la vie privée. Un premier exemple de préoccupations au sujet de la vie privée dans les débuts de l'ère du numérique est Packard (1964) .
Un défi en essayant d'appliquer la norme de risque minimal est qu'il est pas clair dont la vie quotidienne doit être utilisée pour l' analyse comparative (Council 2014) . Par exemple, les sans-abri ont des niveaux plus élevés d'inconfort dans leur vie quotidienne. Mais, cela ne signifie pas qu'il est éthiquement acceptable d'exposer des personnes sans-abri à la recherche de risque plus élevé. Pour cette raison, il semble y avoir un consensus croissant que le risque minimal doit être comparé à une norme de population générale, et non pas une norme de population spécifique. Alors que je suis généralement d'accord avec l'idée d'une norme de population générale, je pense que pour les grandes plates-formes en ligne comme Facebook, une norme de population spécifique est raisonnable. Autrement dit, lorsque l'on considère la contagion émotionnelle, je pense qu'il est raisonnable de référence contre le risque quotidien sur Facebook. Une norme de population spécifique dans ce cas est beaucoup plus facile à évaluer et il est peu probable en conflit avec le principe de la justice, qui vise à éviter les inconvénients de la recherche ne injustement sur les groupes défavorisés (par exemple, les prisonniers et les orphelins).
D' autres chercheurs ont également demandé plus de documents à inclure les annexes éthiques (Schultze and Mason 2012; Kosinski et al. 2015) . King and Sands (2015) offre également des conseils pratiques.