L'ètica de la investigació ha inclòs tradicionalment temes com el frau científic i l'assignació de crèdit. Aquests es discuteixen amb més detall en On Being a Scientist per l' Institute of Medicine and National Academy of Sciences and National Academy of Engineering (2009) .
Aquest capítol està fortament influenciat per la situació als Estats Units. Per obtenir més informació sobre els procediments d'examen ètic d'altres països, vegeu els capítols 6-9 de Desposato (2016b) . Per un argument que els principis ètics biomèdics que han influït en aquest capítol són excessivament americans, vegeu Holm (1995) . Per a una altra revisió històrica de les Juntes de Revisió Institucional als Estats Units, vegeu Stark (2012) . La revista PS: Political Science and Politics va realitzar un simposi professional sobre la relació entre els politòlegs i els IRB; vegeu Martinez-Ebers (2016) per obtenir un resum.
L'informe Belmont i les normatives posteriors als Estats Units tendeixen a fer una distinció entre la investigació i la pràctica. No he inclòs cap distinció en aquest capítol perquè crec que els principis i els marcs ètics s'apliquen a ambdues configuracions. Per obtenir més informació sobre aquesta distinció i els problemes que presenta, vegeu Beauchamp and Saghai (2012) , MN Meyer (2015) , boyd (2016) i Metcalf and Crawford (2016) .
Per obtenir més informació sobre la supervisió de la recerca a Facebook, vegeu Jackman and Kanerva (2016) . Per obtenir idees sobre la supervisió de la recerca a empreses i ONG, vegeu Calo (2013) , Polonetsky, Tene, and Jerome (2015) i Tene and Polonetsky (2016) .
En relació amb l'ús de dades de telefonia mòbil per ajudar a abordar el brot de l'èbola de l'any 2014 a l'Àfrica occidental (Wesolowski et al. 2014; McDonald 2016) , per obtenir més informació sobre els riscos de privadesa de les dades del telèfon mòbil, vegeu Mayer, Mutchler, and Mitchell (2016) . Per obtenir exemples d'investigacions anteriors relacionades amb les crisis utilitzant dades de telefonia mòbil, vegeu Bengtsson et al. (2011) i Lu, Bengtsson, and Holme (2012) , i per obtenir més informació sobre l'ètica de la recerca relacionada amb la crisi, vegeu ( ??? ) .
Molta gent ha escrit sobre el contagi emocional. La revista Ethical Research va dedicar tot el seu tema al gener de 2016 per discutir l'experiment; vegeu Hunter and Evans (2016) per obtenir una visió general. Les Actes dels Acadèmics Nacionals de Ciència van publicar dues peces sobre l'experiment: Kahn, Vayena, and Mastroianni (2014) i Fiske and Hauser (2014) . Altres peces sobre l'experiment inclouen: Puschmann and Bozdag (2014) , Meyer (2014) , Grimmelmann (2015) , MN Meyer (2015) , ( ??? ) , Kleinsman and Buckley (2015) , Shaw (2015) i ( ??? ) .
Pel que fa a la vigilància massiva, es proporcionen visions generals a Mayer-Schönberger (2009) i Marx (2016) . Per a un exemple concret dels costos canviants de la vigilància, Bankston and Soltani (2013) estimen que el seguiment d'un sospitós delinqüent amb telèfons mòbils és gairebé 50 vegades més econòmic que l'ús de la vigilància física. Vegeu també Ajunwa, Crawford, and Schultz (2016) per a una discussió sobre la vigilància en el treball. Bell and Gemmell (2009) proporcionen una perspectiva més optimista sobre l'autocontrol.
A més de poder seguir un comportament observable públic o parcialment públic (per exemple, els gustos, els vincles i el temps), els investigadors poden inferir cada vegada més coses que molts participants consideren privades. Per exemple, Michal Kosinski i els seus col·legues (2013) van demostrar que podrien inferir informació sensible sobre persones, com l'orientació sexual i l'ús de substàncies addictives, a partir de dades de traça digital aparentment ordinàries (Likes de Facebook). Això pot semblar màgic, però l'enfocament que Kosinski i col·legues van utilitzar, que combinaven traces digitals, enquestes i aprenentatge supervisat, és en realitat alguna cosa que ja us he explicat. Recordeu que al capítol 3 (Preguntes). Li vaig dir que Joshua Blumenstock i els seus col·legues (2015) combinar dades d'enquestes amb dades de telefonia mòbil per estimar la pobresa a Rwanda. Aquest mateix enfocament exacte, que es pot utilitzar per mesurar la pobresa de forma eficient en un país en desenvolupament, també es pot utilitzar per a infraccions potencialment violentes de la privadesa.
Per obtenir més informació sobre possibles usos secundaris no desitjats de dades de salut, vegeu O'Doherty et al. (2016) . A més del potencial d'usos secundaris no desitjats, la creació d'una base de dades mestra incompleta podria tenir un efecte esgarrifós sobre la vida social i política si la gent no volia llegir determinats materials o discutir certs temes; vegeu Schauer (1978) i Penney (2016) .
En situacions amb regles superposades, l'investigador de vegades es dedica a "compres reguladores" (Grimmelmann 2015; Nickerson and Hyde 2016) . En particular, alguns investigadors que volen evitar la supervisió de l'IRB poden formar associacions amb investigadors que no estan coberts per IRB (per exemple, persones a empreses o ONG), i que aquests col·legues recopilin i desidentifiquin les dades. A continuació, l'investigador cobert per l'IRB pot analitzar aquestes dades desidentificades sense supervisió de l'IRB ja que la investigació ja no es considera "investigació de temes humans", almenys segons algunes interpretacions de les normes actuals. Aquest tipus d'evasió de l'IRB probablement no sigui coherent amb un enfocament basat en principis de l'ètica de la recerca.
El 2011, es va començar a actualitzar la norma comuna i aquest procés es va completar finalment el 2017 ( ??? ) . Per obtenir més informació sobre aquests esforços per actualitzar la Norma comuna, vegeu Evans (2013) , National Research Council (2014) , Hudson and Collins (2015) i Metcalf (2016) .
L'enfocament clàssic basat en els principis de l'ètica biomèdica és el de Beauchamp and Childress (2012) . Proposen que quatre principis principals guien l'ètica biomèdica: el respecte per l'autonomia, la no-malaltia, la beneficència i la justícia. El principi de no-malimentació incita a un d'abstenir-se de causar danys a altres persones. Aquest concepte està profundament relacionat amb la idea hipocràtica de "No fer mal". En l'ètica de la recerca, aquest principi sovint es combina amb el principi de Beneficència, però vegeu el capítol 5 de @ beauchamp_principles_2012 per obtenir més informació sobre la distinció entre els dos. Per una crítica que aquests principis són massa americans, vegeu Holm (1995) . Per obtenir més informació sobre l'equilibri quan es compleix el principi de conflicte, vegeu Gillon (2015) .
També s'han proposat els quatre principis d'aquest capítol per guiar la supervisió ètica de la investigació que es realitza a les empreses i ONG (Polonetsky, Tene, and Jerome 2015) través d'organismes anomenats "Consells sobre temes de consum" (CSRB) (Calo 2013) .
A més de respectar l'autonomia, l'informe Belmont també reconeix que no tots els humans són capaços d'autodeterminació veritable. Per exemple, els nens, les persones que pateixen malalties o les persones que viuen en situacions de llibertat severament restringida poden no ser capaces d'actuar com a persones totalment autònomes i, per tant, aquestes persones estan subjectes a una protecció addicional.
L'aplicació del principi de respecte a les persones en l'era digital pot ser un repte. Per exemple, en la recerca en edat digital, pot ser difícil proporcionar proteccions addicionals per a persones amb disminució de la capacitat d'autodeterminació perquè sovint els investigadors coneixen molt poc els seus participants. A més, el consentiment informat de la investigació social en l'era digital és un gran desafiament. En alguns casos, el consentiment veritablement informat pot patir la paradoxa de transparència (Nissenbaum 2011) , on la informació i la comprensió estan en conflicte. Aproximadament, si els investigadors proporcionen informació completa sobre la naturalesa de la recopilació de dades, l'anàlisi de dades i les pràctiques de seguretat de dades, serà difícil per a molts participants comprendre. Però si els investigadors proporcionen informació comprensible, pot ser que no tingueu detalls tècnics importants. En la investigació mèdica en l'edat analògica, la definició de domini considerada per l'informe Belmont, es podria imaginar que un metge parli individualment amb cada participant per ajudar a resoldre la paradoxa de la transparència. En estudis en línia que impliquen milers o milions de persones, aquest enfocament cara a cara és impossible. Un segon problema amb el consentiment en l'era digital és que en alguns estudis, com ara l'anàlisi de dipòsits massius de dades, no seria pràctic obtenir el consentiment informat de tots els participants. Parlo d'aquestes i altres preguntes sobre el consentiment informat amb més detall a l'apartat 6.6.1. Malgrat aquestes dificultats, però, hem de recordar que el consentiment informat no és necessari ni suficient per al respecte per a les persones.
Per obtenir més informació sobre la investigació mèdica abans del consentiment informat, vegeu Miller (2014) . Per a un tractament complet del consentiment informat, vegeu Manson and O'Neill (2007) . Vegeu també les lectures suggerides sobre el consentiment informat a continuació.
Els danys al context són els danys que la investigació pot causar no a persones específiques sinó a entorns socials. Aquest concepte és una mica abstracte, però il·lustraré amb un exemple clàssic: l'Estudi del jurat de Wichita (Vaughan 1967; Katz, Capron, and Glass 1972, chap. 2) també anomenat Chicago Jury Project (Cornwell 2010) . En aquest estudi, investigadors de la Universitat de Chicago, com a part d'un estudi més ampli d'aspectes socials del sistema legal, van registrar secretament sis deliberacions del jurat a Wichita, Kansas. Els jutges i advocats dels casos havien aprovat els enregistraments, i hi va haver una supervisió estricta del procés. Tanmateix, els jurats no sabien que s'havien produït enregistraments. Un cop descobert l'estudi, hi va haver indignació pública. El Departament de Justícia va començar una investigació de l'estudi, i els investigadors van ser cridats a declarar davant del Congrés. Finalment, el Congrés va aprovar una nova llei que fa il·legal gravar en secret la deliberació del jurat.
La preocupació dels crítics de l'Estudi del jurat de Wichita no era el risc de danys als participants; més aviat, era el risc de danys al context de deliberació del jurat. És a dir, la gent pensava que si els membres del jurat no creien que tenien discussions en un espai segur i protegit, seria més difícil que les deliberacions del jurat continuessin en el futur. A més de la deliberació del jurat, hi ha altres contextos socials específics que la societat proporciona amb una protecció addicional, com ara les relacions entre advocats i clients i l'atenció psicològica (MacCarthy 2015) .
El risc de danys al context i la disrupció dels sistemes socials també sorgeixen en alguns experiments de camp en ciències polítiques (Desposato 2016b) . Per obtenir un exemple d'un càlcul de costos i beneficis més sensible al context d'un experiment de camp en ciències polítiques, vegeu Zimmerman (2016) .
La compensació per als participants s'ha debatut en una sèrie de paràmetres relacionats amb la recerca en edat digital. Lanier (2014) proposa que els participants paguin els rastres digitals que generen. Bederson and Quinn (2011) debaten els pagaments en mercats de treball en línia. Finalment, Desposato (2016a) proposa el pagament dels participants en experiments de camp. Ell assenyala que, fins i tot si els participants no es poden pagar directament, es podria fer una donació a un grup que treballés en nom seu. Per exemple, a Encore, els investigadors podrien haver fet una donació a un grup que treballés per donar suport a l'accés a Internet.
Els acords de condicions de servei han de tenir menys pes que els contractes negociats entre parts iguals i que les lleis creades per governs legítims. Les situacions en què els investigadors han violat els contractes de servei en el passat han implicat generalment fer consultes automatitzades per auditar el comportament de les empreses (igual que els experiments de camp per mesurar la discriminació). Per a discussions addicionals, vegeu Vaccaro et al. (2015) , Bruckman (2016a) i Bruckman (2016b) . Per obtenir un exemple de recerca empírica que analitza els termes del servei, vegeu Soeller et al. (2016) . Per obtenir més informació sobre els possibles problemes legals que afronten els investigadors si infringeixen els termes del servei, vegeu Sandvig and Karahalios (2016) .
Òbviament, s'ha escrit una enorme quantitat de conseqüencialisme i deontologia. Per obtenir un exemple de com es poden utilitzar aquests marcs ètics, entre d'altres, per raonar la recerca sobre l'edat digital, vegeu Zevenbergen et al. (2015) . Per obtenir un exemple de com es poden aplicar a experiments en camp en economia del desenvolupament, vegeu Baele (2013) .
Per obtenir més informació sobre els estudis d'auditoria de la discriminació, vegeu Pager (2007) i Riach and Rich (2004) . No només aquests estudis no tenen el consentiment informat, sinó que també impliquen enganys sense debriefing.
Tant Desposato (2016a) i Humphreys (2015) ofereixen consells sobre experiments sobre camp sense el seu consentiment.
Sommers and Miller (2013) revisen molts arguments a favor de no informar els participants després de l'engany i argumenten que els investigadors hauran de renunciar
"En un conjunt de circumstàncies molt estretes, és a dir, en investigacions sobre el terreny en les quals el debriefing planteja barreres pràctiques considerables, però els investigadors no tindrien cap dubte sobre els debriefing si poguessin. No se'ls permetrà als investigadors renunciar a la informació per tal de preservar un grup participant ingenu, protegir-se de la ira del participant o protegir els participants dels danys ".
Altres argumenten que, en algunes situacions, si el debriefing causa més mal que bé, s'hauria d'evitar (Finn and Jakobsson 2007) . El debat és un cas en què alguns investigadors prioritzen el respecte per les persones més beneficiades, mentre que alguns investigadors fan el contrari. Una possible solució seria trobar formes de fer una reflexió sobre una experiència d'aprenentatge per als participants. És a dir, en comptes de pensar en el debat com una cosa que pot causar danys, potser el debat també pot ser una cosa que beneficiï als participants. Per obtenir un exemple d'aquest tipus de material didàctic, consulteu Jagatic et al. (2007) . Els psicòlegs han desenvolupat tècniques de presentació de (DS Holmes 1976a, 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) , i alguns d'ells poden ser aplicats de manera útil a la investigació en edat digital. Humphreys (2015) ofereix pensaments interessants sobre el consentiment diferit , que està molt relacionat amb l'estratègia de debriefing que he descrit.
La idea de demanar una mostra de participants per al seu consentiment està relacionada amb el que Humphreys (2015) demana el consentiment inferit .
Una altra idea relacionada amb el consentiment informat que s'ha proposat és construir un panell de persones que accepten estar en experiments en línia (Crawford 2014) . Alguns han argumentat que aquest panell seria una mostra de la gent que no era cap element. Però el capítol 3 (Preguntes) mostra que aquests problemes són potencialment direccionables mitjançant la postestratificació. A més, el consentiment per estar al panell podria abastar una varietat d'experiments. En altres paraules, és possible que els participants no necessitin autoritzar cada experiment individualment, un concepte anomenat consentiment ampli (Sheehan 2011) . Per obtenir més informació sobre les diferències entre el consentiment únic i el consentiment per a cada estudi, així com un possible híbrid, vegeu Hutton and Henderson (2015) .
Lluny d'ésser únic, el Premi Netflix il·lustra una propietat tècnica important de conjunts de dades que contenen informació detallada sobre les persones i, per tant, ofereix lliçons importants sobre la possibilitat d'"anonimitzar" els conjunts de dades socials moderns. És probable que els expedients amb moltes dades sobre cada persona siguin escasses , en el sentit definit formalment a Narayanan and Shmatikov (2008) . És a dir, per a cada registre, no hi ha registres que siguin els mateixos, i de fet no hi ha registres que siguin molt similars: cada persona està molt lluny del veí més proper del conjunt de dades. Es pot imaginar que les dades de Netflix poden ser escasses perquè amb unes 20.000 pel·lícules en una escala de cinc estrelles, hi ha uns valors possibles \(6^{20,000}\) que cada persona podria tenir (6 perquè, a més de 1 a 5 estrelles, és possible que algú no hagi valorat la pel·lícula en absolut). Aquest nombre és tan gran, és difícil de comprendre.
Sparsity té dues conseqüències principals. En primer lloc, significa que intentar "anonimitzar" el conjunt de dades basat en la perturbació aleatòria probablement fallarà. És a dir, fins i tot si Netflix ajustés aleatòriament algunes de les qualificacions (que ho feien), això no seria suficient perquè el registre perturbat encara és el registre més proper possible a la informació que l'atacant té. En segon lloc, l'escassetat significa que la reidentificació és possible fins i tot si l'atacant té un coneixement imperfecte o imparcial. Per exemple, a les dades de Netflix, imaginem que l'atacant coneix les teves puntuacions per a dues pel·lícules i les dates en què heu fet aquestes puntuacions \(\pm\) 3 dies; Només aquesta informació és suficient per identificar de forma exclusiva el 68% de les persones en les dades de Netflix. Si l'atacant coneix vuit pel·lícules que ha valorat \(\pm\) 14 dies, fins i tot si dues d'aquestes classificacions conegudes són completament errònies, el 99% dels registres es poden identificar de manera exclusiva al conjunt de dades. En altres paraules, la dispersió és un problema fonamental per als esforços per "anonimitzar" les dades, que és lamentable perquè la majoria dels conjunts de dades socials moderns són escasses. Per obtenir més informació sobre "anonimització" de dades escasses, vegeu Narayanan and Shmatikov (2008) .
Les metadades telefòniques també poden semblar "anònimes" i no sensibles, però aquest no és el cas. Les metadades telefòniques són identificables i sensibles (Mayer, Mutchler, and Mitchell 2016; Landau 2016) .
A la figura 6.6, he esbossat un compromís entre el risc per als participants i els beneficis a la societat des de la publicació de dades. Per a una comparació entre enfocaments d'accés restringit (per exemple, un jardí emmurallat) i enfocaments de dades restringits (per exemple, alguna forma d'anonimització), vegeu Reiter and Kinney (2011) . Per a un sistema de classificació proposat dels nivells de dades de riscos, vegeu Sweeney, Crosas, and Bar-Sinai (2015) . Per a una discussió més general sobre l'intercanvi de dades, vegeu Yakowitz (2011) .
Per a una anàlisi més detallada d'aquesta compensació entre el risc i la utilitat de les dades, vegeu Brickell and Shmatikov (2008) , Ohm (2010) , Reiter (2012) , Wu (2013) i Goroff (2015) . Per veure aquesta compensació aplicada a dades reals de cursos en línia massivament oberts (MOOC), vegeu Daries et al. (2014) i Angiuli, Blitzstein, and Waldo (2015) .
La privadesa diferencial també ofereix un enfocament alternatiu que pot combinar tant el baix risc per als participants com el gran benefici per a la societat; vegeu Dwork and Roth (2014) i Narayanan, Huey, and Felten (2016) .
Per obtenir més informació sobre el concepte d'informació d'identificació personal (PII), que és fonamental per a moltes de les regles sobre l'ètica de la recerca, vegeu Narayanan and Shmatikov (2010) i Schwartz and Solove (2011) . Per obtenir més informació sobre totes les dades potencialment sensibles, vegeu Ohm (2015) .
En aquesta secció, he retratat el vincle de diferents conjunts de dades com quelcom que pot generar risc informatiu. Tanmateix, també pot crear noves oportunitats per a la investigació, tal com va afirmar Currie (2013) .
Per obtenir més informació sobre les cinc caixes de seguretat, vegeu Desai, Ritchie, and Welpton (2016) . Per obtenir un exemple de com es poden identificar els resultats, vegeu Brownstein, Cassa, and Mandl (2006) , que mostren com es poden identificar els mapes de la prevalença de malaltia. Dwork et al. (2017) també consideren atacs contra dades agregades, com ara estadístiques sobre quantes persones tenen una determinada malaltia.
Les preguntes sobre l'ús de dades i la publicació de dades també plantegen preguntes sobre la propietat de les dades. Per obtenir més informació sobre la propietat de dades, vegeu Evans (2011) i Pentland (2012) .
Warren and Brandeis (1890) és un article legal rellevant sobre la privadesa i està més associat a la idea que la privadesa és un dret a deixar-se sol. Els tractaments de privadesa de llibres que recomano incloure Solove (2010) i Nissenbaum (2010) .
Per a una revisió de la investigació empírica sobre com la gent pensa en la privadesa, vegeu Acquisti, Brandimarte, and Loewenstein (2015) . Phelan, Lampe, and Resnick (2016) proposen una teoria del sistema dual: que la gent en ocasions se centra en les inquietuds intuïtives i, de vegades, se centra en les preocupacions considerades, per explicar com les persones poden fer declaracions aparentment contradictòries sobre la privadesa. Per obtenir més informació sobre la idea de privadesa en entorns en línia com ara Twitter, consulteu Neuhaus and Webmoor (2012) .
La revista Science va publicar una secció especial titulada "The End of Privacy", que aborda els problemes de privacitat i risc informacional des d'una varietat de perspectives diferents; Per obtenir un resum, consulteu Enserink and Chin (2015) . Calo (2011) ofereix un marc per pensar els danys derivats de les violacions de la privadesa. Un primer exemple de preocupació sobre la privadesa en els inicis de l'era digital és Packard (1964) .
Un dels reptes en intentar aplicar el nivell de risc mínim és que no està clar la vida quotidiana del qual s'utilitzarà per a l'avaluació comparativa (National Research Council 2014) . Per exemple, les persones sense llar tenen majors nivells de molèstia en la seva vida quotidiana. Però això no implica que sigui èticament permissible exposar a les persones sense sostre a una investigació de major risc. Per aquest motiu, sembla que hi ha un consens creixent que el risc mínim s'hauria de comparar amb un estàndard de població general , no un estàndard de població específic . Tot i que generalment estic d'acord amb la idea d'un estàndard de població general, crec que per a grans plataformes en línia com Facebook, un estàndard de població específic és raonable. Per tant, en considerar Contagion Emocional, crec que és raonable fer referència al risc quotidià a Facebook. Una norma de població específica en aquest cas és molt més fàcil d'avaluar i és poc probable que entri en conflicte amb el principi de la Justícia, que preten evitar que les càrregues de la investigació fracassin injustament en grups desfavorits (per exemple, presoners i orfes).
Altres acadèmics també han demanat més articles per incloure apèndits ètics (Schultze and Mason 2012; Kosinski et al. 2015; Partridge and Allman 2016) . King and Sands (2015) també ofereix consells pràctics. Zook i col·legues (2017) ofereixen "deu senzilles regles per a la recerca de dades de gran responsabilitat".