Forskningsetik har traditionelt også omfattet emner som videnskabelig svig og kreditfordeling. Disse diskuteres mere detaljeret i On Being Scientist ved Institute of Medicine and National Academy of Sciences and National Academy of Engineering (2009) .
Dette kapitel er stærkt påvirket af situationen i USA. For mere om de etiske gennemgangsprocedurer i andre lande, se kapitlerne 6-9 i Desposato (2016b) . For et argument om, at de biomedicinske etiske principper, der har påvirket dette kapitel, er overdrevent amerikanske, se Holm (1995) . For en yderligere historisk gennemgang af Institutional Review Boards i USA, se Stark (2012) . Journal PS: Statskundskab og Politik holdt et professionelt symposium om forholdet mellem politiske forskere og IRB'er; se Martinez-Ebers (2016) for et resumé.
Belmont-rapporten og de efterfølgende bestemmelser i USA har tendens til at skelne mellem forskning og praksis. Jeg har ikke gjort en sådan sondring i dette kapitel, fordi jeg tror, at de etiske principper og rammer gælder for begge indstillinger. For mere om denne sondring og de problemer, den introducerer, se Beauchamp and Saghai (2012) , MN Meyer (2015) , boyd (2016) og Metcalf and Crawford (2016) .
For mere om forskningsoverblik på Facebook, se Jackman and Kanerva (2016) . For ideer om forskningsovervågning hos virksomheder og ngo'er, se Calo (2013) , Polonetsky, Tene, and Jerome (2015) og Tene and Polonetsky (2016) .
I forbindelse med brugen af mobiltelefondata for at hjælpe med at løse 2014 Ebola-udbruddet i Vestafrika (Wesolowski et al. 2014; McDonald 2016) , for mere om privatlivsrisikoen for mobiltelefondata, se Mayer, Mutchler, and Mitchell (2016) . For eksempler på tidligere kriserelateret forskning, der bruger mobiltelefondata, se Bengtsson et al. (2011) og Lu, Bengtsson, and Holme (2012) , og for mere om etisk kriselateret forskning, se ( ??? ) .
Mange mennesker har skrevet om følelsesmæssig forurening. Journalet Research Ethics helligede hele deres problem i januar 2016 for at diskutere eksperimentet; se Hunter and Evans (2016) for et overblik. Proceduren for de nationale videnskabsforskere offentliggjorde to stykker om eksperimentet: Kahn, Vayena, and Mastroianni (2014) og Fiske and Hauser (2014) . Andre stykker om forsøget omfatter: Puschmann and Bozdag (2014) , Meyer (2014) , Grimmelmann (2015) , MN Meyer (2015) , ( ??? ) , Kleinsman and Buckley (2015) , Shaw (2015) , og ( ??? ) .
Hvad angår massovervågning, findes der i oversigten over Mayer-Schönberger (2009) og Marx (2016) . For et konkret eksempel på de ændrede overvågningskostnader vurderer Bankston and Soltani (2013) , at sporing af en kriminel mistanke ved at bruge mobiltelefoner er omkring 50 gange billigere end ved fysisk overvågning. Se også Ajunwa, Crawford, and Schultz (2016) for en diskussion af overvågning på arbejdspladsen. Bell and Gemmell (2009) giver et mere optimistisk perspektiv på selvovervågning.
Ud over at kunne spore observerbar adfærd, der er offentlig eller delvist offentlig (f.eks. Smag, slips og tid), kan forskere i stigende grad udlede ting, som mange deltagere anser for at være private. For eksempel viste Michal Kosinski og kolleger (2013) , at de kunne udlede følsomme oplysninger om mennesker, såsom seksuel orientering og brug af vanedannende stoffer, fra tilsyneladende almindelige digitale spordata (Facebook Likes). Dette kan lyde magisk, men den tilgang, som Kosinski og kollegaer brugte - som kombinerede digitale spor, undersøgelser og overvåget læring - er faktisk noget, jeg allerede har fortalt dig om. Husk det i kapitel 3 (Stil spørgsmål). Jeg fortalte dig, hvordan Joshua Blumenstock og kolleger (2015) kombinerede undersøgelsesdata med mobiltelefondata for at estimere fattigdom i Rwanda. Denne nøjagtige samme tilgang, som kan bruges til effektivt at måle fattigdom i et udviklingsland, kan også bruges til potentielt privatlivskrænkelser.
For mere om de mulige utilsigtede sekundære anvendelser af sundhedsdata, se O'Doherty et al. (2016) . Ud over muligheden for utilsigtet sekundær brug kan oprettelsen af selv en ufuldstændig masterdatabase have en chillende effekt på det sociale og politiske liv, hvis folk bliver uvillige til at læse bestemte materialer eller diskutere bestemte emner; se Schauer (1978) og Penney (2016) .
I situationer med overlappende regler involverer forskeren undertiden "reguleringshandel" (Grimmelmann 2015; Nickerson and Hyde 2016) . Specielt kan nogle forskere, der ønsker at undgå IRB-overvågning, danne partnerskaber med forskere, der ikke er omfattet af IRB'er (f.eks. Personer hos virksomheder eller ngo'er) og få disse kolleger til at indsamle og afkode data. Derefter kan den IRB-dækkede forsker analysere disse de-identificerede data uden IRB-overvågning, fordi forskningen ikke længere betragtes som "human research", i hvert fald ifølge nogle fortolkninger af gældende regler. Denne form for IRB-unddragelse er nok ikke i overensstemmelse med en principbaseret tilgang til forskningsetik.
I 2011 begyndte en indsats at opdatere den fælles regel, og denne proces blev endelig afsluttet i 2017 ( ??? ) . For mere om disse bestræbelser på at opdatere den fælles regel, se Evans (2013) , National Research Council (2014) , Hudson and Collins (2015) og Metcalf (2016) .
Den klassiske principbaserede tilgang til biomedicinsk etik er Beauchamp and Childress (2012) . De foreslår, at fire hovedprincipper skal vejlede biomedicinsk etik: Respekt for autonomi, nonmaleficence, beneficence og Justice. Princippet om nonmaleficence opfordrer indtrængende til at undlade at forårsage skade for andre mennesker. Dette begreb er dybt forbundet med den hippokratiske ide om "Ikke skad". I forskningsetik kombineres dette princip ofte med princippet om fordellighed, men se kapitel 5 i @ beauchamp_principles_2012 for mere om sondringen mellem de to. For en kritik af, at disse principper er alt for amerikanske, se Holm (1995) . For mere at balancere, når principperne er i konflikt, se Gillon (2015) .
De fire principper i dette kapitel er også blevet foreslået til at lede etisk tilsyn med forskning i virksomheder og ngo'er (Polonetsky, Tene, and Jerome 2015) gennem organer kaldet "Consumer Review Review Boards" (CSRB) (Calo 2013) .
Ud over at respektere autonomi erkender Belmont-rapporten også, at ikke alle mennesker er i stand til sand selvbestemmelse. For eksempel kan børn, personer, der lider af sygdom eller personer, der lever i situationer med stærkt begrænset frihed, ikke være i stand til at fungere som fuldt autonome individer, og disse personer er derfor underlagt ekstra beskyttelse.
Anvendelse af princippet om respekt for personer i den digitale tidsalder kan være udfordrende. For eksempel kan det i digital alderforskning være svært at yde ekstra beskyttelse til personer med nedsat evne til selvbestemmelse, fordi forskere ofte ved meget lidt om deres deltagere. Videre er informeret samtykke i digital-age social forskning en enorm udfordring. I nogle tilfælde kan virkelig informeret samtykke lide af gennemsigtighedsparadoxet (Nissenbaum 2011) , hvor information og forståelse er i konflikt. Omkring forskere giver fuldstændig information om arten af dataindsamling, dataanalyse og datasikkerhedspraksis, vil det være svært for mange deltagere at forstå. Men hvis forskere giver forståelig information, kan det mangle vigtige tekniske detaljer. I medicinsk forskning i den analoge alder - den dominerende indstilling, som Belmont Report vurderede - kunne man forestille sig en læge, der snakkes individuelt med hver deltager for at hjælpe med at løse gennemsigtighedsparadoxet. I online-undersøgelser, der involverer tusinder eller millioner af mennesker, er en sådan ansigt-til-ansigt tilgang umulig. Et andet problem med samtykke i den digitale tidsalder er, at det i nogle undersøgelser, som analyser af massive datalager, ville være umuligt at opnå informeret samtykke fra alle deltagere. Jeg diskuterer disse og andre spørgsmål om informeret samtykke mere detaljeret i afsnit 6.6.1. På trods af disse vanskeligheder skal vi dog huske, at informeret samtykke hverken er nødvendigt eller tilstrækkeligt til respekt for personer.
For mere om medicinsk forskning før informeret samtykke, se Miller (2014) . For en boglængdesbehandling af informeret samtykke henvises til Manson and O'Neill (2007) . Se også de foreslåede aflæsninger om informeret samtykke nedenfor.
Harmonisering til kontekst er de skader, som forskning kan forårsage ikke til bestemte mennesker, men til sociale indstillinger. Dette begreb er lidt abstrakt, men jeg vil illustrere med et klassisk eksempel: Wichita Jury Study (Vaughan 1967; Katz, Capron, and Glass 1972, chap. 2) - også undertiden kaldet Chicago Jury Project (Cornwell 2010) . I denne undersøgelse registrerede forskere fra University of Chicago som led i en større undersøgelse af de sociale aspekter af retssystemet i hemmelighed seks jury overvejelser i Wichita, Kansas. Dommerne og advokaterne i sagerne havde godkendt optagelserne, og der var stramt tilsyn med processen. Juristerne var dog uvidende om, at optagelser optrådte. Når undersøgelsen blev opdaget, var der offentlig vold. Justitsafdelingen begyndte en undersøgelse af undersøgelsen, og forskerne blev kaldt til at vidne for kongressen. I sidste ende vedtog kongressen en ny lov, der gør det ulovligt at hemmeligt optage juryens overvejelser.
Kritikerne fra Wichita Jury Study var ikke risikoen for at skade deltagerne; Det var snarere risikoen for skader i sammenhængen med juryens overvejelser. Det vil sige, at folk troede, at hvis jurymedlemmer ikke troede på, at de havde diskussioner på et sikkert og beskyttet rum, ville det være sværere for juryens overvejelser at fortsætte i fremtiden. Ud over juryoversigt er der andre specifikke sociale sammenhænge, som samfundet yder ekstra beskyttelse, såsom advokat-klientforhold og psykologisk pleje (MacCarthy 2015) .
Risikoen for at skade konteksten og forstyrrelsen af de sociale systemer opstår også i nogle (Desposato 2016b) inden for statsvidenskab (Desposato 2016b) . For et eksempel på en mere kontekstfølsom costbenefitberegning for et felteksperiment inden for statsvidenskab, se Zimmerman (2016) .
Kompensation for deltagere er blevet diskuteret i en række indstillinger relateret til digital-age forskning. Lanier (2014) foreslår at betale deltagere for digitale spor, som de genererer. Bederson and Quinn (2011) diskuterer betalinger på online arbejdsmarkeder. Endelig foreslår Desposato (2016a) at betale deltagere i Desposato (2016a) . Han påpeger, at selv om deltagerne ikke kan betales direkte, kan der ydes en donation til en gruppe, der arbejder på deres vegne. For eksempel kunne forskerne i Encore have doneret til en gruppe, der arbejder for at understøtte adgangen til internettet.
Aftaler om servicevilkår skal have mindre vægt end kontrakter, der forhandles mellem lige parter og end lovgivninger skabt af legitime regeringer. Situationer, hvor forskere har overtrådt serviceaftaler i fortiden, har generelt involveret automatiske forespørgsler til at revidere virksomhedernes adfærd (ligesom felteksperimenter til måling af diskrimination). For yderligere diskussioner, se Vaccaro et al. (2015) , Bruckman (2016a) og Bruckman (2016b) . For et eksempel på empirisk forskning, der diskuterer servicevilkår, se Soeller et al. (2016) . For mere om de mulige juridiske problemer, forskere står over for, hvis de overtræder servicevilkår, se Sandvig and Karahalios (2016) .
Det er klart, at der er skrevet en enorm mængde om konsekvensisme og deontologi. For et eksempel på hvordan disse etiske rammer og andre kan bruges til at redegøre for digital-age forskning, se Zevenbergen et al. (2015) . For et eksempel på hvordan de kan anvendes til Baele (2013) i udviklingsøkonomi, se Baele (2013) .
For mere om revisionsstudier af diskrimination, se Pager (2007) og Riach and Rich (2004) . Disse undersøgelser har ikke kun et informeret samtykke, de involverer også bedrag uden aflæsning.
Både Desposato (2016a) og Humphreys (2015) tilbyder råd om Desposato (2016a) uden samtykke.
Sommers and Miller (2013) gennemgår mange argumenter for ikke at debriefe deltagere efter bedrag og argumentere for, at forskere bør afstå fra debriefing
"Under et meget snævert sæt omstændigheder, nemlig i feltforskning, hvor debriefing udgør betydelige praktiske barrierer, men forskere ville ikke have nogen problemer med at debriefe, hvis de kunne. Forskere bør ikke have lov til at afstå fra debriefing for at bevare en naiv deltagende pool, beskytte sig mod deltagers vrede eller beskytte deltagerne mod skade. "
Andre hævder, at i nogle situationer, hvis debriefing forårsager mere skade end god, bør det undgås (Finn and Jakobsson 2007) . Opfordring er et tilfælde, hvor nogle forskere prioriterer Respekt for Personer over Beneficence, mens nogle forskere gør det modsatte. En mulig løsning ville være at finde måder at gøre debriefing en lærerig oplevelse for deltagerne. Det er snarere end at tænke på debriefing som noget, der kan forårsage skade, måske debriefing kan også være noget, der gavner deltagerne. For et eksempel på denne form for undervisning, se Jagatic et al. (2007) . Psykologer har udviklet teknikker til debriefing (DS Holmes 1976a, 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) , og nogle af disse kan med fordel anvendes til digital-age forskning. Humphreys (2015) giver interessante tanker om udskudt samtykke , som er tæt forbundet med debriefingsstrategien, som jeg beskrev.
Idéen om at stille en stikprøve af deltagere til deres samtykke er relateret til, hvad Humphreys (2015) kalder afledt samtykke .
En yderligere idé vedrørende informeret samtykke, der er blevet foreslået, er at opbygge et panel af mennesker, der accepterer at være i online eksperimenter (Crawford 2014) . Nogle har argumenteret for, at dette panel ville være en nonrandom stikprøve af mennesker. Men kapitel 3 (Stil spørgsmål) viser, at disse problemer potentielt kan adresseres ved hjælp af post-stratification. Også samtykke til at være på panelet kunne dække en række eksperimenter. Med andre ord behøver deltagerne måske ikke at godkende hvert enkelt forsøg individuelt, et koncept kaldet bredt samtykke (Sheehan 2011) . For mere om forskellene mellem engangs samtykke og samtykke til hver undersøgelse samt en mulig hybrid, se Hutton and Henderson (2015) .
Langt fra det unikke illustrerer Netflix-prisen en vigtig teknisk egenskab af datasæt, der indeholder detaljerede oplysninger om mennesker og giver således vigtige erfaringer om muligheden for anonymisering af moderne sociale datasæt. Filer med mange oplysninger om hver person vil sandsynligvis være sparsomme , som defineret formelt i Narayanan and Shmatikov (2008) . Det er for hver rekord, at der ikke er nogen plader, der er de samme, og der er faktisk ingen plader, der ligner meget: hver person er langt væk fra deres nærmeste nabo i datasættet. Man kan forestille sig, at Netflix-dataene kan være sparsomme, fordi der med ca. 20.000 film på en femstjernet skala er omkring \(6^{20,000}\) mulige værdier, som hver person kunne have (6 fordi, foruden 1 til 5 stjerner, nogen har måske ikke bedømt filmen overhovedet). Dette tal er så stort, det er svært at forstå selv.
Sparsity har to hovedimplikationer. For det første betyder det, at forsøget på at "anonymisere" datasættet baseret på tilfældig forstyrrelse sandsynligvis vil mislykkes. Det vil sige, selvom Netflix tilfældigt skulle tilpasse nogle af vurderingerne (som de gjorde), ville det ikke være tilstrækkeligt, fordi den forstyrrede post stadig er den nærmeste mulige rekord til de oplysninger, som angriberen har. For det andet betyder sparsity at genidentifikation er mulig, selvom angriberen har ufuldkommen eller upartisk viden. For eksempel, i Netflix data, lad os forestille os, at angriberen kender dine bedømmelser for to film og de datoer, du lavede disse ratings \(\pm\) 3 dage; bare disse oplysninger alene er tilstrækkelige til unikt at identificere 68% af befolkningen i Netflix data. Hvis angriberen kender otte film, som du har klassificeret \(\pm\) 14 dage, så kan 99% af registreringer identificeres entydigt i datasættet, selvom to af disse kendte ratings er helt forkerte. Sparsity er med andre ord et grundlæggende problem for indsatsen for at "anonymisere" data, hvilket er uheldigt, fordi de fleste moderne sociale datasæt er sparsomme. For mere om "anonymisering" af sparsomme data, se Narayanan and Shmatikov (2008) .
Telefonmeta-data kan også synes at være "anonyme" og ikke følsomme, men det er ikke tilfældet. (Mayer, Mutchler, and Mitchell 2016; Landau 2016) -data er identificerbare og følsomme (Mayer, Mutchler, and Mitchell 2016; Landau 2016) .
I figur 6.6 skitserede jeg en afvejning mellem risiko for deltagere og gavn for samfundet fra dataudgivelsen. For en sammenligning mellem begrænsede adgangsmetoder (fx en walled garden) og begrænsede datatilgange (f.eks. En form for "anonymisering") se Reiter and Kinney (2011) . For et foreslået kategoriseringssystem for risikoniveauer af data, se Sweeney, Crosas, and Bar-Sinai (2015) . For en mere generel diskussion af datadeling, se Yakowitz (2011) .
For mere detaljeret analyse af denne afvejning mellem risiko og brug af data, se Brickell and Shmatikov (2008) , Ohm (2010) , Reiter (2012) , Wu (2013) og Goroff (2015) . For at se denne afvejning anvendt til reelle data fra massivt åbne online kurser (MOOCs), se Daries et al. (2014) og Angiuli, Blitzstein, and Waldo (2015) .
Differentiel privatliv tilbyder også en alternativ tilgang, der kan kombinere både lav risiko for deltagere og stor fordel for samfundet; se Dwork and Roth (2014) og Narayanan, Huey, and Felten (2016) .
For mere om begrebet personidentificerende oplysninger (PII), der er centralt for mange af reglerne om forskningsetik, se Narayanan and Shmatikov (2010) og Schwartz and Solove (2011) . For mere om alle data er potentielt følsomme, se Ohm (2015) .
I dette afsnit har jeg portrætteret sammenhængen mellem forskellige datasæt som noget, som kan føre til oplysningsrisiko. Det kan dog også skabe nye muligheder for forskning, som hævdet i Currie (2013) .
For mere på de fem pengeskabe, se Desai, Ritchie, and Welpton (2016) . For et eksempel på, hvordan output kan identificeres, se Brownstein, Cassa, and Mandl (2006) , som viser hvordan kortlægning af sygdomsprævalens kan identificeres. Dwork et al. (2017) overvejer også angreb på aggregerede data, såsom statistikker om, hvor mange personer der har en vis sygdom.
Spørgsmål om data brug og dataudgivelse rejser også spørgsmål om data ejerskab. For mere om data ejerskab, se Evans (2011) og Pentland (2012) .
Warren and Brandeis (1890) er en milepæl juridisk artikel om privatlivets fred og er mest forbundet med ideen om, at privatlivets fred er en ret til at være alene. Book-length behandlinger af privatlivets fred, som jeg vil anbefale, omfatter Solove (2010) og Nissenbaum (2010) .
For en gennemgang af empirisk forskning om, hvordan folk tænker på privatlivets fred, se Acquisti, Brandimarte, and Loewenstein (2015) . Phelan, Lampe, and Resnick (2016) foreslår en dual-systemteori - at folk sommetider fokuserer på intuitive bekymringer og nogle gange fokuserer på overvejede bekymringer - forklarer, hvordan folk tilsyneladende kan skabe modstridende udtalelser om privatlivets fred. For mere om ideen om privatlivets fred i onlineindstillinger som Twitter, se Neuhaus and Webmoor (2012) .
Journal Science offentliggjorde en særlig sektion med titlen "The End of Privacy", der behandler spørgsmålene om privatlivets fred og informationsrisiko fra en række forskellige perspektiver; for et resumé, se Enserink and Chin (2015) . Calo (2011) giver en ramme for at tænke på de skader, der kommer fra privatlivets overtrædelser. Et tidligt eksempel på bekymringer om privatlivets fred i begyndelsen af den digitale tidsalder er Packard (1964) .
En udfordring, når man forsøger at anvende den minimale risikostandard, er, at det ikke er klart, hvis daglige liv der skal bruges til benchmarking (National Research Council 2014) . For eksempel har hjemløse højere niveauer af ubehag i deres dagligdag. Men det betyder ikke, at det er etisk tilladt at udsætte hjemløse for forskning med højere risiko. Af denne grund synes der at være en voksende konsensus om, at minimal risiko bør benchmarkes mod en almindelig befolkningsstandard , ikke en specifik befolkningsstandard . Selvom jeg generelt er enig i ideen om en almindelig befolkningsstandard, mener jeg, at for store online platforme som Facebook er en specifik befolkningsstandard rimelig. Når jeg overvejer følelsesmæssig forurening, mener jeg, at det er rimeligt at benchmarke hverdagens risiko på Facebook. En specifik befolkningsstandard er i denne sag meget lettere at evaluere og er usandsynligt, at den er i strid med princippet om retfærdighed, som søger at forhindre, at byrden for forskning svigter uberettiget i ugunstigt stillede grupper (fx fanger og forældreløse børn).
Andre forskere har også opfordret til flere papirer til at indeholde etiske bilag (Schultze and Mason 2012; Kosinski et al. 2015; Partridge and Allman 2016) . King and Sands (2015) tilbyder også praktiske tips. Zook og kolleger (2017) tilbyder "ti enkle regler for ansvarlig stor dataforskning."