Detta avsnitt är utformat för att användas som en referens, i stället för att läsas som en berättelse.
Forskningsetik har traditionellt även ämnen som forskningsfusk och tilldelning av krediter. Dessa frågor diskuteras närmare i Engineering (2009) .
Detta kapitel är starkt formad av situationen i USA. För mer information om den etiska granskningen i andra länder, se kapitel 6, 7, 8 och 9 i Desposato (2016b) . För ett argument som de biomedicinska etiska principer som har påverkat det här kapitlet är alltför amerikansk, se Holm (1995) . För mer historisk genomgång av Institutional Review Boards i USA, se Stark (2012) .
The Belmont rapporten och senare förordningar i USA har gjort en åtskillnad mellan forskning och praktik. Denna distinktion har kritiserats senare (Beauchamp and Saghai 2012; boyd 2016; Metcalf and Crawford 2016; Meyer 2015) . Jag gör inte denna skillnad i detta kapitel eftersom jag tror de etiska principer och ramar gäller för båda inställningar. För mer information om forsknings tillsyn på Facebook, se Jackman and Kanerva (2016) . För ett förslag för forskning tillsyn på företag och icke-statliga organisationer, se Polonetsky, Tene, and Jerome (2015) och Tene and Polonetsky (2016) .
För mer information om fallet med Ebola utbrott 2014, se McDonald (2016) , och mer om integritetsrisker av mobila telefondata, se Mayer, Mutchler, and Mitchell (2016) . För ett exempel på krisrelaterad forskning med hjälp av mobila telefondata, se Bengtsson et al. (2011) och Lu, Bengtsson, and Holme (2012) .
Många människor har skrivit om Emotionell smitta. Tidskriften forskningsetik ägnade hela sin fråga i januari 2016 diskuterade försöket; se Hunter and Evans (2016) för en översikt. Proceedings of the National akademiker of Science publicerat två stycken om experimentet: Kahn, Vayena, and Mastroianni (2014) och Fiske and Hauser (2014) . Andra bitar om försöket är: Puschmann and Bozdag (2014) ; Meyer (2014) ; Grimmelmann (2015) ; Meyer (2015) ; Selinger and Hartzog (2015) ; Kleinsman and Buckley (2015) , Shaw (2015) ; Flick (2015) .
För mer information om Encore, se Jones and Feamster (2015) .
När det gäller massövervakning är breda översikter ges i Mayer-Schönberger (2009) och Marx (2016) . För ett konkret exempel på de förändrade kostnaderna för övervakning, Bankston and Soltani (2013) uppskattar att spåra en kriminell misstänkt använder mobiltelefoner är ungefär 50 gånger billigare än att använda fysisk övervakning. Bell and Gemmell (2009) ger en mer optimistisk syn på själv- övervakning. Förutom att kunna spåra observerbart beteende som är offentliga eller delvis offentliga (t.ex. smak, slipsar, och tid), kan forskarna allt sluta saker som många deltagare anser vara privat. Till exempel, Michal Kosinski och kollegor visade att de kunde sluta känslig information om människor, till exempel sexuell läggning och användning av beroendeframkallande ämnen från till synes vanliga digitala spårdata (Facebook Likes) (Kosinski, Stillwell, and Graepel 2013) . Detta kanske låter magiska, men tillvägagångssättet Kosinski och kollegor använde-som kombinerar digitala spår, undersökningar och övervakas lärande-är faktiskt något som jag redan har berättat om. Minns att i kapitel 3 (ställa frågor) Jag sa ju hur Josh Blumen och kollegor (2015) kombinerade undersöknings data med mobil data telefon för att uppskatta fattigdom i Rwanda. Exakt samma tillvägagångssätt, som kan användas för att effektivt mäta fattigdom i ett utvecklingsland, kan också användas för potentiellt integritets bryter slutsatser.
Inkonsekventa lagar och normer kan leda till forskning som inte respekterar önskemål deltagare, och det kan leda till "reglerings shopping" av forskare (Grimmelmann 2015; Nickerson and Hyde 2016) . I synnerhet, vissa forskare som vill undvika IRB tillsyn har partners som inte omfattas av IRBS (t.ex. personer på företag eller icke-statliga organisationer) samla in och de-identifiera data. Sedan kan forskarna analysera denna avidentifierade data utan IRB tillsyn, åtminstone enligt vissa tolkningar av gällande regler. Denna typ av IRB undan verkar vara oförenligt med ett principbaserat synsätt.
För mer information om de inkonsekventa och heterogena idéer som folk har om hälsouppgifter, se Fiore-Gartland and Neff (2015) . För mer information om de problem som heterogenitet skapar för forskningsetiska beslut se Meyer (2013) .
En skillnad mellan analog ålder och digitala tidsåldern forskning är att i digitala tidsåldern forsknings interaktion med deltagarna är mer avlägsen. Dessa interaktioner inträffa ofta genom en mellanhand, såsom ett företag, och det är vanligtvis en stor fysikalisk-och sociala avståndet mellan forskare och deltagare. Detta avlägsen interaktion gör vissa saker som är lätta i analog ålder forskning svårt i digitala tidsåldern forskning, såsom sålla ut deltagare som kräver extra skydd, upptäcka biverkningar och sanera skada om det inträffar. Till exempel, låt oss kontrast Emotionell smitta med ett hypotetiskt lab experiment på samma ämne. I labbet experiment kunde forskarna sålla bort alla som anländer till labbet visar tydliga tecken på känslomässig stress. Vidare, om labbet experiment skapade en biverkning, skulle forskarna se det, tillhandahålla tjänster för att sanera den skada, och sedan göra justeringar i experimentella protokollet för att förhindra framtida skador. Den avlägsna karaktär interaktion i själva Emotionell smitta experiment gör var och en av dessa enkla och förnuftiga steg extremt svårt. Dessutom misstänker jag att avståndet mellan forskare och deltagare gör forskare mindre känsliga för den oro som deras deltagare.
Andra källor till inkonsekventa normer och lagar. En del av denna inkonsekvens kommer från det faktum att denna forskning sker över hela världen. Till exempel deltar Encore människor från hela världen, och därför kan det vara föremål för dataskydd och sekretesslagar i många olika länder. Vad händer om de normer som styr ansökningar från tredje part web (vad Encore gjorde) är annorlunda i Tyskland, USA, Kenya, och Kina? Vad händer om de normer är inte ens överens med ett enda land? En andra källa till inkonsekvens kommer från samarbete mellan forskare vid universitet och företag; till exempel, emotionell smitta var ett samarbete mellan en dataforskare på Facebook och en professor och doktorand vid Cornell. På Facebook är igång stora experiment rutin och, vid den tiden, inte kräver någon tredje part etisk granskning. Vid Cornell är helt olika de normer och regler; nästan alla experiment måste ses över av Cornell IRB. Så, vilken uppsättning regler bör styra Emotionell smitta-Facebooks eller Cornells?
För mer information om arbetet med att revidera den gemensamma regel, se Evans (2013) , Council (2014) , Metcalf (2016) , och Hudson and Collins (2015) .
Den klassiska principbaserad strategi för biomedicinsk etik är Beauchamp and Childress (2012) . De föreslår att fyra huvudprinciper bör vägleda biomedicinsk etik: Respekt för autonomi, Nonmaleficence, godhet och rättvisa. Principen om nonmaleficence uppmanar en att avstå från att skada andra människor. Detta koncept är djupt kopplad till hippokratiska idén om "Gör ingen skada." I forskningsetik, denna princip kombineras ofta med principen om välbefinnande, men se Beauchamp and Childress (2012) (kapitel 5) för mer information om skillnaden mellan de två . För en kritik att dessa principer är alltför amerikansk, se Holm (1995) . För mer information om balansering när principerna konflikt, se Gillon (2015) .
De fyra principerna i detta kapitel har också föreslagits att styra etisk tillsyn för forskning sker på företag och icke-statliga organisationer (Polonetsky, Tene, and Jerome 2015) genom organ som kallas "konsument Ämne Review Boards" (CSRBs) (Calo 2013) .
Förutom att respektera autonomi, Belmont rapporten erkänner också att inte varje människa är kapabel att sann självbestämmande. Till exempel barn, människor som lider av sjukdom eller människor som lever i situationer med stränga restriktioner frihet kanske inte kan agera som helt självständiga individer, och dessa människor är därför föremål för extra skydd.
Tillämpning av principen om respekt för personer i den digitala tidsåldern kan vara en utmaning. Till exempel i digitala tidsåldern forskning, kan det vara svårt att ge extra skydd för personer med nedsatt förmåga till självbestämmande eftersom forskare vet ofta mycket lite om deras deltagare. Vidare är informerat samtycke i digitala tidsåldern samhällsforskning en enorm utmaning. I vissa fall kan verkligen informerat samtycke lider öppenhet paradox (Nissenbaum 2011) , där information och förståelse är i konflikt. Ungefär, om forskarna ger fullständig information om vilken typ av datainsamling, dataanalys och metoder för datasäkerhet, kommer det att bli svårt för många deltagare att förstå. Men om forskarna ge begriplig information, kan det saknar viktig teknisk information. I medicinsk forskning i den analoga ålders den dominerande inställningen anses av Belmont Rapport-man kunde föreställa sig en läkare talar individuellt med varje deltagare för att hjälpa till att lösa öppenhet paradox. I online studier med tusentals eller miljontals människor, är en sådan ansikte mot ansikte strategi omöjlig. Ett andra problem med samtycke i den digitala tidsåldern är att i vissa studier, såsom analys av massiva databaser, skulle det vara opraktiskt att erhålla informerat samtycke från alla deltagare. Jag diskuterar dessa och andra frågor om informerat samtycke mer i detalj i avsnitt 6.6.1. Trots dessa svårigheter, men bör vi komma ihåg att informerat samtycke är varken nödvändigt eller tillräckligt för respekt för personer.
För mer information om medicinsk forskning innan informerat samtycke, se Miller (2014) . För en bok längd behandling av informerat samtycke, se Manson and O'Neill (2007) . Se även de föreslagna avläsningar om informerat samtycke nedan.
Skadeverkningar på sammanhang är den skada som forskningen kan leda inte till människor utan till sociala sammanhang. Detta koncept är lite abstrakt, men jag ska illustrera det med två exempel: en analog och en digital.
Ett klassiskt exempel på skadeverkningar på sammanhang kommer från Wichita juryn Study [ Vaughan (1967) , Katz, Capron, and Glass (1972) ; Ch 2] -. Även kallad ibland Chicago jury Project (Cornwell 2010) . I denna studie forskare från University of Chicago, som en del av en större studie om sociala aspekter av rättsväsendet, i hemlighet inspelade sex jury överläggningar i Wichita, Kansas. De domare och advokater i de fall godkänt inspelningarna, och det var strikt kontroll över processen. Men juryn var ovetande om att inspelningar inträffar. När studien upptäcktes fanns allmän upprördhet. Justitiedepartementet inledde en undersökning av studien, och forskarna kallades att vittna inför kongressen. Ytterst kongressen antagit en ny lag som gör det olagligt att i hemlighet spela in jury överläggning.
Oron för kritiker av Wichita jury studien var inte skada för deltagarna; Snarare var det skadeverkningar på ramen för juryn överläggning. Det vill säga människor trodde att om jurymedlemmar inte trodde att de hade diskussioner i en säker och skyddad plats, skulle det vara svårare för jury överläggningar för att fortsätta i framtiden. Förutom jury överläggning, det finns andra särskilda sociala sammanhang som samhället ger extra skydd, såsom advokat-kundrelationer och psykologiskt stöd (MacCarthy 2015) .
Risken för skador på sammanhang och störningar av de sociala systemen kommer också upp i vissa fältförsök i statsvetenskap (Desposato 2016b) . Ett exempel på en mer kontextkänsliga kostnadsberäkning-fördel för ett fältförsök i statsvetenskap, se Zimmerman (2016) .
Ersättning för deltagarna har diskuterats i ett antal inställningar för digitala tidsåldern forskning. Lanier (2014) föreslog att betala deltagare för digitala spår de genererar. Bederson and Quinn (2011) diskuterar betalningar i nätet arbetsmarknader. Slutligen Desposato (2016a) föreslår betalar deltagarna i fältförsök. Han påpekar att även om deltagarna inte kan betalas direkt, skulle en donation göras till en grupp som arbetar för deras räkning. Till exempel i Encore forskarna kunde ha gjort en donation till en grupp som arbetar för att främja tillgången till Internet.
Villkor-of-service avtal bör ha lägre vikt än avtal som förhandlats fram mellan jämbördiga parter och lagar som skapats av legitima regeringar. Situationer där forskare har brutit terms-of-serviceavtal i det förflutna i allmänhet innebär att använda automatiska frågor att granska företagens beteende (ungefär som fältförsök för att mäta diskriminering). För ytterligare diskussion se Vaccaro et al. (2015) , Bruckman (2016a) , Bruckman (2016b) . För ett exempel på empirisk forskning som diskuterar villkoren för tjänsten, se Soeller et al. (2016) . För mer information om de eventuella juridiska problem forskare möter om de bryter mot användarvillkor se Sandvig and Karahalios (2016) .
Självklart, har enorma mängder skrivits om Consequentialism och deontology. För ett exempel på hur dessa etiska ramar, och andra, kan användas för att resonera om digitala tidsåldern forskning, se Zevenbergen et al. (2015) . För ett exempel på hur dessa etiska ramar kan tillämpas på fältexperiment i utveckla ekonomi, se Baele (2013) .
För mer information om revisions studier av diskriminering, se Pager (2007) och Riach and Rich (2004) . Inte bara dessa studier inte har informerat samtycke, de också innebära bedrägeri utan debriefing.
Både Desposato (2016a) och Humphreys (2015) ge råd om fältförsök utan samtycke.
Sommers and Miller (2013) recensioner många argument till förmån för inte debriefing deltagarna efter bedrägeri, och hävdar att forskare bör avstå från "debriefing i en mycket snäv uppsättning omständigheter, nämligen i fältforskning där debriefing innebär betydande praktiska hinder, men forskare skulle ha inga betänkligheter debriefing om de kunde. Forskare bör inte tillåtas att avstå från debriefing för att bevara en naiv deltagare pool, skydda sig från deltagare ilska, eller skydda deltagarna från skada. "Andra hävdar att om debriefing orsakar mer skada än nytta det bör undvikas. Debriefing är ett fall där vissa forskare prioriterar respekt för personer över välbefinnande, och vissa forskare gör det motsatta. En möjlig lösning skulle vara att hitta sätt att göra debriefing en lärande upplevelse för deltagarna. Det är, istället för att tänka på debriefing som något som kan orsaka skada, kanske debriefing kan också vara något som gynnar deltagarna. För ett exempel på denna typ av utbildning debriefing, se Jagatic et al. (2007) på debriefing studenter efter en social phishing experiment. Psykologer har utvecklat metoder för att debriefing (DS Holmes 1976a; DS Holmes 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) och en del av dessa kan med fördel tillämpas på digitala tidsåldern forskning. Humphreys (2015) erbjuder intressanta tankar om uppskjuten samtycke, som är nära besläktad med den debriefing strategi som jag beskrivit.
Tanken på att ställa ett urval av deltagarna för deras samtycke är relaterad till vad Humphreys (2015) kallar antagen samtycke.
En ytterligare idé som har föreslagits relaterat till informerat samtycke är att bygga en panel av människor som accepterar att vara i online-experiment (Crawford 2014) . Vissa har hävdat att denna panel skulle vara en icke-slumpmässigt urval av människor. Men, kapitel 3 (ställa frågor) visar att dessa problem är potentiellt adresserbara med hjälp av post-stratifiering och prov matchning. Dessutom, för att samtycket på panelen kan omfatta en mängd olika experiment. Med andra ord, kan deltagarna inte behöver ge sitt samtycke till varje försök individuellt, en så kallad koncept bred samtycke (Sheehan 2011) .
Långt ifrån unik, visar Netflix priset en viktig teknisk egenskap av datamängder som innehåller detaljerad information om personer, och därmed ger viktiga lärdomar om möjligheten att "anonymisering" av moderna sociala datamängder. Filer med många bitar av information om varje person kommer sannolikt att vara sparsam, i den mening som definieras formellt i Narayanan and Shmatikov (2008) . Det är, för varje post finns det inga poster som är densamma, och i själva verket finns det inga poster som är väldigt lika: varje person är långt borta från sin närmaste granne i datamängden. Man kan föreställa sig att Netflix uppgifterna kan vara gles eftersom med ca 20.000 filmer på ett 5-stjärnigt skala, det finns cirka \ (6 ^ {20.000} \) möjliga värden att varje person kan ha (6 eftersom utöver en till fem stjärnor , någon kanske inte betygsatt filmen alls). Detta antal är så stort, att det är svårt att ens förstå.
Gleshet har två huvudsakliga konsekvenser. För det första innebär det att alla försök att "anonymisera" dataset bygger på slumpmässigt störning kommer troligen att misslyckas. Det vill säga, även om Netflix skulle slumpmässigt justera några av de betyg (som de gjorde), skulle detta inte vara tillräcklig, eftersom den störda rekord är fortfarande närmast möjliga posten till den information som angriparen har. För det andra innebär den gleshet att de-anonymisering är möjlig även om angriparen har ofullständig eller opartisk kunskap. Till exempel i Netflix uppgifter, låt oss föreställa oss angriparen vet dina betyg för två filmer och de datum du gjorde dessa betyg +/- 3 dagar; bara att informationen enbart är tillräcklig för att identifiera 68% av människor i Netflix data. Om angriparna vet 8 filmer som du har betygsatt +/- 14 dagar, så även om två av dessa kända betyg är helt fel, 99% av register kan vara identifieras i datamängden. Med andra ord är gleshet ett grundläggande problem för arbetet med att "anonymisera" data, vilket är olyckligt eftersom de flesta moderna sociala dataset är gles.
Telefon metadata också kan tyckas vara "anonym" och inte känslig, men det är inte fallet. Telefon metadata är identifierbar och känslig (Mayer, Mutchler, and Mitchell 2016; Landau 2016) .
I Figur 6.6, jag skissade en avvägning mellan risk för deltagarna och förmåner till forskning från data release. För en jämförelse mellan begränsade åtkomstmetoder (t.ex. en muromgärdad trädgård) och begränsad uppgifts metoder (t.ex. någon form av anonymisering) se Reiter and Kinney (2011) . För en föreslagen kategoriseringssystem av risknivåer data, se Sweeney, Crosas, and Bar-Sinai (2015) . Slutligen, för en mer allmän diskussion om datadelning, se Yakowitz (2011) .
För mer detaljerad analys av denna avvägning mellan risk och nytta av data, se Brickell and Shmatikov (2008) , Ohm (2010) , Wu (2013) , Reiter (2012) , och Goroff (2015) . Att se denna avvägning tillämpas på verkliga data från massivt öppna online-kurser (MOOCs), se Daries et al. (2014) och Angiuli, Blitzstein, and Waldo (2015) .
Differential integritet erbjuder också en alternativ metod som kan kombinera både hög samhällsnytta och låg risk för deltagarna, se Dwork and Roth (2014) och Narayanan, Huey, and Felten (2016) .
För mer information om begreppet personligt identifierbar information (PII), som är central för många av de regler om forskningsetik, se Narayanan and Shmatikov (2010) och Schwartz and Solove (2011) . För mer information om alla data som potentiellt känsliga, se Ohm (2015) .
I detta avsnitt har jag beskrivit kopplingen mellan olika datamängder som något som kan leda till informations risk. Det kan dock också skapa nya möjligheter för forskning, som hävdade i Currie (2013) .
För mer information om de fem kassaskåp, se Desai, Ritchie, and Welpton (2016) . För ett exempel på hur utgångar kan identifiera, se Brownstein, Cassa, and Mandl (2006) , som visar hur kartor över sjukdomsförekomst kan identifiera. Dwork et al. (2017) anser också attacker mot aggregerade data, såsom statistik om hur många individer har en viss sjukdom.
Warren and Brandeis (1890) är ett landmärke rättslig artikel om sekretess, och artikeln är mest förknippad med tanken att den personliga integriteten är en rätt att vara ifred. Mer nyligen bok längd behandlingar av sekretess som jag skulle rekommendera inkluderar Solove (2010) och Nissenbaum (2010) .
För en översikt av empirisk forskning om hur människor tänker om sekretess, se Acquisti, Brandimarte, and Loewenstein (2015) . Tidskriften Science publicerade en specialutgåva med titeln "The End of Privacy", som tar upp frågor om integritet och riskinformation från en mängd olika perspektiv; för en sammanfattning se Enserink and Chin (2015) . Calo (2011) erbjuder ett ramverk för att tänka på de skador som kommer från kränkningar av privatlivet. Ett tidigt exempel på oro om sekretess i allra första början av den digitala tidsåldern är Packard (1964) .
En utmaning när man försöker att tillämpa minimal risk standarden är att det är oklart vars dagliga livet ska användas för benchmarking (Council 2014) . Till exempel hemlösa har högre nivåer av obehag i det dagliga livet. Men det innebär inte att det är etiskt tillåtet att utsätta hemlösa till högre forskning risk. Av denna anledning, det verkar finnas en växande enighet om att minimal risk bör bedömas utifrån en allmän population standard, inte en specifik population standard. Även om jag håller i allmänhet med idén om en allmän population standard, jag tror att för stora online-plattformar som Facebook, är rimlig en specifik population standard. Det vill säga, när man överväger Emotionell smitta, jag tror att det är rimligt att jämföra mot vardags risk på Facebook. En specifik population standard i det här fallet är mycket lättare att utvärdera och det är osannolikt att strida mot principen om rättvisa, som syftar till att förhindra att bördan av forskning inte orättvist på missgynnade grupper (t.ex. fångar och föräldralösa).
Andra forskare har också krävt mer papper att inkludera etiska bilagor (Schultze and Mason 2012; Kosinski et al. 2015) . King and Sands (2015) erbjuder också praktiska tips.