L'etica della ricerca ha tradizionalmente incluso anche argomenti come la frode scientifica e l'allocazione del credito. Questi sono discussi in modo più dettagliato in On Being a Scientist di Institute of Medicine and National Academy of Sciences and National Academy of Engineering (2009) .
Questo capitolo è fortemente influenzato dalla situazione negli Stati Uniti. Per ulteriori informazioni sulle procedure di revisione etica in altri paesi, consultare i capitoli 6-9 di Desposato (2016b) . Per un argomento che i principi etici biomedici che hanno influenzato questo capitolo sono eccessivamente americani, vedi Holm (1995) . Per un'ulteriore revisione storica degli organi istituzionali di revisione negli Stati Uniti, vedi Stark (2012) . La rivista PS: Political Science and Politics ha tenuto un simposio professionale sulla relazione tra politologi e IRB; vedi Martinez-Ebers (2016) per un riassunto.
Il Rapporto di Belmont e i successivi regolamenti negli Stati Uniti tendono a fare una distinzione tra ricerca e pratica. Non ho fatto una tale distinzione in questo capitolo perché penso che i principi e le strutture etiche si applichino a entrambe le impostazioni. Per ulteriori informazioni su questa distinzione e sui problemi che presenta, vedi Beauchamp and Saghai (2012) , MN Meyer (2015) , boyd (2016) e Metcalf and Crawford (2016) .
Per ulteriori informazioni sulla supervisione della ricerca su Facebook, vedi Jackman and Kanerva (2016) . Per idee sulla supervisione della ricerca presso aziende e ONG, vedi Calo (2013) , Polonetsky, Tene, and Jerome (2015) , e Tene and Polonetsky (2016) .
In relazione all'uso dei dati dei telefoni cellulari per contribuire a far fronte all'epidemia di Ebola del 2014 in Africa occidentale (Wesolowski et al. 2014; McDonald 2016) , per ulteriori informazioni sui rischi per la privacy dei dati dei telefoni cellulari, vedi Mayer, Mutchler, and Mitchell (2016) . Per esempi di precedenti ricerche relative alla crisi che utilizzano dati di telefonia mobile, vedi Bengtsson et al. (2011) e Lu, Bengtsson, and Holme (2012) , e per ulteriori informazioni sull'etica della ricerca connessa alla crisi, vedi ( ??? ) .
Molte persone hanno scritto sul contagio emotivo. La rivista Research Ethics ha dedicato il suo intero numero nel gennaio 2016 alla discussione dell'esperimento; vedi Hunter and Evans (2016) per una panoramica. Gli Atti delle National Academics of Science hanno pubblicato due pezzi sull'esperimento: Kahn, Vayena, and Mastroianni (2014) e Fiske and Hauser (2014) . Altri pezzi dell'esperimento includono: Puschmann and Bozdag (2014) , Meyer (2014) , Grimmelmann (2015) , MN Meyer (2015) , ( ??? ) , Kleinsman and Buckley (2015) , Shaw (2015) , e ( ??? ) .
In termini di sorveglianza di massa, vengono fornite ampie panoramiche a Mayer-Schönberger (2009) e Marx (2016) . Per un esempio concreto dei costi variabili della sorveglianza, Bankston and Soltani (2013) stimano che il rilevamento di un criminale sospetto che utilizza telefoni cellulari sia circa 50 volte più economico rispetto all'utilizzo della sorveglianza fisica. Vedi anche Ajunwa, Crawford, and Schultz (2016) per una discussione sulla sorveglianza sul lavoro. Bell and Gemmell (2009) forniscono una prospettiva più ottimistica sull'auto-sorveglianza.
Oltre a essere in grado di tracciare un comportamento osservabile pubblico o parzialmente pubblico (ad esempio, Tastes, Ties e Time), i ricercatori possono sempre più dedurre cose che molti partecipanti considerano private. Ad esempio, Michal Kosinski e colleghi (2013) hanno dimostrato di poter dedurre informazioni sensibili su persone, come l'orientamento sessuale e l'uso di sostanze che creano dipendenza, da dati apparentemente ordinari sulla traccia digitale (Facebook Mi piace). Questo potrebbe sembrare magico, ma l'approccio usato da Kosinski e dai suoi colleghi - che combinano tracce digitali, sondaggi e apprendimento supervisionato - è in realtà qualcosa di cui ti ho già parlato. Ricordiamolo nel capitolo 3 (porre domande). Vi ho raccontato come Joshua Blumenstock e colleghi (2015) combinato i dati dei sondaggi con i dati dei telefoni cellulari per stimare la povertà in Ruanda. Questo stesso identico approccio, che può essere utilizzato per misurare efficacemente la povertà in un paese in via di sviluppo, può anche essere utilizzato per inferenze potenzialmente violente della privacy.
Per ulteriori informazioni sui possibili usi secondari non intenzionali dei dati sulla salute, vedere O'Doherty et al. (2016) . Oltre al potenziale per usi secondari non previsti, la creazione di un master database incompleto potrebbe avere un effetto raggelante sulla vita sociale e politica se le persone non fossero riluttanti a leggere determinati materiali o discutere determinati argomenti; vedi Schauer (1978) e Penney (2016) .
In situazioni con regole sovrapposte, i ricercatori a volte si dedicano allo "shopping normativo" (Grimmelmann 2015; Nickerson and Hyde 2016) . In particolare, alcuni ricercatori che desiderano evitare la supervisione dell'IRB possono costituire partenariati con ricercatori che non sono coperti da IRB (ad esempio, persone presso aziende o ONG) e hanno i colleghi che raccolgono e de-identificano i dati. Quindi, il ricercatore coperto dall'IRB può analizzare questi dati deidentificati senza la supervisione dell'IRB perché la ricerca non è più considerata "ricerca sui soggetti umani", almeno secondo alcune interpretazioni delle regole attuali. Questo tipo di evasione IRB probabilmente non è coerente con un approccio basato sui principi per l'etica della ricerca.
Nel 2011, è iniziato uno sforzo per aggiornare la Common Rule e questo processo è stato finalmente completato nel 2017 ( ??? ) . Per ulteriori informazioni su questi sforzi per aggiornare la Common Rule, vedere Evans (2013) , National Research Council (2014) , Hudson and Collins (2015) e Metcalf (2016) .
Il classico approccio basato sui principi dell'etica biomedica è quello di Beauchamp and Childress (2012) . Propongono che quattro principi principali debbano guidare l'etica biomedica: rispetto per l'autonomia, la non mortalità, la beneficenza e la giustizia. Il principio di non maleducazione esorta a astenersi dal causare danni ad altre persone. Questo concetto è profondamente connesso all'idea ippocratica di "Non danneggiare". Nell'etica della ricerca, questo principio è spesso combinato con il principio di Beneficenza, ma si veda il capitolo 5 di @ beauchamp_principles_2012 per ulteriori informazioni sulla distinzione tra i due. Per una critica che questi principi siano eccessivamente americani, vedi Holm (1995) . Per saperne di più sul bilanciamento quando i principi Gillon (2015) conflitto, vedi Gillon (2015) .
I quattro principi di questo capitolo sono stati proposti per guidare la supervisione etica per la ricerca condotta presso aziende e ONG (Polonetsky, Tene, and Jerome 2015) attraverso organismi denominati "Consumer Subject Review Boards" (CSRB) (Calo 2013) .
Oltre al rispetto dell'autonomia, il Rapporto di Belmont riconosce anche che non tutti gli esseri umani sono capaci di un'autodeterminazione vera. Ad esempio, i bambini, le persone che soffrono di malattie o le persone che vivono in situazioni di libertà gravemente limitata potrebbero non essere in grado di agire come individui completamente autonomi e queste persone sono quindi soggette a una protezione extra.
Applicare il principio del rispetto per le persone nell'era digitale può essere difficile. Ad esempio, nella ricerca sull'era digitale, può essere difficile fornire protezioni extra per le persone con ridotta capacità di autodeterminazione perché i ricercatori spesso sanno molto poco dei loro partecipanti. Inoltre, il consenso informato nella ricerca sociale sull'era digitale è una grande sfida. In alcuni casi, il consenso veramente informato può risentire del paradosso della trasparenza (Nissenbaum 2011) , in cui l' informazione e la comprensione sono in conflitto. Approssimativamente, se i ricercatori forniscono informazioni complete sulla natura della raccolta di dati, analisi dei dati e pratiche di sicurezza dei dati, per molti partecipanti sarà difficile da comprendere. Ma se i ricercatori forniscono informazioni comprensibili, potrebbero mancare dettagli tecnici importanti. Nella ricerca medica nell'era analogica - l'impostazione dominante considerata dal Rapporto Belmont - si potrebbe immaginare un medico che parla individualmente con ciascun partecipante per contribuire a risolvere il paradosso della trasparenza. Negli studi online che coinvolgono migliaia o milioni di persone, un simile approccio faccia a faccia è impossibile. Un secondo problema con il consenso nell'era digitale è che in alcuni studi, come le analisi di enormi archivi di dati, sarebbe poco pratico ottenere il consenso informato di tutti i partecipanti. Discuto queste e altre domande sul consenso informato in modo più dettagliato nella sezione 6.6.1. Nonostante queste difficoltà, tuttavia, dovremmo ricordare che il consenso informato non è né necessario né sufficiente per il rispetto delle persone.
Per ulteriori informazioni sulla ricerca medica prima del consenso informato, vedi Miller (2014) . Per una trattazione approfondita del consenso informato, vedi Manson and O'Neill (2007) . Vedi anche le letture suggerite sul consenso informato di seguito.
I danni al contesto sono i danni che la ricerca può causare non a persone specifiche ma a contesti sociali. Questo concetto è un po 'astratto, ma illustrerò con un esempio classico: lo studio della giuria di Wichita (Vaughan 1967; Katz, Capron, and Glass 1972, chap. 2) talvolta anche chiamato Chicago Jury Project (Cornwell 2010) . In questo studio, i ricercatori dell'Università di Chicago, come parte di un più ampio studio sugli aspetti sociali del sistema legale, registrarono segretamente sei deliberazioni della giuria a Wichita, nel Kansas. I giudici e gli avvocati dei casi avevano approvato le registrazioni e vi era una stretta supervisione del processo. Tuttavia, i giurati non erano a conoscenza del fatto che fossero in corso registrazioni. Una volta che lo studio fu scoperto, ci fu un oltraggio pubblico. Il Dipartimento di Giustizia ha iniziato un'indagine sullo studio e i ricercatori sono stati chiamati a testimoniare di fronte al Congresso. In definitiva, il Congresso ha approvato una nuova legge che rende illegale registrare segretamente la deliberazione della giuria.
La preoccupazione dei critici dello studio della giuria di Wichita non era il rischio di danneggiare i partecipanti; piuttosto, era il rischio di danneggiare il contesto della deliberazione della giuria. Cioè, la gente pensava che se i membri della giuria non avessero creduto che stessero avendo discussioni in uno spazio sicuro e protetto, sarebbe stato più difficile per le deliberazioni della giuria procedere in futuro. Oltre alla deliberazione della giuria, ci sono altri specifici contesti sociali che la società fornisce una protezione extra, come le relazioni avvocato-cliente e assistenza psicologica (MacCarthy 2015) .
Il rischio di danni al contesto e alla rottura dei sistemi sociali si pone anche in alcuni esperimenti sul campo in scienze politiche (Desposato 2016b) . Per un esempio di un calcolo costi-benefici più sensibile al contesto per un esperimento sul campo in scienze politiche, vedi Zimmerman (2016) .
Il risarcimento per i partecipanti è stato discusso in una serie di impostazioni relative alla ricerca sull'età digitale. Lanier (2014) propone ai partecipanti paganti le tracce digitali che generano. Bederson and Quinn (2011) discutono i pagamenti nei mercati del lavoro online. Infine, Desposato (2016a) propone partecipanti paganti in esperimenti sul campo. Sottolinea che anche se i partecipanti non possono essere pagati direttamente, una donazione potrebbe essere fatta a un gruppo che lavora per loro conto. Ad esempio, in Encore, i ricercatori avrebbero potuto fare una donazione a un gruppo che lavora per supportare l'accesso a Internet.
Gli accordi sui termini di servizio dovrebbero avere meno peso dei contratti negoziati tra parti uguali e delle leggi create da governi legittimi. Le situazioni in cui i ricercatori hanno violato gli accordi sui termini di servizio in passato hanno generalmente comportato l'utilizzo di query automatizzate per verificare il comportamento delle aziende (in modo simile agli esperimenti sul campo per misurare la discriminazione). Per ulteriori discussioni, vedi Vaccaro et al. (2015) , Bruckman (2016a) e Bruckman (2016b) . Per un esempio di ricerca empirica che discute i termini di servizio, vedi Soeller et al. (2016) . Per ulteriori informazioni sui possibili problemi legali che i ricercatori devono affrontare se violano i termini di servizio, vedi Sandvig and Karahalios (2016) .
Ovviamente, è stata scritta un'enorme quantità di consequenzialismo e deontologia. Per un esempio di come questi schemi etici, e altri, possano essere usati per ragionare sulla ricerca Zevenbergen et al. (2015) digitale, vedi Zevenbergen et al. (2015) . Per un esempio di come possono essere applicati agli esperimenti sul campo nell'economia dello sviluppo, vedi Baele (2013) .
Per ulteriori informazioni sugli studi di audit sulla discriminazione, vedi Pager (2007) e Riach and Rich (2004) . Non solo questi studi non hanno il consenso informato, ma coinvolgono anche l'inganno senza debriefing.
Sia Desposato (2016a) che Humphreys (2015) offrono consigli sugli esperimenti sul campo senza consenso.
Sommers and Miller (2013) esaminano molti argomenti a favore di non interrogare i partecipanti dopo l'inganno e sostengono che i ricercatori dovrebbero rinunciare al debriefing
"In una serie molto ristretta di circostanze, vale a dire, nella ricerca sul campo in cui il debriefing pone notevoli ostacoli pratici, ma i ricercatori non avrebbero alcun scrupolo nel debriefing se potessero. Ai ricercatori non dovrebbe essere permesso di rinunciare al debriefing al fine di preservare un ingenuo pool di partecipanti, proteggersi dalla rabbia dei partecipanti o proteggere i partecipanti da eventuali danni. "
Altri sostengono che in alcune situazioni, se il debriefing provoca più danni che benefici, dovrebbe essere evitato (Finn and Jakobsson 2007) . Il debriefing è un caso in cui alcuni ricercatori danno priorità al rispetto per le persone oltre il beneficio, mentre alcuni ricercatori fanno il contrario. Una possibile soluzione sarebbe trovare i modi per rendere il debriefing un'esperienza di apprendimento per i partecipanti. Cioè, piuttosto che pensare al debriefing come qualcosa che può causare danni, forse il debriefing può anche essere qualcosa a beneficio dei partecipanti. Per un esempio di questo tipo di debriefing educativo, vedi Jagatic et al. (2007) . Gli psicologi hanno sviluppato tecniche per il debriefing (DS Holmes 1976a, 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) , e alcune di queste possono essere utilmente applicate alla ricerca (DS Holmes 1976a, 1976b; Mills 1976; Baumrind 1985; Oczak and Niedźwieńska 2007) digitale. Humphreys (2015) offre interessanti riflessioni sul consenso differito , che è strettamente correlato alla strategia di debriefing che ho descritto.
L'idea di chiedere un campione di partecipanti per il loro consenso è legata a ciò che Humphreys (2015) chiama il consenso inferito .
Un'ulteriore idea relativa al consenso informato che è stato proposto è quella di costruire un gruppo di persone che accettano di essere in esperimenti online (Crawford 2014) . Alcuni hanno sostenuto che questo pannello sarebbe un campione non casuale di persone. Ma il capitolo 3 (porre domande) mostra che questi problemi sono potenzialmente indirizzabili mediante la post-stratificazione. Inoltre, il consenso a partecipare al panel potrebbe coprire una serie di esperimenti. In altre parole, i partecipanti potrebbero non aver bisogno di consentire a ciascun esperimento individualmente, un concetto chiamato consenso ampio (Sheehan 2011) . Per ulteriori informazioni sulle differenze tra il consenso e il consenso di una volta per ogni studio, nonché un possibile ibrido, vedere Hutton and Henderson (2015) .
Lungi dall'essere unico, il Premio Netflix illustra un'importante proprietà tecnica dei set di dati che contengono informazioni dettagliate sulle persone e offre quindi importanti lezioni sulla possibilità di "anonimizzazione" dei moderni set di dati sociali. File con molte informazioni su ciascuna persona sono probabilmente scarsi , nel senso definito formalmente in Narayanan and Shmatikov (2008) . Cioè, per ogni record, non ci sono record uguali, e in effetti non ci sono record che sono molto simili: ogni persona è lontana dal suo vicino più vicino nel set di dati. Si può immaginare che i dati di Netflix potrebbero essere sparsi perché con circa 20.000 film su una scala a cinque stelle ci sono circa \(6^{20,000}\) valori possibili che ogni persona potrebbe avere (6 perché, oltre a 1 a 5 stelle, qualcuno potrebbe non aver valutato il film affatto). Questo numero è così grande, difficile da comprendere.
Sparsity ha due principali implicazioni. In primo luogo, significa che il tentativo di "anonimizzare" il set di dati basato su perturbazioni casuali fallirà probabilmente. Cioè, anche se Netflix dovesse aggiustare casualmente alcuni dei rating (che hanno fatto), ciò non sarebbe sufficiente perché il record perturbato è ancora il record più vicino possibile alle informazioni che l'hacker ha. Secondo, la scarsità significa che la reidentificazione è possibile anche se l'attaccante ha una conoscenza imperfetta o imparziale. Ad esempio, nei dati di Netflix, immaginiamo che l'attaccante conosca le tue valutazioni per due film e le date in cui hai effettuato tali valutazioni \(\pm\) 3 giorni; solo queste informazioni sono sufficienti per identificare in modo univoco il 68% delle persone nei dati di Netflix. Se l'hacker conosce otto film che hai valutato \(\pm\) 14 giorni, anche se due di questi valori noti sono completamente errati, il 99% dei record può essere identificato in modo univoco nel set di dati. In altre parole, la scarsità è un problema fondamentale per gli sforzi di "anonimizzare" i dati, il che è spiacevole perché la maggior parte dei moderni dataset sociali è scarna. Per ulteriori informazioni Narayanan and Shmatikov (2008) di dati sparsi, vedi Narayanan and Shmatikov (2008) .
Anche i metadati telefonici potrebbero sembrare "anonimi" e non sensibili, ma non è così. I metadati telefonici sono identificabili e sensibili (Mayer, Mutchler, and Mitchell 2016; Landau 2016) .
Nella figura 6.6, ho delineato un trade-off tra il rischio per i partecipanti e i benefici per la società dal rilascio dei dati. Per un confronto tra approcci ad accesso limitato (ad esempio, un giardino recintato) e approcci dati ristretti (ad esempio, una forma di "anonimizzazione") vedi Reiter and Kinney (2011) . Per un sistema di categorizzazione proposto di livelli di rischio di dati, vedi Sweeney, Crosas, and Bar-Sinai (2015) . Per una discussione più generale sulla condivisione dei dati, vedere Yakowitz (2011) .
Per un'analisi più dettagliata di questo trade-off tra il rischio e l'utilità dei dati, vedere Brickell and Shmatikov (2008) , Ohm (2010) , Reiter (2012) , Wu (2013) e Goroff (2015) . Per vedere questo trade-off applicato ai dati reali da massicci corsi online aperti (MOOC), vedi Daries et al. (2014) e Angiuli, Blitzstein, and Waldo (2015) .
La privacy differenziale offre anche un approccio alternativo che può combinare sia un basso rischio per i partecipanti che un alto beneficio per la società; vedi Dwork and Roth (2014) e Narayanan, Huey, and Felten (2016) .
Per ulteriori informazioni sul concetto di identificazione personale (PII), che è fondamentale per molte delle regole sull'etica della ricerca, vedi Narayanan and Shmatikov (2010) e Schwartz and Solove (2011) . Per ulteriori informazioni su tutti i dati potenzialmente sensibili, consultare Ohm (2015) .
In questa sezione, ho ritratto il collegamento di diversi dataset come qualcosa che può portare a rischio informativo. Tuttavia, può anche creare nuove opportunità per la ricerca, come sostenuto in Currie (2013) .
Per ulteriori informazioni sulle cinque casseforti, vedi Desai, Ritchie, and Welpton (2016) . Per un esempio di come gli output possono essere identificati, vedi Brownstein, Cassa, and Mandl (2006) , che mostra come le mappe di prevalenza della malattia possono essere identificate. Dwork et al. (2017) considerano anche gli attacchi contro i dati aggregati, come le statistiche su quante persone hanno una certa malattia.
Le domande sull'uso dei dati e sulla divulgazione dei dati sollevano anche domande sulla proprietà dei dati. Per ulteriori informazioni sulla proprietà dei dati, vedere Evans (2011) e Pentland (2012) .
Warren and Brandeis (1890) è un importante articolo legale sulla privacy ed è maggiormente associato all'idea che la privacy sia un diritto di essere lasciati soli. Trattamenti di privacy a libro che raccomanderei includono Solove (2010) e Nissenbaum (2010) .
Per una revisione della ricerca empirica su come le persone pensano alla privacy, vedi Acquisti, Brandimarte, and Loewenstein (2015) . Phelan, Lampe, and Resnick (2016) propongono una teoria del doppio sistema - che le persone a volte si concentrano su preoccupazioni intuitive e talvolta si concentrano su preoccupazioni considerate - per spiegare come le persone possono fare dichiarazioni apparentemente contraddittorie sulla privacy. Per ulteriori informazioni sull'idea di privacy nelle impostazioni online come Twitter, vedere Neuhaus and Webmoor (2012) .
La rivista Science ha pubblicato una sezione speciale intitolata "The End of Privacy", che affronta le questioni di privacy e rischio informativo da una varietà di differenti prospettive; per un riassunto, vedi Enserink and Chin (2015) . Calo (2011) offre un quadro per riflettere sui danni derivanti dalle violazioni della privacy. Un primo esempio di preoccupazione sulla privacy agli inizi dell'era digitale è Packard (1964) .
Una sfida quando si tenta di applicare lo standard minimo di rischio è che non è chiaro la cui vita quotidiana deve essere utilizzata per l'analisi comparativa (National Research Council 2014) . Ad esempio, i senzatetto hanno livelli più elevati di disagio nella loro vita quotidiana. Ma ciò non implica che sia eticamente ammissibile esporre i senzatetto alla ricerca ad alto rischio. Per questo motivo, sembra esserci un consenso crescente sul fatto che il rischio minimo dovrebbe essere confrontato con uno standard generale della popolazione , non uno standard di popolazione specifica. Mentre in generale sono d'accordo con l'idea di uno standard di popolazione generale, penso che per le grandi piattaforme online come Facebook, uno standard di popolazione specifica sia ragionevole. Quindi, quando si considera il Contagio emotivo, penso che sia ragionevole confrontarsi con il rischio quotidiano su Facebook. Uno standard per la popolazione specifica in questo caso è molto più facile da valutare ed è improbabile che sia in conflitto con il principio di Giustizia, che cerca di impedire che gli oneri di ricerca falliscano ingiustamente sui gruppi svantaggiati (ad esempio, prigionieri e orfani).
Altri studiosi hanno anche richiesto ulteriori documenti per includere appendici etiche (Schultze and Mason 2012; Kosinski et al. 2015; Partridge and Allman 2016) . King and Sands (2015) offre anche consigli pratici. Zook e colleghi (2017) offrono "dieci semplici regole per la ricerca responsabile dei big data".