Rischio L'informazione è il rischio più comune nella ricerca sociale; esso è aumentato drammaticamente; ed è il rischio più difficile da capire.
La seconda sfida etica per la ricerca digitale età sociale è il rischio informativo, il potenziale di danno dalla divulgazione di informazioni (Council 2014) . danni informative dalla divulgazione di informazioni personali potrebbero essere economica (ad esempio, la perdita di un posto di lavoro), sociali (per esempio, l'imbarazzo), psicologico (ad esempio, depressione), o anche penale (ad esempio, l'arresto per il comportamento illegale). Purtroppo, l'era digitale aumenta il rischio di informazioni drammaticamente-c'è solo molto di più informazioni sul nostro comportamento. E, rischio informativo si è dimostrato molto difficile da comprendere e gestire rispetto ai rischi che erano le preoccupazioni in età analogico ricerca sociale, come il rischio fisico. Per vedere come l'era digitale aumenta il rischio informativo, prendere in considerazione il passaggio dalla carta al cartelle cliniche elettroniche. Entrambi i tipi di record creano rischio, ma i record elettronici creano rischi molto maggiori, perché in larga scala che possono essere trasmessi a un utente non autorizzato o fuse con altre registrazioni. ricercatori sociale nell'era digitale hanno già eseguito nei guai con il rischio informativo, in parte perché non comprendere appieno come quantificare e gestire esso. Così, ho intenzione di offrire un modo utile di pensare a rischio informativo, e quindi ho intenzione di darvi qualche consiglio su come gestire il rischio informativo nella ricerca e nel rilascio di dati ad altri ricercatori.
Un modo che i ricercatori sociali diminuiscono il rischio informativo è "anonima" di dati. "Anonimizzazione" è il processo di rimozione di identificatori personali evidenti, come nome, indirizzo, numero di telefono e dai dati. Tuttavia, questo approccio è molto meno efficace di quanto si pensi, ed è, infatti, profondamente e fondamentalmente limitata. Per questo motivo, ogni volta che ho descritto "anonima", io uso le virgolette per ricordare che questo processo crea l'aspetto di anonimato, ma non è vero anonimato.
Un chiaro esempio del fallimento del "anonima" deriva dalla fine degli anni 1990 in Massachusetts (Sweeney 2002) . La Commissione Insurance Group (GIC) è stato un agenzia governativa responsabile per l'acquisto di assicurazione sanitaria per tutti i dipendenti statali. Attraverso questo lavoro, il GIC ha raccolto le cartelle cliniche dettagliate su migliaia di dipendenti statali. Nel tentativo di stimolare la ricerca di modi per migliorare la salute, GIC ha deciso di rilasciare questi record per i ricercatori. Tuttavia, essi non condividono tutti i loro dati; piuttosto, "anonimi" rimuovendo informazioni quali nome e l'indirizzo. Tuttavia, hanno lasciato altre informazioni che hanno pensato che potrebbe essere utile per i ricercatori come le informazioni demografiche (CAP, data di nascita, etnia, sesso) e le informazioni mediche (dati visita, la diagnosi, procedura) (Figura 6.4) (Ohm 2010) . Purtroppo, questa "anonima" non era sufficiente per proteggere i dati.
Per illustrare le carenze del "anonima" GIC, Latanya Sweeney, allora uno studente laureato alla MIT-pagato $ 20 a acquisire le registrazioni di voto della città di Cambridge, la città natale di governatore del Massachusetts William Weld. Questi record di voto comprese informazioni quali nome, indirizzo, codice postale, data di nascita e sesso. Il fatto che la cartella clinica di dati e il codice di campi-Zip File elettore condiviso, data di nascita e sesso ha fatto sì che Sweeney li potrebbe collegarsi. Sweeney sapeva che il compleanno di Weld era il 31 luglio 1945 e le registrazioni di voto compresa solo sei persone a Cambridge con quel compleanno. Inoltre, di queste sei persone, solo tre erano di sesso maschile. E, di questi tre uomini, un solo condiviso codice di avviamento postale di saldatura. Pertanto, i dati di voto hanno dimostrato che chiunque nel dati medici con la combinazione di saldatura della data di nascita, sesso, e il codice postale è stato William Weld. In sostanza, questi tre informazioni fornite un'impronta digitale unica per lui nei dati. Usando questo fatto, Sweeney è stato in grado di individuare le cartelle cliniche di saldatura, e per informarlo della sua impresa, lo inviato una copia dei suoi dischi (Ohm 2010) .
Il lavoro di Sweeney illustra la struttura di base degli attacchi di de-anonimizzazione -per adottare un termine da parte della comunità della sicurezza informatica. In questi attacchi, due insiemi di dati, nessuno dei quali di per sé rivela informazioni riservate, sono collegati, e attraverso questo collegamento, le informazioni sensibili è esposto. In un certo senso questo processo è simile al modo in cui la soda e aceto, due sostanze che sono di per sé sicuri cottura, possono essere combinati per produrre un risultato brutto.
In risposta al lavoro di Sweeney, e di altre attività collegate, i ricercatori ora rimuovono generalmente molto più informazioni, tutti i cosiddetti "informazioni di identificazione personale" (PII) (Narayanan and Shmatikov 2010) -durante il processo di "trasformazione in forma anonima." Inoltre, molti ricercatori ora rendersi conto che alcuni dati, ad esempio le cartelle cliniche, dati finanziari, le risposte alle domande su un'indagine illegale comportamento è probabilmente troppo sensibile per liberare anche dopo "anonima". Tuttavia, gli esempi più recenti che io descrivo qui di seguito indicano che i ricercatori sociali devono cambiare il loro modo di pensare. Come primo passo, è saggio pensare che tutti i dati sono potenzialmente identificabile e tutti i dati sono potenzialmente sensibili. In altre parole, invece di pensare che il rischio informativo applica a un piccolo sottoinsieme di progetti, dovremmo supporre che si applica a una certa misura a tutti i progetti.
Entrambi gli aspetti di questa ri-orientamento sono illustrate dal Premio Netflix. Come descritto nel capitolo 5, Netflix rilasciato 100 milioni di feedback di film forniti da quasi 500.000 membri, e ha avuto un invito aperto in cui persone provenienti da tutto il mondo hanno presentato algoritmi in grado di migliorare la capacità di Netflix di raccomandare film. Prima di rilasciare i dati, Netflix ha rimosso i dati, ovviamente, identificazione personale, come ad esempio i nomi. Netflix è andato anche un passo in più e ha introdotto lievi perturbazioni in alcuni dei record (ad esempio, cambiando alcuni feedback da 4 stelle a 3 stelle). Netflix presto scoperto, però, che, nonostante i loro sforzi, i dati erano affatto anonimi.
Appena due settimane dopo che i dati sono stati rilasciati Narayanan and Shmatikov (2008) hanno dimostrato che era possibile conoscere le preferenze di film specifiche delle persone. Il trucco per il loro attacco ri-identificazione era simile a Sweeney di: fondere insieme due fonti di informazione, una con le informazioni potenzialmente sensibili e nessuna informazione, ovviamente, l'identificazione e uno che contiene l'identità delle persone. Ognuna di queste fonti di dati può essere sicuro singolarmente, ma quando si combinano il set di dati risultante dalla fusione può creare rischio informativo. Nel caso dei dati Netflix, ecco come potrebbe accadere. Immaginate che ho scelto di condividere i miei pensieri su azione e film commedia con i miei collaboratori, ma che io preferisco non condividere la mia opinione su di film religiosi e politici. I miei colleghi potrebbero utilizzare le informazioni che ho condiviso con loro per trovare i miei record nei dati di Netflix; le informazioni che condivido potrebbe essere un impronta digitale unica, proprio come William Weld data di nascita, codice postale, e il sesso. Poi, se trovano la mia impronta digitale unica nei dati, potrebbero imparare le mie valutazioni su tutti i film, tra cui film in cui ho scelto di non condividere. Oltre a questo tipo di attacco mirato concentrato su una sola persona, Narayanan and Shmatikov (2008) hanno inoltre dimostrato che era possibile fare un ampio -uno attacco che coinvolge molte persone, unendo i dati di Netflix con i dati di rating personali e di film che un po ' persone hanno scelto di pubblicare su Internet Movie Database (IMDb). Tutte le informazioni che è impronta digitale unica ad una specifica persona, anche il loro set di film rating a può essere usato per identificarli.
Anche se i dati di Netflix possono essere ri-identificati sia in un attacco mirato o larga, ancora potrebbe sembrare basso rischio. Dopo tutto, i rating dei film non sembrano molto sensibili. Mentre quello potrebbe essere vero in generale, per alcune delle 500.000 persone nel set di dati, i rating dei film potrebbe essere abbastanza sensibile. Infatti, in risposta alla de-trasformazione in forma anonima una donna lesbica rinchiusi unito una class action contro Netflix. Ecco come il problema è stato espresso in loro causa (Singel 2009) :
"[M] Ovie e punteggio di dati contiene le informazioni di natura più strettamente personale e sensibile [sic]. Dati film del membro espone l'interesse personale di un membro di Netflix e / o lotte con varie questioni molto personali, tra cui la sessualità, la malattia mentale, il recupero di alcolismo, e la vittimizzazione da incesto, abuso fisico, la violenza domestica, l'adulterio e stupro ".
La de-anonimizzazione dei dati Premio Netflix illustra sia che tutti i dati è potenzialmente identificabile e che tutti i dati potenzialmente sensibili. A questo punto, si potrebbe pensare che questo vale solo per i dati che che pretende di essere sulle persone. Sorprendentemente, questo non è il caso. In risposta ad una libertà di richiesta di diritto dell'informazione, il governo della città di New York ha pubblicato registrazioni di ogni corsa in taxi a New York nel 2013, tra cui il pick-up e drop off volte, località, e gli importi delle tariffe (richiamo dal capitolo 2 che Farber (2015) utilizzato questi dati per testare le teorie importanti in economia del lavoro). Anche se questo dato su viaggi di taxi potrebbe sembrare benigna perché non sembra essere informazioni su persone, Anthony Tockar rese conto che questo insieme di dati in taxi in realtà conteneva un sacco di informazioni potenzialmente sensibili su persone. Per illustrare, ha guardato tutti i viaggi a partire da The Hustler Club-un grande strip club di New York-tra mezzanotte e le 6 del mattino e poi abbiamo trovato le loro posizioni drop-off. Questa ricerca ha prodotto-in sostanza, un elenco di indirizzi di alcune persone che frequentano il Club Hustler (Tockar 2014) . E 'difficile immaginare che il governo della città aveva questo in mente quando ha pubblicato i dati. In realtà, questa stessa tecnica potrebbe essere utilizzata per trovare gli indirizzi di casa di persone che visitano ogni luogo della città, un ambulatorio medico, un edificio governativo, o una istituzione religiosa.
Questi due casi-il premio Netflix e il taxi di New York City dei dati dimostrano che le persone relativamente qualificate non sono riusciti a stimare correttamente il rischio informativo nei dati che hanno pubblicato, e questi casi sono in alcun modo unico (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Inoltre, in molti di questi casi, i dati problematico è ancora liberamente disponibile online, indicando la difficoltà di mai disfare un rilascio di dati. Collettivamente questi esempi-così come la ricerca in informatica su privacy-porta a una conclusione importante. I ricercatori dovrebbero supporre che tutti i dati siano potenzialmente identificabile e tutti i dati sono potenzialmente sensibili.
Purtroppo, non esiste una soluzione al fatto che tutti i dati sono potenzialmente identificabile e tutti i dati sono potenzialmente sensibili. Tuttavia, un modo per ridurre il rischio di informazioni mentre si lavora con i dati è quello di creare e seguire un piano di protezione dei dati. Questo piano si riduce la possibilità che i suoi dati saranno perdite e diminuirà i danni in caso qualche modo una perdita. Le specifiche di piani di protezione dei dati, come ad esempio quale forma di cifratura da usare, cambiano nel tempo, ma i servizi dati del Regno Unito organizza utilmente gli elementi di un piano di protezione dei dati in 5 categorie che chiamano il 5 cassette di sicurezza: progetti di sicurezza, le persone sicure , le impostazioni di sicurezza, i dati di sicurezza, e le uscite di sicurezza (Tabella 6.2) (Desai, Ritchie, and Welpton 2016) . Nessuno dei cinque casseforti fornire individualmente protezione perfetta. Ma, insieme formano un potente insieme di fattori che possono ridurre il rischio informativo.
Sicuro | Azione |
---|---|
progetti sicurezza | limita i progetti con i dati a quelli che sono etici |
le persone al sicuro | l'accesso è limitato alle persone che si può fidare di dati (ad esempio, le persone hanno una formazione etica) |
dati sicure | dati è de-identificato e aggregati, per quanto possibile |
impostazioni sicure | i dati vengono memorizzati nel computer con appropriati procedimenti fisici (ad esempio, stanza chiusa a chiave) e del software (ad esempio, la protezione tramite password, cifrata) protezioni |
uscita di sicurezza | risultati della ricerca è rivisto per evitare che accidentalmente violazioni della privacy |
Oltre a proteggere i dati, mentre lo si utilizza, un passo nel processo di ricerca in cui il rischio di informazione è particolarmente saliente è la condivisione dei dati con altri ricercatori. La condivisione dei dati tra gli scienziati è un valore fondamentale della ricerca scientifica, e grandemente servizi il progresso della conoscenza. Ecco come la Camera dei Comuni britannica ha descritto l'importanza della condivisione dei dati:
"L'accesso ai dati è fondamentale se i ricercatori sono a riprodurre, verificare e costruire sui risultati che sono riportati in letteratura. La presunzione deve essere che, a meno che non ci sia una ragione forte in caso contrario, i dati dovrebbero essere pienamente divulgati e resi accessibili al pubblico. In linea con questo principio, ove possibile, i dati associati a tutta la ricerca finanziata con fondi pubblici dovrebbero essere ampiamente e liberamente disponibile. " (Molloy 2011)
Eppure, condividendo i dati con un altro ricercatore, si può essere aumentando il rischio informativo per i partecipanti. Così, può sembrare che i ricercatori che desiderano condividere i propri dati, o sono necessari per condividere i propri dati, si trovano ad affrontare una tensione fondamentale. Da un lato hanno un obbligo etico di condividere i loro dati con altri scienziati, soprattutto se la ricerca originale è finanziata con fondi pubblici. Tuttavia, allo stesso tempo, i ricercatori hanno l'obbligo etico di minimizzare, per quanto possibile, il rischio informazioni ai loro partecipanti.
Fortunatamente, questo dilemma non è così grave come sembra. E 'importante pensare di condivisione dei dati lungo un continuum da nessuna condivisione dei dati per liberare e dimenticare, dove i dati sono "anonimo" e pubblicato per chiunque di accedere (Figura 6.6). Entrambe queste posizioni estreme hanno rischi e benefici. Cioè, non è automaticamente la cosa più etica di non condividere i dati; un tale approccio elimina molti potenziali benefici per la società. Tornando al gusto, cravatte, e ora, un esempio discusso in precedenza nel capitolo, argomenti contro rilascio di dati che si concentrano solo su eventuali danni e che ignorano i possibili benefici sono eccessivamente unilaterale; Descriverò i problemi con questo approccio unilaterale, eccessivamente protettivo più in dettaglio in seguito, quando offro consigli di prendere decisioni a fronte di incertezza (sezione 6.6.4).
Inoltre, tra questi due casi estremi è quello che io chiamavo un approccio giardino recintato dove i dati vengono condivisi con le persone che soddisfano determinati criteri e che accettano di essere vincolato da alcune regole (ad esempio, la supervisione da un IRB ea piani di protezione dei dati) . Questo approccio giardino recintato offre molti dei vantaggi di rilascio e dimenticare con meno rischi. Naturalmente, un approccio giardino murato crea molte domande-che dovrebbero avere accesso, a quali condizioni, per quanto tempo, chi deve pagare per mantenere e di polizia il giardino murato ecc, ma questi non sono insormontabili. In realtà, ci sono già al lavoro giardini recintati sul posto che i ricercatori possono usare in questo momento, come ad esempio l'archivio di dati del Consorzio Interuniversitario per la Ricerca politica e sociale presso l'Università del Michigan.
Allora, dove dovrebbero i dati dal vostro studio sia sul continuum di nessuna condivisione, giardino recintato, e rilasciare e dimenticare? Esso dipende da i dettagli della vostra dati; i ricercatori devono bilanciare rispetto delle persone, Beneficenza, la giustizia, e il rispetto per la legge e l'interesse pubblico. Nel valutare l'equilibrio appropriato per altre decisioni ricercatori cercano il consiglio e l'approvazione di IRBs, e il rilascio dei dati possono essere solo un'altra parte di quel processo. In altre parole, anche se alcune persone pensano di rilascio dei dati come una palude etica senza speranza, abbiamo già sistemi in atto per aiutare i ricercatori bilanciare questo tipo di dilemmi etici.
Un ultimo modo di pensare la condivisione dei dati è per analogia. Ogni anno le automobili sono responsabili di migliaia di morti, ma noi non tentare di vietare la guida. Infatti, una tale chiamata al divieto di circolazione sarebbe assurdo perché di guida permette molte cose meravigliose. Piuttosto, la società pone restrizioni su chi può guidare (per esempio, hanno bisogno di essere una certa età, hanno bisogno di aver superato alcuni test) e come possono guidare (per esempio, sotto il limite di velocità). La società ha anche persone con il compito di far rispettare queste regole (ad esempio, polizia), e punire le persone che sono catturati violarle. Questo stesso tipo di pensiero equilibrata che la società applica a regolare guida può anche essere applicato alla condivisione dei dati. Cioè, invece di fare gli argomenti assoluti a favore o contro la condivisione dei dati, penso che i maggiori vantaggi verranno da capire come possiamo condividere più dati in modo più sicuro.
Per concludere, il rischio informativo è aumentato drammaticamente, ed è molto difficile da prevedere e quantificare. Pertanto, è meglio assumere che tutti i dati sono potenzialmente identificabile e potenzialmente sensibili. Per diminuire il rischio informativo mentre si fa ricerca, i ricercatori possono creare e seguire un piano di protezione dei dati. Inoltre, il rischio informativo non impedisce i ricercatori di condividere i dati con altri scienziati.