El risc informatiu és el risc més comú en la investigació social; ha augmentat dramàticament; i és el risc més difícil d'entendre.
El segon desafiament ètic per a la investigació en edat digital és el risc informacional , el potencial de dany per la divulgació de la informació (National Research Council 2014) . Els danys informatius derivats de la divulgació de la informació personal poden ser econòmics (per exemple, perdre una feina), socials (per exemple, vergonya), psicològics (per exemple, depressió), o fins i tot criminals (p. Ex., Arrest per comportaments il·legals). Malauradament, l'edat digital augmenta el risc d'informació de manera espectacular: hi ha tanta més informació sobre el nostre comportament. I el risc d'informació ha demostrat ser molt difícil d'entendre i gestionar en comparació amb els riscos que eren les preocupacions en la investigació social d'edat analògica, com ara el risc físic.
Una manera en què els investigadors socials disminueixen el risc d'informació és "anònima" de dades. "Anonimització" és el procés d'eliminació d'identificadors personals obvis com ara nom, adreça i número de telèfon a partir de les dades. No obstant això, aquest enfocament és molt menys eficaç que moltes persones es donen compte, i és, de fet, profunda i fonamentalment limitada. Per aquesta raó, cada vegada que descric "anònima" Vaig a fer servir cometes per recordar-los que aquest procés crea l'aparença d'anonimat, però no és cert anonimat.
Un exemple viu del fracàs de "anonimització" prové de la dècada de 1990 a Massachusetts (Sweeney 2002) . La Comissió d'Assegurances del Grup (GIC) va ser una agència governamental responsable de comprar assegurança mèdica per a tots els empleats estatals. A través d'aquest treball, el GIC va recollir registres de salut detallats sobre milers d'empleats de l'estat. En un esforç per estimular la investigació, el GIC va decidir alliberar aquests registres als investigadors. No obstant això, no van compartir totes les seves dades; més aviat, "anonimitzar" aquestes dades eliminant informació com ara noms i adreces. Tanmateix, van deixar altres dades que consideraven que podien ser útils per a investigadors com ara informació demogràfica (codi postal, data de naixement, ètnia i sexe) i informació mèdica (visiteu dades, diagnòstic, procediment) (figura 6.4) (Ohm 2010) . Malauradament, aquesta "anonimització" no era suficient per protegir les dades.
Per il·lustrar les deficiències de l'anonimització GIC, Latanya Sweeney, després un estudiant de postgrau del MIT, va pagar 20 dòlars per adquirir els registres de vots de la ciutat de Cambridge, la ciutat natal del governador de Massachusetts, William Weld. Aquests registres de vots inclouen informació com ara nom, adreça, codi postal, data de naixement i sexe. El fet que el fitxer de dades mèdiques i el fitxer electoral compartit amb els camps, el codi postal, la data de naixement i el sexe, significaven que Sweeney podria vincular-los. Sweeney sabia que l'aniversari de Weld era el 31 de juliol de 1945, i els registres de vots només incloïen sis persones a Cambridge amb aquest aniversari. A més, d'aquestes sis persones, només tres eren homes. I, d'aquests tres homes, només es va compartir el codi postal de Weld. D'aquesta manera, les dades de la votació van mostrar que qualsevol persona de les dades mèdiques amb la combinació de Weld de data de naixement, gènere i codi postal era William Weld. En essència, aquestes tres dades proporcionen una empremta digital única en les dades. Amb aquest fet, Sweeney va poder localitzar els registres mèdics de Weld i, per informar-lo de la seva gesta, li va enviar una còpia dels seus registres (Ohm 2010) .
El treball de Sweeney il·lustra l'estructura bàsica dels atacs de reidentificació per adoptar un terme de la comunitat de seguretat informàtica. En aquests atacs, dos conjunts de dades, cap dels quals revelen informació confidencial per si mateixa, estan enllaçats i, a través d'aquest enllaç, s'exposa informació sensible.
En resposta al treball de Sweeney i altres treballs relacionats, els investigadors generalment eliminen molt més informació -tant l'anomenada "informació d'identificació personal" (PII) (Narayanan and Shmatikov 2010) -durant el procés de "anonimització". A més, molts investigadors ara s'adonen que certes dades -com ara registres mèdics, registres financers, respostes a preguntes d'enquestes sobre comportaments il·legals- probablement siguin massa sensibles a l'alliberament fins i tot després de "anonimització". No obstant això, els exemples que estic a punt de suggerir que els investigadors socials necessiten per canviar el seu pensament. Com a primer pas, és prudent suposar que totes les dades són potencialment identificables i totes les dades són potencialment sensibles. En altres paraules, en comptes de pensar que el risc informatiu s'aplica a un petit subconjunt de projectes, hem de suposar que s'aplica, fins a cert punt, a tots els projectes.
Tots dos aspectes d'aquesta reorientació són il·lustrats pel Premi Netflix. Tal i com es descriu al capítol 5, Netflix va llançar 100 milions d'avaluacions de pel·lícules proveïdes per gairebé 500.000 membres i va tenir una convocatòria oberta on gent de tot el món va presentar algorismes que podrien millorar la capacitat de Netflix per recomanar pel·lícules. Abans d'alliberar les dades, Netflix va eliminar qualsevol informació d'identificació personal òbvia, com ara noms. També van donar un pas més i van introduir petites pertorbacions en alguns dels registres (per exemple, canviant algunes qualificacions de 4 estrelles a 3 estrelles). Aviat van descobrir, però, que malgrat els seus esforços, les dades encara no eren anònimes.
Només dues setmanes després de la publicació de les dades, Arvind Narayanan i Vitaly Shmatikov (2008) van demostrar que era possible conèixer les preferències de la pel·lícula de persones específiques. El truc per al seu atac de reidentificació va ser similar al de Sweeney: unir dues fonts d'informació, una amb informació potencialment sensible i sense informació d'identificació òbvia i una que conté les identitats de les persones. Cadascuna d'aquestes fonts de dades pot ser segura individualment, però quan es combinen, el conjunt de dades combinat pot generar un risc informatiu. En el cas de les dades de Netflix, aquí és com podria passar. Imagineu que tinc la intenció de compartir els meus pensaments sobre pel·lícules d'acció i comèdia amb els meus companys de feina, però que prefereixo no compartir la meva opinió sobre pel·lícules religioses i polítiques. Els meus companys de feina podrien utilitzar la informació que he compartit amb ells per trobar els meus registres a les dades de Netflix; la informació que comparteixo podria ser una empremta única com la data de naixement de William Weld, el codi postal i el sexe. Llavors, si van trobar la meva empremta digital única a les dades, podrien aprendre les meves puntuacions sobre totes les pel·lícules, incloses les pel·lícules que tria no compartir. A més d'aquest tipus d' atac dirigit enfocat a una sola persona, Narayanan i Shmatikov també van demostrar que era possible fer un atac ampli -que incloïa molta gent- fusionant les dades de Netflix amb dades personals i de classificació de pel·lícules que algunes persones han triat per publicar a Internet Movie Database (IMDb). Simplement, qualsevol informació que sigui una empremta digital única a una persona específica, fins i tot el seu conjunt de qualificacions de pel·lícules, es pugui utilitzar per identificar-los.
Tot i que les dades de Netflix poden ser reidentificades en un atac específic o ampli, potser sembli un risc baix. Després de tot, les puntuacions de pel·lícules no semblen molt sensibles. Tot i que això pot ser cert, en general, per a algunes de les 500.000 persones del conjunt de dades, les puntuacions de pel·lícules poden ser molt sensibles. De fet, en resposta a la reidentificació, una dona lesbiana tancada es va unir a un judici d'acció de classe contra Netflix. A continuació s'explica com es va expressar el problema en la seva demanda (Singel 2009) :
"[M] ovie i les dades de qualificació contenen informació d'un ... de naturalesa molt personal i sensible. Les dades de la pel·lícula del membre exposen l'interès personal o les lluites d'un membre de Netflix amb diverses qüestions molt personals, com ara la sexualitat, la malaltia mental, la recuperació de l'alcoholisme i la victimització de l'incest, l'abús físic, la violència domèstica, l'adulteri i la violació ".
La reidentificació de les dades del Premi Netflix il·lustra que totes les dades són potencialment identificables i que totes les dades són potencialment sensibles. En aquest moment, podeu pensar que això només s'aplica a les dades que es refereixen a les persones. Sorprenentment, aquest no és el cas. En resposta a una sol · licitud de la Llei de Llibertat d'Informació, el Govern de la Ciutat de Nova York va publicar registres de cada viatge en taxi a Nova York el 2013, incloent-hi els horaris, places i quantitats de tarifes (recordeu del capítol 2 que Farber (2015) utilitza dades similars per a provar teories importants en economia laboral). Aquestes dades sobre viatges en taxi poden semblar benignes perquè no semblen proporcionar informació sobre persones, però Anthony Tockar es va adonar que aquest conjunt de dades sobre el transport realment contenia molta informació potencialment sensible sobre les persones. Per il·lustrar, va mirar tots els viatges que començaven al Hustler Club, un gran club de striptease a Nova York, entre mitjanit i 6 a.m. i després van trobar les seves ubicacions desocupades. Aquesta cerca va revelar, en essència, una llista d'adreces d'algunes persones que freqüentaven el Hustler Club (Tockar 2014) . És difícil imaginar que el govern de la ciutat ho tingués en compte quan va publicar les dades. De fet, aquesta mateixa tècnica es podria utilitzar per trobar els domicilis de persones que visiten qualsevol lloc de la ciutat: una clínica mèdica, un edifici governamental o una institució religiosa.
Aquests dos casos del preu de Netflix i de la ciutat de Nova York mostren que les persones relativament qualificades no poden estimar correctament el risc informatiu en les dades que publiquen, i aquests casos no són únics (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . A més, en molts casos, les dades problemàtiques encara estan disponibles de forma gratuïta en línia, la qual cosa indica la dificultat de desfer un llançament de dades. Col·lectivament, aquests exemples, així com la recerca en informàtica sobre la privadesa, condueixen a una conclusió important. Els investigadors haurien de suposar que totes les dades són potencialment identificables i que totes les dades són potencialment sensibles.
Malauradament, no hi ha una solució senzilla als fets que totes les dades són potencialment identificables i que totes les dades són potencialment sensibles. Tanmateix, una forma de reduir el risc informatiu mentre treballeu amb les dades és crear i seguir un pla de protecció de dades . Aquest pla reduirà l'oportunitat que les dades es filtrin i disminuiran els danys si es produeixi una fuga. Les especificitats dels plans de protecció de dades, com ara la forma de xifratge que s'utilitzaran, canviaran amb el temps, però els Serveis de dades del Regne Unit organitzen de manera útil els elements d'un pla de protecció de dades en cinc categories que anomenen cinc caixes fortes : projectes segurs, persones segures , configuració segura, dades segures i productes segurs (taula 6.2) (Desai, Ritchie, and Welpton 2016) . Cap de les cinc caixes fortes individualment proporciona una protecció perfecta. Però junts formen un potent conjunt de factors que poden disminuir el risc informatiu.
Segur | Acció |
---|---|
Projectes segurs | Limita els projectes amb dades als ètics |
Persones segures | L'accés està restringit a persones que poden confiar en dades (per exemple, persones que han estat sotmeses a una formació ètica) |
Dades segures | Les dades són desidentificades i agregades en la mesura del possible |
Configuració segura | Les dades s'emmagatzemen en ordinadors amb protecció física (per exemple, blocatge tancat) i programari (per exemple, protecció per contrasenya, xifrat) |
Sortida segura | Es revisa la producció de la recerca per evitar violacions de la privadesa accidental |
A més de protegir les vostres dades mentre les feu servir, un pas més en el procés d'investigació en què el risc informatiu és particularment rellevant és compartir dades amb altres investigadors. L'intercanvi de dades entre els científics és un valor fonamental de l'esforç científic, i facilita enormement l'avanç del coneixement. Així és com la Cambra dels Comuns del Regne Unit va descriure la importància de compartir dades (Molloy 2011) :
"L'accés a les dades és fonamental si els investigadors es reprodueixen, verifiquen i construeixen els resultats que es presenten a la literatura. La presumpció ha de ser que, tret que hi hagi una raó sòlida, les dades s'han de revelar i fer-se públicament ".
Tanmateix, si compartiu les vostres dades amb un altre investigador, podeu augmentar el risc d'informació als participants. Per tant, pot semblar que l'intercanvi de dades crea una tensió fonamental entre l'obligació de compartir dades amb altres científics i l'obligació de minimitzar el risc informacional als participants. Afortunadament, aquest dilema no és tan sever com sembla. Més aviat, és millor pensar en compartir dades com en un continu, amb cada punt d'aquest continu que proporciona una barreja diferent de beneficis per a la societat i el risc per als participants (figura 6.6).
En un extrem, podeu compartir les vostres dades amb ningú, que minimitza el risc per als participants, però també minimitza els guanys a la societat. A l'altre extrem, podeu alliberar i oblidar , on les dades són "anonimitzades" i publicades per a tothom. Pel que fa a no alliberar dades, alliberar-se i oblidar-se ofereix tant majors beneficis a la societat com un major risc per als participants. Entre aquests dos casos extrems hi ha una gamma d'híbrids, incloent el que anomenaré un enfocament de jardí emmurallat . Segons aquest enfocament, les dades es comparteixen amb persones que compleixen certs criteris i que accepten estar subjectes a determinades normes (per exemple, la supervisió d'un IRB i un pla de protecció de dades). L'enfocament de jardí emmurallat proporciona molts dels avantatges de l'alliberament i oblida't amb menys risc. Per descomptat, aquest enfocament crea moltes preguntes: qui ha de tenir accés, en quines condicions i durant quant de temps, qui ha de pagar per mantenir i politzar el jardí emmurallat, etc., però no són insuperables. De fet, ja hi ha jardins emmurallats que els investigadors poden utilitzar ara, com ara l'arxiu de dades del Consorci Interuniversitari d'Investigacions Polítiques i Socials de la Universitat de Michigan.
Per tant, on han de ser les dades del vostre estudi sobre el continuum de no compartir, jardí emmurallat i alliberar i oblidar? Això depèn dels detalls de les vostres dades: els investigadors han d'equilibrar el respecte a les persones, la seva beneficència, la seva justícia i el respecte pel dret i l'interès públic. Vist des d'aquesta perspectiva, l'intercanvi de dades no és un enfocament ètic distintiu; és només un dels molts aspectes de la investigació en què els investigadors han de trobar un equilibri ètic adequat.
Alguns crítics s'oposen generalment a l'intercanvi de dades perquè, al meu entendre, se centren en els seus riscos -que sens dubte són reals- i ignoren els seus beneficis. Per tant, per incentivar el focus tant en riscs com en beneficis, m'agradaria oferir una analogia. Cada any, els cotxes són responsables de milers de morts, però no intentem prohibir la conducció. De fet, una crida a prohibir la conducció seria absurd ja que la conducció permet moltes coses meravelloses. Més aviat, la societat imposa restriccions sobre qui pot conduir (per exemple, la necessitat d'una determinada edat i haver superat determinades proves) i com poden conduir (per exemple, sota el límit de velocitat). La societat també té la tasca de fer complir aquestes normes (per exemple, la policia) i castigar a les persones que es capturen violant-les. Aquest mateix tipus de pensament equilibrat que la societat aplica a la regulació de la conducció també es pot aplicar al compartir dades. És a dir, en comptes de fer arguments absolutistes a favor o en contra de la compartició de dades, crec que aprofitarem més avançant centrant-nos en com podem disminuir els riscos i augmentar els beneficis de l'ús compartit de dades.
Per concloure, el risc informatiu s'ha incrementat de forma espectacular, i és molt difícil de predir i quantificar. Per tant, el millor és suposar que totes les dades són potencialment identificables i potencialment sensibles. Per disminuir el risc d'informació mentre es fa una investigació, els investigadors poden crear i seguir un pla de protecció de dades. A més, el risc informacional no impedeix que els investigadors comparteixin dades amb altres científics.