Informatie risico is de meest voorkomende risico's in het sociaal onderzoek; Het is dramatisch toegenomen; en het is het moeilijkst risico te begrijpen.
De tweede ethische uitdaging voor de sociale leeftijd digitale onderzoek is informatief risico, omdat de mogelijke schadelijkheid van de openbaarmaking van informatie (Council 2014) . Informatieve Harms uit de openbaarmaking van persoonlijke informatie zou de economische (bv, het verliezen van een baan), sociale (bijvoorbeeld schaamte), psychologische (bijvoorbeeld depressie), of zelfs crimineel (bijvoorbeeld gearresteerd voor illegaal gedrag). Helaas, het digitale tijdperk vergroot risico-informatie drastisch-er is zo veel meer informatie over ons gedrag. En, heeft informatieve risico bewezen zeer moeilijk te begrijpen en te beheren in vergelijking met de risico's dat de bezorgdheid in analoge tijdperk sociaal onderzoek, zoals fysieke risico waren. Om te zien hoe het digitale tijdperk vergroot informatieve risico, rekening houden met de overgang van papieren naar elektronische medische dossiers. Beide typen records te maken risico, maar de elektronische dossiers te creëren veel grotere risico's omdat op grote schaal kunnen ze een onbevoegde partij worden overgedragen of samengevoegd met andere gegevens. Sociale wetenschappers in het digitale tijdperk zijn al in de problemen met informatieve risico, voor een deel omdat ze niet volledig begrijpen hoe te kwantificeren en te beheren. Dus, ga ik een handige manier om na te denken over informatieve risico's bieden, en dan ga ik u enkele tips voor hoe u het informatieve risico's in uw onderzoek te beheren en in het vrijgeven van gegevens aan andere onderzoekers geven.
Een manier waarop sociale onderzoekers verminderen informatieve risico is "anoniem" van de gegevens. "Anonimiseren" is het proces van het verwijderen van de hand liggende persoonlijke identificatie zoals naam, adres en telefoonnummer van de gegevens. Deze benadering is veel minder effectief dan veel mensen beseffen, en het is in feite diep en fundamenteel beperkt. Om die reden, wanneer ik beschrijf "anoniem" Ik zal aanhalingstekens gebruiken om u eraan te herinneren dat dit proces leidt tot de verschijning van anonimiteit, maar niet waar anonimiteit.
Een sprekend voorbeeld van het falen van "anoniem" komt uit de late jaren 1990 in Massachusetts (Sweeney 2002) . De groep Assurantiewezen (GIC) was een overheidsinstantie die verantwoordelijk is voor de aankoop van de ziektekostenverzekering voor alle medewerkers staat. Door middel van dit werk, de GIM verzamelde gedetailleerde medische dossiers over duizenden van de staat medewerkers. In een poging om onderzoek naar manieren om de gezondheid te verbeteren stimuleren, GIC besloten deze platen uitbrengen onderzoekers. Echter, hebben ze niet al hun gegevens delen; plaats ze "anoniem" door het verwijderen van informatie zoals naam en adres. Echter, ze vertrokken andere informatie die ze dachten dat nuttig voor onderzoekers zouden kunnen zijn, zoals demografische informatie (postcode, geboortedatum, etniciteit en geslacht) en medische informatie (bezoek gegevens, diagnose, procedure) (Figuur 6.4) (Ohm 2010) . Helaas is dit "anoniem", was niet voldoende om de gegevens te beschermen.
Om de tekortkomingen van de GIC 'anoniem' te illustreren, Latanya Sweeney-dan een afgestudeerde student aan het MIT-betaalde $ 20 tot het stemgedrag te nemen van de stad van Cambridge, de geboorteplaats van de gouverneur van Massachusetts William Weld. Deze stemming dossiers opgenomen informatie zoals naam, adres, postcode, geboortedatum en geslacht. Het feit dat de medische gegevens bestand en de kiezer file gedeelde velden-postcode, geboortedatum en geslacht betekende dat Sweeney hen kon koppelen. Sweeney wist dat Weld's verjaardag was 31 juli 1945, en de stemming registers opgenomen slechts zes mensen in Cambridge met die verjaardag. Verder, van die zes personen, maar drie waren mannen. En van die drie mannen, slechts één gedeelde Weld's postcode. Zo is de stemming gegevens bleek dat iedereen in de medische gegevens met een combinatie Weld's van geboortedatum, geslacht en postcode was William Weld. In wezen, deze drie stukjes informatie verstrekt een unieke vingerafdruk om hem in de gegevens. Met behulp van dit feit, Sweeney kon Weld's medische dossiers te vinden, en om hem te informeren over haar prestatie, mailde ze hem een kopie van zijn administratie (Ohm 2010) .
Werk Sweeney illustreert de basisstructuur van de-anonimiseren aanvallen -om een term uit de computer security community vast te stellen. In deze aanvallen, twee datasets, die geen van beide op zichzelf openbaart gevoelige informatie zijn gekoppeld, en via deze koppeling wordt blootgesteld gevoelige informatie. In sommige opzichten deze werkwijze is vergelijkbaar met de manier waarop zuiveringszout en azijn, twee stoffen die veilig op zichzelf kan worden gecombineerd om een botsing resultaat produceren.
In reactie op het werk Sweeney's, en andere verwante werkzaamheden, de onderzoekers nu over het algemeen verwijderen veel meer informatie-all zogenaamde "Information persoonlijk identificeerbare" (PII) (Narayanan and Shmatikov 2010) -tijdens het proces van "anonimiseren." Verder, veel onderzoekers nu beseffen dat bepaalde gegevens, zoals medische dossiers, financiële gegevens, antwoorden op vragen over illegale enquête gedrag-is waarschijnlijk te gevoelig vrij te geven, zelfs na "anonimiseren." echter, meer recente voorbeelden die ik hieronder zal beschrijven geven aan dat sociale onderzoekers moeten veranderen hun denken. Als eerste stap, is het verstandig om te veronderstellen dat alle data is potentieel herkenbaar en alle gegevens potentieel gevoelige. Met andere woorden, in plaats van te denken dat informatieve gevaar bestaat voor een klein deel van de projecten, moeten we ervan uitgaan dat het van toepassing tot op zekere hoogte naar alle projecten.
Beide aspecten van deze heroriëntatie worden geïllustreerd door de Netflix Prize. Zoals beschreven in hoofdstuk 5, Netflix vrijgegeven 100 miljoen film ratings van bijna 500.000 leden, en had een open oproep waar mensen van over de hele wereld ingediend algoritmen die het vermogen van Netflix aan te bevelen films zou kunnen verbeteren. Voor het vrijgeven van de gegevens, Netflix verwijderd alle uiteraard persoonlijk identificeerbare informatie, zoals namen. Netflix ging ook een extra stap en introduceerde lichte verstoringen in een aantal van de records (bijvoorbeeld, het veranderen van een aantal ratings van 4 sterren naar 3 sterren). Netflix snel ontdekt echter dat ondanks grote inspanningen, de gegevens zijn geenszins anoniem.
Twee weken nadat de gegevens zijn vrijgegeven Narayanan and Shmatikov (2008) toonden aan dat het mogelijk was om te leren over Voorkeursfilms van bepaalde personen. De truc hun nieuwe identificatie aanval was vergelijkbaar Sweeney's: samenvoegen twee informatiebronnen, een samen met mogelijk gevoelige informatie en geen duidelijk identificeerbare gegevens en die de identiteit van mensen bevat. Elk van deze bronnen kunnen individueel veilig zijn, maar wanneer ze gecombineerd kunnen de samengevoegde dataset informatieve risico creëren. In het geval van de Netflix data, hier is hoe het zou kunnen gebeuren. Stel je voor dat ik kiezen om mijn gedachten over actie en comedy films met mijn collega's te delen, maar dat ik liever niet mijn mening over religieuze en politieke films te delen. Mijn co-werknemers kunnen de informatie die ik heb gedeeld met hen om mijn records in de Netflix gegevens te vinden te gebruiken; de informatie die ik deel zou een unieke vingerafdruk net als William Weld geboortedatum, postcode, en geslacht. Dan, als ze mijn unieke vingerafdruk te vinden in de gegevens, ze kon mijn ratings leren over alle films, inclusief films waar ik ervoor kiezen niet te delen. In aanvulling op dit soort gerichte aanval gericht op een enkele persoon, Narayanan and Shmatikov (2008) toonde ook aan dat het mogelijk was om een brede aanval -een waarbij veel doen mensen door het samenvoegen van de Netflix data met persoonlijke en film ratinggegevens dat sommige mensen hebben ervoor gekozen om op de Internet Movie Database (IMDb). Alle informatie die is unieke vingerafdruk van een bepaalde persoon, zelfs de set van de film ratings kunnen worden gebruikt om ze te identificeren.
Hoewel de Netflix gegevens kunnen opnieuw worden geïdentificeerd ofwel gericht of brede aanval toch lijkt te laag risico. Immers, film ratings niet erg gevoelig. Terwijl dat waar zou kunnen zijn in het algemeen, voor een aantal van de 500.000 mensen in de dataset, film ratings zouden vrij gevoelig. In feite, in reactie op de de-anonimiseren een closeted lesbische vrouw aangesloten bij een class-action rechtszaak tegen Netflix. Hier is hoe het probleem werd uitgedrukt in hun rechtszaak (Singel 2009) :
"[M] ovie en rating data bevat informatie van een zeer persoonlijke en gevoelige aard [sic]. movie data van het lid bloot persoonlijke interesse en / of strijd een Netflix-lid met diverse zeer persoonlijke kwesties, met inbegrip van seksualiteit, psychische aandoeningen, herstel van alcoholisme, en slachtofferschap van incest, mishandeling, huiselijk geweld, overspel en verkrachting. "
De de-anonimiseren van de Netflix Prize data illustreert zowel dat alle data potentieel herkenbaar en dat alle data is potentieel gevoelige. Op dit punt, zou je denken dat dit alleen van toepassing is op de gegevens die dat beweert te zijn over mensen. Verrassend is dat niet het geval. In antwoord op een Freedom of Information wet verzoek, de New York City regering vrijgegeven verslagen van elke taxi in New York in 2013, met inbegrip van de pick-up-and-drop off tijden, locaties en gerechten bedragen (recall van hoofdstuk 2, dat Farber (2015) gebruikt deze gegevens belangrijke theorieën in arbeidseconomie) te testen. Hoewel deze informatie over de taxi reizen goedaardige lijkt misschien omdat het niet lijkt om informatie over mensen, Anthony Tockar besefte dat deze taxi dataset eigenlijk bevatte veel potentieel gevoelige informatie over mensen. Om dit te illustreren, keek hij naar alle reizen vanaf The Hustler Club-een grote stripclub in New York tussen middernacht en 6 uur en vervolgens vonden hun drop-off locaties. Dit zoeken heeft in essentie: een lijst met adressen van een aantal mensen die frequent The Hustler Club (Tockar 2014) . Het is moeilijk voor te stellen dat het stadsbestuur had dit in gedachten toen zij de gegevens vrijgegeven. In feite zou dit dezelfde techniek gebruikt worden om de huisadressen van de mensen die elke plaats te bezoeken in de stad-een medische kliniek, een overheidsgebouw of een religieuze instelling te vinden.
Deze twee zaken-de Netflix Prize en de New York City taxi gegevens tonen aan dat relatief geschoolde mensen niet correct inschatten van de informatieve risico in de gegevens die zij vrijgegeven, en deze gevallen zijn niet uniek (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Verder wordt in veel gevallen, de problematische gegevens nog vrij online beschikbaar, waarin de moeilijk ongedaan ooit een gegevensversie. Gezamenlijk deze voorbeelden-evenals onderzoek in de informatica over privacy-leidt tot een belangrijke conclusie. Onderzoekers moeten veronderstellen dat alle data is potentieel herkenbaar en alle gegevens potentieel gevoelige.
Helaas is er geen eenvoudige oplossing dat alle gegevens potentieel herkenbaar en alle gegevens potentieel gevoelige. Echter, een manier om informatie risico te verminderen tijdens het werken met data is het creëren en volgen een bescherming van data-abonnement. Dit plan zal de kans dat uw gegevens lekken en zal de schade afnemen als een lek of andere manier gebeurt afneemt. De details van de plannen voor de bescherming van gegevens, zoals welke vorm van encryptie te gebruiken, zal veranderen in de tijd, maar de UK Data Services organiseert behulpzaam de elementen van een bescherming van gegevens plan in 5 categorieën die zij noemen de 5 kluizen: safe projecten, safe mensen , safe instellingen, veilige data en veilige uitgangen (tabel 6.2) (Desai, Ritchie, and Welpton 2016) . Geen van de vijf kluizen bieden individueel perfecte bescherming. Maar, samen vormen ze een krachtige set van factoren die informatieve risico kan verminderen.
Veilig | Actie |
---|---|
Safe projecten | beperkt projecten met data aan degenen die zijn ethische |
Safe mensen | de toegang is voorbehouden aan mensen die kunnen worden vertrouwd met data (bijvoorbeeld, hebben de mensen ondergaan ethische training) |
veilige data | data-identificeerbaar en geaggregeerd voor zover mogelijk |
Safe-instellingen | gegevens worden opgeslagen in computers met geschikte fysische (bijvoorbeeld afgesloten ruimte) en software (bijvoorbeeld wachtwoordbeveiliging, versleutelde) beveiligingen |
Safe-uitgang | onderzoeksresultaten wordt beoordeeld om per ongeluk privacy schendingen te voorkomen |
Naast het beschermen van uw gegevens tijdens het gebruik van het, een stap in het onderzoek proces waarbij informatieve risico is des te relevanter is het delen van gegevens met andere onderzoekers. Het delen van gegevens tussen wetenschappers is een kernwaarde van de wetenschapsbeoefening en het sterk faciliteiten van de vooruitgang van de kennis. Hier is hoe het Britse Lagerhuis beschreef het belang van het delen van gegevens:
"Toegang tot gegevens van wezenlijk belang is onderzoekers te reproduceren, te verifiëren en voortbouwen op de resultaten die zijn gerapporteerd in de literatuur. Het vermoeden moet zijn dat, tenzij er een sterke reden anders, gegevens moeten volledig worden meegedeeld en openbaar gemaakt. In lijn met dit principe, waar mogelijk, gegevens in verband met alle publiek gefinancierd onderzoek op grote schaal en vrij beschikbaar moeten worden gesteld. " (Molloy 2011)
Toch, door het delen van uw gegevens met een andere onderzoeker, kunt u worden steeds meer informatieve risico voor uw deelnemers. Zo kan het lijken dat onderzoekers die wensen om hun te delen data-of zijn verplicht om hun te delen gegevens worden geconfronteerd met een fundamentele spanning. Aan de ene kant hebben ze een ethische verplichting om hun gegevens met andere wetenschappers te delen, vooral als het oorspronkelijke onderzoek in het openbaar wordt gefinancierd. Maar tegelijkertijd, onderzoekers de ethische plicht om, voor veel mogelijk informatie risico voor hun deelnemers.
Gelukkig is dit dilemma is niet zo ernstig als het lijkt. Het is belangrijk om na te denken over het delen van gegevens langs een continuüm van geen uitwisseling van gegevens vrij te geven en te vergeten, waar de gegevens worden "anoniem" en gepost voor iedereen om toegang te krijgen (zie figuur 6.6). Beide extreme posities risico's en voordelen. Dat wil zeggen, het is niet automatisch de meest ethische ding om je gegevens niet te delen; een dergelijke aanpak elimineert veel potentiële voordelen voor de samenleving. Terugkerend naar smaak, Ties, en tijd, een voorbeeld eerder in dit hoofdstuk besproken argumenten tegen data release die alleen richten op mogelijke schade en dat mogelijke voordelen negeren al te eenzijdig; Ik zal de problemen met deze eenzijdige, overdreven beschermende aanpak hieronder in meer detail beschrijven als ik advies geven over het maken van beslissingen in het gezicht van onzekerheid (paragraaf 6.6.4).
Verder is tussen deze twee extreme gevallen is wat ik een ommuurde tuin aanpak waarbij gegevens worden gedeeld met mensen die aan bepaalde criteria voldoen en die ermee instemmen gebonden te zijn aan bepaalde regels zal genoemd (bv toezicht van een IRB en de bescherming van data-abonnementen) . Deze ommuurde tuin aanpak biedt veel van de voordelen van de introductie en vergeet met minder risico. Natuurlijk, een ommuurde tuin aanpak zorgt voor veel vragen-die toegang moeten hebben, onder welke voorwaarden, voor hoe lang, wie moet betalen om te handhaven en de politie de ommuurde tuin enz., Maar deze zijn niet onoverkomelijk. In feite zijn er al bezig ommuurde tuinen in de plaats die de onderzoekers nu kunnen gebruiken, zoals het data-archief van het Interuniversitair Consortium voor Politiek en Sociaal Onderzoek van de Universiteit van Michigan.
Dus, waar moet de gegevens van je studie op het continuüm van geen delen, ommuurde tuin, en los te laten en vergeten? Het hangt af van de details van uw gegevens; onderzoekers moeten Respect voor personen, Weldadigheid, justitie en Respect in evenwicht te brengen voor Recht en Public Interest. Bij de beoordeling van de juiste balans voor andere besluiten onderzoekers het advies inwinnen en de goedkeuring van IRBs en data vrijlating kan gewoon een ander deel van dat proces. Met andere woorden, hoewel sommige mensen denken van de release data als een hopeloze ethisch moeras, we hebben al systemen om onderzoekers te helpen in evenwicht te brengen dit soort ethische dilemma's.
Een laatste manier om na te denken over het delen van gegevens is van overeenkomstige toepassing. Elk jaar auto's zijn verantwoordelijk voor duizenden doden, maar we niet proberen om rijverbod. In feite zou een dergelijke oproep om rijverbod absurd zijn, omdat het rijden in staat stelt veel moois. Integendeel, de maatschappij legt beperkingen op die kan rijden (bijvoorbeeld, moeten een bepaalde leeftijd zijn, moeten bepaalde tests te hebben doorstaan) en hoe ze kunnen rijden (bijvoorbeeld in het kader van de maximumsnelheid). De maatschappij heeft ook mensen belast met de handhaving van deze regels (bijvoorbeeld, politie), en we straffen mensen die gevangen zitten ze overtreden. Dezelfde soort evenwichtige denken dat de maatschappij toepassing reguleren rijden kan ook worden toegepast op gegevensuitwisseling. Dat wil zeggen, in plaats van absolutistische argumenten voor of tegen het delen van gegevens, ik denk dat de grootste voordelen zullen komen van het uitzoeken hoe we meer data veiliger kunt delen.
Tot slot heeft informatieve risico enorm toegenomen, en het is zeer moeilijk te voorspellen en te kwantificeren. Daarom is het het beste om te veronderstellen dat de gegevens potentieel herkenbaar en potentieel gevoelige. Om informatieve risico te verminderen, terwijl het doen van onderzoek, kunnen onderzoekers maken en volgen een bescherming van data-abonnement. Verder heeft informatieve risico niet voorkomen dat onderzoekers uit het delen van gegevens met andere wetenschappers.