Informationen Risiko ist das häufigste Risiko in der Sozialforschung; es hat sich dramatisch erhöht; und es ist das härteste Risiko zu verstehen.
Die zweite ethische Herausforderung für die soziale Zeitalter digitaler Forschung Informationsrisiko, das Potenzial für Schäden durch die Offenlegung von Informationen (Council 2014) . Informativ Harms von der Offenlegung persönlicher Daten könnten wirtschaftlich sein (zum Beispiel einen Job zu verlieren), soziale (zB Verlegenheit), psychologische (zB Depression) oder sogar kriminelle (zB Arrest für ein illegales Verhalten). Leider erhöht das digitale Zeitalter Informationsrisiko dramatisch es einfach so viel mehr Informationen über unser Verhalten. Und hat informativen Risiko sehr schwierig erwiesen, zu verstehen und zu verwalten Risiken im Vergleich zu, die Bedenken im analogen Zeitalter Sozialforschung waren, wie körperliche Gefahr. Um zu sehen, wie das digitale Zeitalter erhöht Informations Risiko, sollten Sie den Übergang vom Papier zur elektronischen medizinischen Aufzeichnungen. Beide Arten von Datensätzen erstellen Risiko, aber die elektronischen Aufzeichnungen erstellen viel größere Risiken, weil in großem Umfang können sie auf einen nicht autorisierten Dritten oder fusioniert mit anderen Datensätzen übertragen werden. Sozialforscher im digitalen Zeitalter haben bereits laufen in Schwierigkeiten mit Informationsrisiko, zum Teil, weil sie nicht in vollem Umfang zu verstehen, wie zu quantifizieren und zu verwalten. Also, ich werde eine hilfreiche Art und Weise anzubieten, über Informations Risiko zu denken, und dann Sie, ich werde einen Rat geben, wie das Informationsrisiko bei Ihrer Recherche zu verwalten und in Daten an andere Forscher veröffentlichen.
Eine Möglichkeit , die Sozialforscher Informations Risiko verringern ist "Anonymisierung" von Daten. "Anonymisierung" ist der Vorgang offensichtlich persönliche Kennungen zu entfernen, wie Name, Adresse und Telefonnummer aus den Daten. Allerdings ist dieser Ansatz sehr viel weniger effektiv, als viele Menschen erkennen, und es ist in der Tat zutiefst und grundsätzlich begrenzt. Aus diesem Grund, wenn ich beschreiben "Anonymisierung", werde ich Anführungszeichen verwenden Sie daran zu erinnern, dass dieser Prozess das Auftreten von Anonymität schafft aber nicht wahr Anonymität.
Ein anschauliches Beispiel für das Scheitern der "Anonymisierung" stammt aus den späten 1990er Jahren in Massachusetts (Sweeney 2002) . Der Konzern Versicherungskommission (GIC) war eine Regierungsbehörde zuständig für die Krankenversicherung für alle staatlichen Angestellten zu erwerben. Durch diese Arbeit, sammelte die GIC detaillierte Gesundheitsakten über Tausende von Staatsangestellten. In dem Bemühen, Forschung über die Möglichkeiten voranzutreiben Gesundheit zu verbessern, entschied GIC diese Datensätze Forscher zu lösen. Sie haben jedoch nicht alle ihre Daten gemeinsam nutzen; vielmehr sie es, indem Informationen wie Name und Adresse "anonymisiert". Aber sie haben noch andere Informationen , die sie gedacht für Forscher nützlich sein könnte , wie demografische Informationen (PLZ, Geburtsdatum, Ethnizität und Geschlecht) und medizinische Informationen (Besuchsdaten, Diagnose, Verfahren) (Abbildung 6.4) (Ohm 2010) . Leider war dies "Anonymisierung" nicht ausreichend, um die Daten zu schützen.
Um die Mängel des GIC "Anonymisierung" zu illustrieren, Latanya Sweeney-dann ein Doktorand am MIT-Paid $ 20 die Abstimmungsunterlagen von der Stadt Cambridge, der Heimatstadt von Massachusetts Gouverneur William Weld zu erwerben. Diese Stimm- Aufzeichnungen enthalten Informationen wie Name, Adresse, Postleitzahl, Geburtsdatum und Geschlecht. Die Tatsache, dass die medizinischen Daten-Datei und die Wähler Datei freigegeben Felder-Postleitzahl, Geburtsdatum und Geschlecht gemeint, dass Sweeney sie in Verbindung bringen könnte. Sweeney wusste, dass Weld Geburtstag war der 31. Juli 1945 und die Abstimmungsunterlagen enthalten nur sechs Leute in Cambridge mit diesem Geburtstag. Ferner jener sechs Personen, nur drei waren männlich. Und dieser drei Männer, nur ein gemeinsames Welds Postleitzahl. Somit zeigte die Abstimmungsdaten, dass irgendjemand in der medizinischen Daten mit Weld Kombination von Geburtsdatum, Geschlecht und Postleitzahl war William Weld. Im Wesentlichen, sofern diese drei Informationen einen eindeutigen Fingerabdruck zu ihm in den Daten. Mit dieser Tatsache, Sweeney konnte Weld medizinische Aufzeichnungen zu suchen, und ihm von ihrer Leistung zu informieren, sie schickte ihm eine Kopie seiner Aufzeichnungen (Ohm 2010) .
Sweeney Arbeit zeigt den prinzipiellen Aufbau der De-Anonymisierung Angriffe -zu einen Begriff aus der Computersicherheitsgemeinschaft übernehmen. Bei diesen Angriffen zwei Datensätze, von denen keiner von sich offenbart sensible Informationen, verbunden sind, und durch diese Bindung werden sensible Informationen ausgesetzt. In gewisser Weise ist dieser Prozess ähnlich dem Weg, die Backpulver und Essig, zwei Substanzen, die von ihnen selbst sicher sind, kann eine unangenehme Ergebnis zu erzielen kombiniert werden.
Als Reaktion auf Sweeney Arbeit und damit verbundene Arbeiten, Forscher entfernen jetzt im Allgemeinen viel mehr Informations alle so genannten "Identifikationsinformationen persönlich" (PAE) (Narayanan and Shmatikov 2010) -bei den Prozess der "Anonymisierung" . Ferner jetzt viele Forscher erkennen, dass bestimmte Daten wie medizinische Aufzeichnungen, Finanzdaten, Antworten auf Fragen über illegale Umfrage verhaltens ist wahrscheinlich zu empfindlich, auch nach dem Release "Anonymisierung". Doch neuere Beispiele, die ich beschreiben werde unten zeigen, dass Sozialforscher müssen ändern ihr Denken. Als erster Schritt ist es ratsam , dass alle Daten zu übernehmen möglicherweise identifizierbar ist und alle Daten sind potenziell empfindlich. Mit anderen Worten, anstatt dass die Informations Risiko denken an eine kleine Teilmenge von Projekten gilt, sollte man annehmen, dass es gilt, zu einem gewissen Grad zu allen Projekten.
Beide Aspekte dieser Neuorientierung werden durch den Netflix-Preis dargestellt. Wie in Kapitel 5 beschrieben, veröffentlicht Netflix 100 Millionen Bewertungen Film von fast 500.000 Mitgliedern zur Verfügung gestellt, und hatte einen offenen Aufruf, wo Menschen aus der ganzen Welt Algorithmen vorgelegt, die Netflix Fähigkeit zu empfehlen Filme verbessern könnte. Bevor die Daten darin, entfernt Netflix jede offensichtlich persönlich identifizierbaren Informationen, wie Namen. Netflix ging auch einen zusätzlichen Schritt und führte leichte Störungen in einigen der Aufzeichnungen (zB einige Bewertungen von 4 Sterne 3 Sterne ändern). Netflix jedoch bald entdeckt, dass trotz ihrer Bemühungen, die Daten waren keineswegs anonym.
Nur zwei Wochen , nachdem die Daten veröffentlicht wurden Narayanan and Shmatikov (2008) zeigte , dass es möglich war , über bestimmte Menschen Film Präferenzen zu lernen. Der Trick, um ihre Reidentifizierung Angriff war ähnlich Sweeney: verschmelzen zwei Informationsquellen, eine mit potenziell sensible Informationen und keine offensichtlich identifizierende Informationen und eine, die die Identität des Menschen enthält. Jede dieser Datenquellen können einzeln sicher sein, aber wenn sie kombiniert werden, die fusionierten Datensatz kann Informationsrisiko verbunden sein. Im Falle der Netflix-Daten, hier ist, wie es passieren konnte. Stellen Sie sich vor, dass ich wählen, um meine Gedanken über Action und Comedy-Filme mit meinen Mitarbeitern teilen, aber dass ich es vorziehen, nicht meine Meinung über religiöse und politische Filme zu teilen. Meine Mitarbeiter könnten die Informationen, die ich mit ihnen geteilt habe meine Aufzeichnungen in der Netflix-Daten zu finden; die Informationen , die ich ein einzigartiger Fingerabdruck sein wie William Weld Geburtsdatum, Postleitzahl und Geschlecht teilen. Dann, wenn sie meine einzigartigen Fingerabdruck in den Daten zu finden, könnten sie meine Bewertungen über alle Filme erfahren, darunter Filme, in denen ich nicht wählen zu teilen. Zusätzlich zu dieser Art von gezielter Angriff auf eine einzelne Person konzentriert, Narayanan and Shmatikov (2008) zeigte auch , dass es möglich war , einen breiten Angriff -on denen viele zu tun Menschen durch die Netflix - Daten mit persönlichen und Filmbewertung Zusammenführen von Daten , dass einige Menschen haben sich entschieden, auf der Internet Movie Database zu schreiben (IMDb). Alle Informationen, die ist einzigartig Fingerabdruck einer bestimmten Person, selbst ihre Reihe von Film Ratings kann verwendet werden, um sie zu identifizieren.
Auch wenn die Netflix-Daten können entweder gezielt oder breit Angriff erneut identifiziert werden, könnte es noch erscheinen geringes Risiko zu sein. Immerhin Filmbewertungen scheinen nicht sehr empfindlich. Während das in der Regel wahr sein könnte, für einige der 500.000 Menschen in dem Datensatz, könnte Filmbewertungen recht empfindlich sein. In der Tat trat als Reaktion auf die de-Anonymisierung ein verkappter lesbische Frau, die eine Sammelklage gegen Netflix. Hier ist , wie das Problem in ihrer Klage zum Ausdruck gebracht wurde (Singel 2009) :
"[M] ovie und Rating-Daten enthalten Informationen von einer sehr persönlichen und sensiblen Natur [sic]. Die Filmdaten-Mitglied stellt eine Netflix-Mitglied persönliches Interesse und / oder Kämpfe mit verschiedenen sehr persönliche Fragen, einschließlich der Sexualität, psychische Erkrankungen, Genesung vom Alkoholismus und Schikanierung von Inzest, körperlichen Missbrauch, häusliche Gewalt, Ehebruch und Vergewaltigung. "
Die de-Anonymisierung des Netflix Prize Daten zeigt, dass sowohl alle Daten möglicherweise identifizierbar ist und dass alle Daten potenziell empfindlich. An diesem Punkt könnte man denken, dass dies nur für Daten gilt, dass das über die Menschen zu sein vorgibt. Überraschenderweise ist dies nicht der Fall. Als Reaktion auf ein Gesetz zur Informationsfreiheit Anfrage veröffentlichte die New York City Regierung Aufzeichnungen jeder Fahrt mit dem Taxi in New York im Jahr 2013, einschließlich der Abholung und Rückgabe , Zeiten, Orte und Tarif Mengen (Rückruf von Kapitel 2 , dass Farber (2015) diese Daten verwendet, um wichtige Theorien in der Arbeitsökonomie zu testen). Obwohl diese Daten über Taxifahrten könnten gutartig erscheinen, weil es keine Informationen über Menschen zu sein scheint, erkannte Anthony Tockar, dass dieser Taxi-Datensatz tatsächlich viele potenziell sensible Informationen über Personen enthalten. Zur Veranschaulichung, sah er auf allen Fahrten im The Hustler Club einem großen Strip-Club in New York beginnen zwischen Mitternacht und 6.00 Uhr und dann ihre Ablieferungsstandorte gefunden. Diese Suche ergab in essence-Liste von Adressen von einigen Leuten, die sich The Hustler Club - frequentieren (Tockar 2014) . Es ist schwer vorstellbar, dass die Stadtregierung daran, dass dies hatte, als er die Daten freigegeben. In der Tat könnte diese gleiche Technik verwendet werden, um die Heimat-Adressen von Personen zu finden, die an jedem Ort in der Stadt-medizinischen Klinik besuchen, ein Regierungsgebäude, oder einer religiösen Institution.
Diese beiden Fälle-der Netflix - Preis und den New York City Taxi Daten zeigen , dass relativ qualifizierte Menschen versäumt , um die korrekte Informationsrisiko im Daten abzuschätzen , die sie veröffentlicht, und diese Fälle sind keineswegs einzigartig (Barbaro and Zeller Jr 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Ferner ist die problematische Daten in vielen dieser Fälle noch frei online verfügbar, die Schwierigkeiten bei der jemals zum Verhängnis eine Datenfreigabe anzeigt. Zusammengefasst diese Beispiele-sowie Forschung in der Informatik über die Privatsphäre führt zu einer wichtigen Schlussfolgerung. Die Forscher sollten davon ausgehen , dass alle Daten möglicherweise identifizierbar ist und alle Daten sind potenziell empfindlich.
Leider gibt es keine einfache Lösung für die Tatsache, dass alle Daten möglicherweise identifizierbar ist und alle Daten sind potenziell empfindlich. Allerdings ist ein Weg , um Informationen das Risiko zu reduzieren , während Sie mit Daten arbeiten , ist zu erstellen und einen Datenschutzplan folgen. Dieser Plan wird verringert die Chance, dass Ihre Daten werden auslaufen und den Schaden zu verringern, wenn ein Leck auftritt, irgendwie. Die Besonderheiten der Datenschutzpläne, wie welche Form der Verschlüsselung zu verwenden , wird im Laufe der Zeit ändern, aber die UK Data Services organisiert helfend die Elemente eines Datenschutzplan in 5 Kategorien , dass sie die 5 - Safes nennen: sichere Projekte, Safe Menschen , sichere Einstellungen, sichere Daten und sichere Ausgänge (Tabelle 6.2) (Desai, Ritchie, and Welpton 2016) . Keiner der fünf Safes individuell optimalen Schutz bieten. Aber zusammen bilden sie eine Reihe von leistungsfähigen Faktoren, die Informationsrisiko verringern kann.
Safe | Aktion |
---|---|
Sichere Projekte | Diese Grenzen Projekte mit Daten, die ethischen sind |
Sicher Menschen | Zugriff auf Personen beschränkt, die mit den Daten vertraut werden kann (zum Beispiel haben die Menschen ethisch unterzogen Ausbildung) |
Sichere Daten | Daten deidentifiziert und soweit möglich aggregiert |
Safe-Einstellungen | Daten werden in Computern mit geeigneten physikalischen (zB verschlossenen Raum) und Software (zB Passwortschutz, verschlüsselte) Schutz gespeichert |
Sicherer Ausgang | Forschungsoutput wird überprüft versehentlich Verletzungen der Privatsphäre zu verhindern |
Darüber hinaus Ihre Daten zu schützen, während Sie es verwenden, um einen Schritt in den Forschungsprozess, wo Informationsrisiko besonders ausgeprägten ist gemeinsame Nutzung von Daten mit anderen Forschern. Datenaustausch zwischen den Wissenschaftlern ist ein zentraler Wert des wissenschaftlichen Arbeitens, und es stark Einrichtungen der Förderung des Wissens. Hier ist, wie das britische House of Commons die Bedeutung der gemeinsamen Nutzung von Daten beschrieben:
"Der Zugang zu Daten ist von grundlegender Bedeutung, wenn Forscher zu reproduzieren sind, überprüfen und bauen auf den Ergebnissen, die in der Literatur berichtet werden. Dabei muss die Vermutung, dass, es sei denn, ein starker Grund anders ist, sollten die Daten vollständig öffentlich zugänglich offengelegt und durchgeführt werden. Im Einklang mit diesem Prinzip, soweit möglich, mit allen öffentlich geförderter Forschung zugehörigen Daten sollten weit und frei zur Verfügung gestellt werden. " (Molloy 2011)
Doch, indem Sie Ihre Daten mit einem anderen Forscher teilen, können Sie Informations Risiko für Ihre Teilnehmer werden zu erhöhen. So kann es vorkommen, dass Forscher, die ihre teilen Daten oder sind verpflichtet, ihre zu teilen daten sind eine fundamentale Spannung gegenüber. Auf der einen Seite haben sie eine ethische Verpflichtung, ihre Daten mit anderen Wissenschaftlern zu teilen, vor allem, wenn die ursprüngliche Forschung öffentlich finanziert. Doch zur gleichen Zeit, Forscher haben eine ethische Verpflichtung zu minimieren, so viel wie möglich, das Informationsrisiko ihrer Teilnehmer.
Glücklicherweise ist dieses Dilemma nicht so schlimm wie es scheint. Es ist wichtig , von Daten zu denken , auf einem Kontinuum von keiner gemeinsamen Nutzung von Daten teilen freizugeben und zu vergessen, wo Daten "anonymisiert" und für jedermann geschrieben zuzugreifen (Abbildung 6.6). Beide Extrempositionen haben Risiken und Vorteile. Das heißt, es ist nicht automatisch die ethische Sache nicht um Ihre Daten zu teilen; ein solcher Ansatz eliminiert viele potenzielle Vorteile für die Gesellschaft. Schmecken Sie Rückkehr zu, Krawatten, und Zeit, ein Beispiel früher in diesem Kapitel diskutiert, Argumente gegen die Freigabe von Daten, die nur auf mögliche Schäden konzentrieren und ignorieren mögliche Vorteile sind übermäßig einseitig; Ich werde die Probleme mit dieser einseitigen, allzu Schutz Ansatz näher in unten beschreiben, wenn ich beraten über Entscheidungen angesichts der Unsicherheit (Abschnitt 6.6.4) zu machen.
Des Weiteren ist zwischen diesen beiden Extremfällen , was ich einen ummauerten Garten Ansatz genannt werden , wo die Daten mit den Menschen geteilt wird , die bestimmte Kriterien erfüllen und die zustimmen , nach bestimmten Regeln (zB Aufsicht von einem IRB und ein Datenschutzpläne) gebunden zu sein . Dieser ummauerten Garten Ansatz bietet viele der Vorteile der Freisetzung und vergessen mit weniger Risiko. Natürlich schafft eine ummauerte Garten Ansatz viele Fragen-die Zugang haben sollte, unter welchen Bedingungen, für wie lange, die den ummauerten Garten zu pflegen und die Polizei bezahlen sollte usw., aber diese nicht unüberwindbar sind. In der Tat gibt es bereits Arbeits ummauerten Gärten an Ort und Stelle, die Forscher jetzt, wie die Datenarchiv des Interuniversitären Konsortium für Politik- und Sozialforschung an der Universität von Michigan verwenden können.
Also, wo sollten die Daten aus Ihrer Studie werden auf dem Kontinuum von nicht-Sharing, ummauerten Garten und lassen Sie und vergessen? Es hängt von den Einzelheiten Ihrer Daten; Forscher müssen Respekt für Personen, Beneficence, Gerechtigkeit und Achtung vor dem Gesetz und öffentliche Interessen auszubalancieren. Wenn für andere Entscheidungen angemessene Balance Beurteilung suchen Forscher die Beratung und Genehmigung von IRBs und Datenfreigabe kann nur ein weiterer Teil dieses Prozesses sein. Mit anderen Worten, auch wenn einige Leute von Daten Mitteilung als hoffnungslos ethischen Morast denken, haben wir bereits Systeme vorhanden Forscher diese Art von ethischen Dilemmata Balance zu helfen.
Eine letzte Möglichkeit, über die gemeinsame Datennutzung zu denken ist analog. Jedes Jahr werden Autos sind verantwortlich für Tausende von Toten, aber wir versuchen, nicht mit dem Auto zu verbieten. In der Tat, ein solcher Ruf Fahren zu verbieten, wäre absurd, weil Fahr viele wunderbare Dinge ermöglicht. Vielmehr Gesellschaft Beschränkungen für die, die fahren können (zB müssen ein bestimmtes Alter zu sein, müssen bestimmte Tests bestanden haben) und wie sie (zB unter der Geschwindigkeitsbegrenzung) fahren. Die Gesellschaft hat auch die Menschen damit beauftragt, diese Regeln durchzusetzen (zB Polizei), und wir bestrafen Menschen, die sie gefangen sind zu verletzen. Die gleiche Art von ausgewogenen Denkens, die Gesellschaft gilt Fahren Regulierung kann auch auf gemeinsame Nutzung von Daten angewendet werden. Das heißt, anstatt zu machen absolutistischen Argumente für oder gegen die gemeinsame Datennutzung, ich denke, die größten Vorteile von herauszufinden kommen wird, wie wir mehr Daten sicherer teilen können.
Abschließend wurde Informationsrisiko dramatisch zugenommen, und es ist sehr schwer vorherzusagen und zu quantifizieren. Daher ist es am besten zu der Annahme, dass alle Daten möglicherweise identifizierbar ist und potenziell empfindlich. Zur Verringerung der Informations Risiko während Forschung, können die Forscher schaffen und einen Datenschutzplan folgen. Weiterhin verhindert das Informationsrisiko nicht Forscher von Daten mit anderen Wissenschaftlern zu teilen.