Das Informationsrisiko ist das häufigste Risiko in der Sozialforschung; es hat dramatisch zugenommen; und es ist das schwerste Risiko zu verstehen.
Die zweite ethische Herausforderung für die Forschung im digitalen Zeitalter ist das Informationsrisiko , das durch die Offenlegung von Informationen geschädigt werden kann (National Research Council 2014) . Informative Schäden durch die Offenlegung persönlicher Informationen können wirtschaftlicher Art sein (z. B. Arbeitsplatzverlust), soziale (z. B. Peinlichkeit), psychologische (z. B. Depressionen) oder sogar strafrechtliche Folgen (z. B. Festnahme wegen illegalen Verhaltens). Leider erhöht das digitale Zeitalter das Informationsrisiko dramatisch - es gibt so viel mehr Informationen über unser Verhalten. Und das Informationsrisiko erwies sich als sehr schwierig zu verstehen und zu verwalten, verglichen mit Risiken, die Bedenken in der analogen Sozialforschung aufwiesen, wie etwa das physische Risiko.
Eine Möglichkeit , die Sozialforscher Informations Risiko verringern ist "Anonymisierung" von Daten. "Anonymisierung" ist der Vorgang offensichtlich persönliche Kennungen zu entfernen, wie Name, Adresse und Telefonnummer aus den Daten. Allerdings ist dieser Ansatz sehr viel weniger effektiv, als viele Menschen erkennen, und es ist in der Tat zutiefst und grundsätzlich begrenzt. Aus diesem Grund, wenn ich beschreiben "Anonymisierung", werde ich Anführungszeichen verwenden Sie daran zu erinnern, dass dieser Prozess das Auftreten von Anonymität schafft aber nicht wahr Anonymität.
Ein anschauliches Beispiel für das Scheitern der "Anonymisierung" kommt aus den späten 1990er Jahren in Massachusetts (Sweeney 2002) . Die Group Insurance Commission (GIC) war eine Regierungsbehörde, die für den Ankauf von Krankenversicherungen für alle staatlichen Angestellten zuständig war. Durch diese Arbeit sammelte die GIC detaillierte Gesundheitsaufzeichnungen über Tausende von staatlichen Angestellten. Um die Forschung anzukurbeln, entschied das GIC, diese Aufzeichnungen den Forschern zu überlassen. Sie haben jedoch nicht alle ihre Daten geteilt; Vielmehr "anonymisieren" sie diese Daten, indem sie Informationen wie Namen und Adressen entfernen. Sie hinterließen jedoch andere Informationen, die sie für Forscher als nützlich erachten könnten, wie demografische Informationen (Postleitzahl, Geburtsdatum, ethnische Zugehörigkeit und Geschlecht) und medizinische Informationen (Besuchsdaten, Diagnose, Verfahren) (Abbildung 6.4) (Ohm 2010) . Leider reichte diese "Anonymisierung" nicht aus, um die Daten zu schützen.
Um die Unzulänglichkeiten der "Anonymisierung" der GIC zu illustrieren, bezahlte Latanya Sweeney - damals eine Studentin am MIT - 20 Dollar, um die Wahlunterlagen von der Stadt Cambridge, der Heimatstadt des Massachusetts Gouverneurs William Weld, zu erhalten. Diese Stimmzettel enthalten Informationen wie Name, Adresse, Postleitzahl, Geburtsdatum und Geschlecht. Die Tatsache, dass die medizinische Datendatei und die Wählerdatei gemeinsame Felder enthielten - Postleitzahl, Geburtsdatum und Geschlecht - bedeutete, dass Sweeney sie verlinken konnte. Sweeney wusste, dass Welds Geburtstag am 31. Juli 1945 war, und die Wahlrekorde umfassten zu diesem Geburtstag nur sechs Personen in Cambridge. Von diesen sechs Personen waren nur drei männlich. Und von diesen drei Männern teilte nur eine die Postleitzahl von Weld. Somit zeigten die Wahldaten, dass jemand in den medizinischen Daten mit Welds Kombination aus Geburtsdatum, Geschlecht und Postleitzahl William Weld war. Im Wesentlichen lieferten diese drei Informationen einen einzigartigen Fingerabdruck in den Daten. Mit dieser Tatsache war Sweeney in der Lage, Welds Krankenakten ausfindig zu machen, und um ihm von ihrer Leistung zu berichten, schickte sie ihm eine Kopie seiner Aufzeichnungen (Ohm 2010) .
Sweeneys Arbeit veranschaulicht die grundlegende Struktur von Re-Identifizierungsangriffen , um einen Begriff aus der Computer-Sicherheits-Community zu übernehmen. Bei diesen Angriffen werden zwei Datensätze verknüpft, von denen keiner für sich sensible Informationen preisgibt, und durch diese Verknüpfung werden vertrauliche Informationen offengelegt.
Als Antwort auf Sweeneys Arbeit und andere damit zusammenhängende Arbeiten entfernen Forscher im Allgemeinen viel mehr Informationen - alle sogenannten "persönlich identifizierenden Informationen" (PII) (Narayanan and Shmatikov 2010) während des Prozesses der "Anonymisierung". Außerdem viele Forscher jetzt erkennen, dass bestimmte Daten - wie medizinische Aufzeichnungen, finanzielle Aufzeichnungen, Antworten auf Umfrage-Fragen über illegales Verhalten - wahrscheinlich zu empfindlich sind, auch nach "Anonymisierung" zu veröffentlichen. Die Beispiele, die ich geben werde, legen jedoch nahe, dass Sozialforscher brauchen um ihr Denken zu ändern. In einem ersten Schritt ist es ratsam, davon auszugehen, dass alle Daten potentiell identifizierbar sind und alle Daten potenziell sensibel sind. Mit anderen Worten, anstatt zu denken, dass das Informationsrisiko für eine kleine Teilmenge von Projekten gilt, sollten wir davon ausgehen, dass es zu einem gewissen Grad für alle Projekte gilt.
Beide Aspekte dieser Neuausrichtung werden durch den Netflix-Preis veranschaulicht. Wie in Kapitel 5 beschrieben, veröffentlichte Netflix 100 Millionen Filmbewertungen von fast 500.000 Mitgliedern und hatte einen offenen Anruf, bei dem Menschen aus der ganzen Welt Algorithmen einreichten, die die Fähigkeit von Netflix, Filme zu empfehlen, verbessern konnten. Vor der Veröffentlichung der Daten entfernte Netflix alle offensichtlichen persönlichen Informationen wie Namen. Sie gingen auch einen Extra-Schritt und führten leichte Störungen in einigen der Aufzeichnungen ein (zB änderten einige Bewertungen von 4 Sternen zu 3 Sternen). Sie stellten jedoch bald fest, dass die Daten trotz ihrer Bemühungen keineswegs anonym waren.
Nur zwei Wochen nach der Veröffentlichung der Daten zeigten Arvind Narayanan und Vitaly Shmatikov (2008) , dass es möglich war, etwas über die Filmpräferenzen bestimmter Menschen zu erfahren. Der Trick bei der Neuidentifikation war Sweeneys: Sie verschmelzen zwei Informationsquellen, eine mit potenziell sensiblen Informationen und keine offensichtlich identifizierenden Informationen und eine, die die Identitäten der Menschen enthält. Jede dieser Datenquellen kann einzeln sicher sein, aber wenn sie kombiniert werden, kann der zusammengeführte Datensatz ein Informationsrisiko erzeugen. Im Fall der Netflix-Daten, hier ist, wie es passieren könnte. Stellen Sie sich vor, dass ich meine Gedanken über Action- und Comedy-Filme mit meinen Kollegen teilen möchte, aber dass ich es vorziehe, meine Meinung zu religiösen und politischen Filmen nicht zu teilen. Meine Mitarbeiter könnten die Informationen, die ich ihnen mitgeteilt habe, verwenden, um meine Aufzeichnungen in den Netflix-Daten zu finden. Die Informationen, die ich teile, könnten ein einzigartiger Fingerabdruck sein, genau wie William Welds Geburtsdatum, Postleitzahl und Geschlecht. Wenn sie dann meinen eindeutigen Fingerabdruck in den Daten fanden, konnten sie meine Bewertungen über alle Filme lernen, einschließlich Filme, die ich nicht teilen wollte. Zusätzlich zu dieser Art gezielten Angriffs auf eine einzelne Person zeigten Narayanan und Shmatikov auch, dass es möglich war, einen breiten Angriff durchzuführen, der viele Leute involvierte, indem die Netflix-Daten mit persönlichen und Film-Rating-Daten verschmelzen, die einige Leute gewählt haben auf der Internet Movie Database (IMDb) veröffentlichen. Einfach gesagt, können alle Informationen, die für eine bestimmte Person ein eindeutiger Fingerabdruck sind - sogar ihre Filmbewertungen - dazu verwendet werden, sie zu identifizieren.
Obwohl die Netflix-Daten entweder bei einem gezielten Angriff oder bei einem umfassenden Angriff erneut identifiziert werden können, scheint das Risiko dennoch gering zu sein. Filmbewertungen sind schließlich nicht sehr sensibel. Während dies im Allgemeinen für einige der 500.000 Personen im Datensatz gelten mag, sind die Bewertungen für Filme möglicherweise sehr sensibel. In der Tat, als Reaktion auf die erneute Identifizierung, trat eine geschlossene lesbische Frau eine Sammelklage gegen Netflix. Hier ist, wie das Problem in ihrer Klage ausgedrückt wurde (Singel 2009) :
"[M] ovie und Rating-Daten enthalten Informationen von ... sehr persönlicher und sensibler Natur. Die Filmdaten des Mitglieds zeigen das persönliche Interesse eines Netflix-Mitglieds und / oder kämpfen mit verschiedenen höchst persönlichen Problemen, darunter Sexualität, psychische Erkrankungen, Erholung von Alkoholismus und Viktimisierung durch Inzest, körperliche Misshandlung, häusliche Gewalt, Ehebruch und Vergewaltigung. "
Die erneute Identifizierung der Daten des Netflix-Preises zeigt, dass alle Daten potenziell identifizierbar sind und dass alle Daten potenziell sensibel sind. An dieser Stelle könnte man meinen, dass dies nur für Daten gilt, die angeblich von Menschen handeln. Überraschenderweise ist das nicht der Fall. Als Reaktion auf eine Anfrage zu einem Informationsfreiheitsgesetz veröffentlichte die New Yorker Regierung Aufzeichnungen über jede Taxifahrt in New York im Jahr 2013, einschließlich der Abhol- und Rückgabezeiten, Standorte und Fahrpreise (siehe Kapitel 2, Farber (2015) verwendete ähnliche Daten, um wichtige Theorien in der Arbeitsökonomie zu testen). Diese Daten über Taxifahrten mögen gutartig erscheinen, weil sie keine Informationen über Menschen zu liefern scheinen, aber Anthony Tockar erkannte, dass diese Taxi-Datenmenge tatsächlich viele potenziell sensible Informationen über Menschen enthielt. Zur Veranschaulichung betrachtete er alle Fahrten, die zwischen Mitternacht und 6 Uhr morgens im Hustler Club - einem großen Stripclub in New York - begannen und dann ihre Absetzstellen fanden. Diese Suche ergab - im Wesentlichen - eine Liste von Adressen einiger Leute, die den Hustler Club besuchten (Tockar 2014) . Es ist schwer vorstellbar, dass die Stadtregierung dies bei der Veröffentlichung der Daten berücksichtigt hat. In der Tat könnte die gleiche Technik verwendet werden, um die Adressen von Menschen zu finden, die einen beliebigen Ort in der Stadt besuchen - eine medizinische Klinik, ein Regierungsgebäude oder eine religiöse Einrichtung.
Diese beiden Fälle des Netflix-Preises und der New Yorker Taxidaten zeigen, dass relativ qualifizierte Personen das Informationsrisiko in den von ihnen veröffentlichten Daten nicht richtig schätzen können - und diese Fälle sind keineswegs einzigartig (Barbaro and Zeller 2006; Zimmer 2010; Narayanan, Huey, and Felten 2016) . Außerdem sind die problematischen Daten in vielen Fällen immer noch frei online verfügbar, was auf die Schwierigkeit hinweist, eine Datenfreigabe jemals rückgängig zu machen. Zusammengenommen führen diese Beispiele - ebenso wie die Informatikforschung über Datenschutz - zu einer wichtigen Schlussfolgerung. Die Forscher sollten davon ausgehen, dass alle Daten potenziell identifizierbar sind und alle Daten potenziell sensibel sind.
Leider gibt es keine einfache Lösung für die Tatsache, dass alle Daten potenziell identifizierbar sind und dass alle Daten potenziell sensibel sind. Eine Möglichkeit zur Verringerung des Informationsrisikos während der Arbeit mit Daten besteht jedoch darin, einen Datenschutzplan zu erstellen und zu befolgen. Dieser Plan verringert die Wahrscheinlichkeit, dass Ihre Daten undicht werden und verringert den Schaden, wenn ein Leck auftritt. Die Besonderheiten von Datenschutzplänen, z. B. welche Form der Verschlüsselung verwendet wird, werden sich im Laufe der Zeit ändern, aber die Data Services des Vereinigten Königreichs organisieren die Elemente eines Datenschutzplans in fünf Kategorien, die sie die fünf Safes nennen : sichere Projekte, sichere Personen , sichere Einstellungen, sichere Daten und sichere Ausgänge (Tabelle 6.2) (Desai, Ritchie, and Welpton 2016) . Keiner der fünf Safes bietet individuellen Schutz. Zusammen bilden sie jedoch eine Reihe von Faktoren, die das Informationsrisiko verringern können.
Sicher | Aktion |
---|---|
Sichere Projekte | Begrenzt Projekte mit Daten auf diejenigen, die ethisch sind |
Sichere Menschen | Der Zugriff ist auf Personen beschränkt, denen Daten vertraut werden können (z. B. Personen, die ethisch geschult wurden). |
Sichere Daten | Daten werden soweit wie möglich de-identifiziert und aggregiert |
Sichere Einstellungen | Daten werden in Computern mit einem geeigneten physischen (z. B. gesperrten Raum) und Software (z. B. Passwortschutz, verschlüsselter) Schutz gespeichert |
Sichere Ausgabe | Die Forschungsergebnisse werden überprüft, um versehentliche Datenschutzverletzungen zu verhindern |
Neben dem Schutz Ihrer Daten bei der Verwendung von Daten ist ein weiterer Schritt im Forschungsprozess, bei dem das Informationsrisiko besonders hervorstechend ist, der Datenaustausch mit anderen Forschern. Die gemeinsame Nutzung von Daten unter Wissenschaftlern ist ein zentraler Wert der wissenschaftlichen Bemühungen und erleichtert den Fortschritt des Wissens erheblich. So beschreibt das britische Unterhaus die Bedeutung des Datenaustauschs (Molloy 2011) :
"Der Zugang zu Daten ist von grundlegender Bedeutung, wenn Forscher Ergebnisse, die in der Literatur berichtet werden, reproduzieren, verifizieren und aufbauen sollen. Es muss davon ausgegangen werden, dass die Daten vollständig offengelegt und öffentlich zugänglich gemacht werden sollten, es sei denn, es liegen zwingende Gründe vor. "
Wenn Sie Ihre Daten jedoch mit einem anderen Forscher teilen, erhöhen Sie möglicherweise das Informationsrisiko für Ihre Teilnehmer. Daher kann es so aussehen, als ob die gemeinsame Nutzung von Daten eine grundlegende Spannung zwischen der Verpflichtung zur gemeinsamen Nutzung von Daten mit anderen Wissenschaftlern und der Verpflichtung zur Minimierung des Informationsrisikos für die Teilnehmer schafft. Glücklicherweise ist dieses Dilemma nicht so schlimm, wie es scheint. Vielmehr ist es besser, die gemeinsame Nutzung von Daten als entlang eines Kontinuums zu betrachten, wobei jeder Punkt auf diesem Kontinuum eine andere Mischung von Nutzen für die Gesellschaft und Risiko für die Teilnehmer darstellt (Abbildung 6.6).
Auf der einen Seite können Sie Ihre Daten mit niemandem teilen, was das Risiko für die Teilnehmer minimiert, aber auch die Gewinne für die Gesellschaft minimiert. Auf der anderen Seite können Sie freigeben und vergessen , wo Daten für jeden "anonymisiert" und veröffentlicht werden. Im Vergleich zur Freigabe von Daten bietet release and forgetag sowohl einen höheren Nutzen für die Gesellschaft als auch ein höheres Risiko für die Teilnehmer. Zwischen diesen beiden extremen Fällen gibt es eine Reihe von Hybriden, einschließlich der sogenannten " Walled Garden Approach". Bei diesem Ansatz werden Daten an Personen weitergegeben, die bestimmte Kriterien erfüllen und sich damit einverstanden erklären, an bestimmte Regeln gebunden zu sein (z. B. Aufsicht über einen IRB und einen Datenschutzplan). Der ummauerte Garten Ansatz bietet viele der Vorteile von Release und vergessen mit weniger Risiko. Natürlich wirft ein solcher Ansatz viele Fragen auf - wer sollte unter welchen Bedingungen Zugang haben und für wie lange, wer sollte bezahlen, um den ummauerten Garten usw. zu erhalten und zu überwachen -, aber diese sind nicht unüberwindbar. In der Tat gibt es bereits funktionierende ummauerte Gärten, die Forscher jetzt nutzen können, wie das Datenarchiv des Interuniversitären Konsortiums für politische und soziale Forschung an der Universität von Michigan.
Also, wo sollten die Daten von Ihrem Studium auf dem Kontinuum von nicht teilen, ummauerten Garten, und Freigabe und vergessen? Dies hängt von den Details Ihrer Daten ab: Die Forscher müssen Respekt vor Personen, Wohltätigkeit, Gerechtigkeit und Respekt vor Gesetz und öffentlichem Interesse ausgleichen. Aus dieser Perspektive betrachtet, ist die gemeinsame Nutzung von Daten kein eindeutiges ethisches Problem; es ist nur einer von vielen Aspekten der Forschung, in denen Forscher ein angemessenes ethisches Gleichgewicht finden müssen.
Einige Kritiker sind generell gegen eine gemeinsame Nutzung von Daten, weil sie sich meiner Meinung nach auf ihre Risiken konzentrieren - die zweifellos echt sind - und ihre Vorteile ignorieren. Um die Konzentration auf Risiken und Vorteile zu fördern, möchte ich eine Analogie anbieten. Jedes Jahr sind Autos für Tausende von Toten verantwortlich, aber wir versuchen nicht, das Autofahren zu verbieten. In der Tat wäre ein Aufruf zum Fahrverbot absurd, weil das Fahren viele wunderbare Dinge ermöglicht. Die Gesellschaft legt vielmehr Beschränkungen fest, wer fahren darf (z. B. die Notwendigkeit, ein bestimmtes Alter zu haben und bestimmte Tests bestanden zu haben) und wie sie fahren können (z. B. unter der Geschwindigkeitsbegrenzung). Die Gesellschaft hat auch Leute, die mit der Durchsetzung dieser Regeln beauftragt sind (zB Polizei), und wir bestrafen Menschen, die dabei ertappt werden, sie zu verletzen. Dieselbe Art von ausgewogenem Denken, das die Gesellschaft für die Regulierung des Fahrens anwendet, kann auch auf die gemeinsame Nutzung von Daten angewendet werden. Ich denke, wir werden eher Fortschritte erzielen, als absolute Argumente für oder gegen den Datenaustausch zu geben, indem wir uns darauf konzentrieren, wie wir die Risiken verringern und den Nutzen aus der gemeinsamen Nutzung von Daten erhöhen können.
Zusammenfassend lässt sich sagen, dass das Informationsrisiko dramatisch zugenommen hat und sehr schwer vorherzusagen und zu quantifizieren ist. Daher ist es am besten anzunehmen, dass alle Daten potentiell identifizierbar und möglicherweise sensibel sind. Um das Informationsrisiko während der Forschung zu verringern, können Forscher einen Datenschutzplan erstellen und befolgen. Darüber hinaus hindert das Informationsrisiko Forscher nicht daran, Daten mit anderen Wissenschaftlern zu teilen.