Einige der Informationen , die Unternehmen und Regierungen haben empfindlich ist .
Krankenkassen haben detaillierte Informationen über die medizinische Versorgung ihrer Kunden. Diese Informationen könnten für wichtige Forschungsarbeiten über Gesundheit verwendet werden, aber wenn sie öffentlich werden, könnte dies potenziell zu emotionalen Schäden (z. B. Peinlichkeit) oder wirtschaftlichen Schäden (z. B. Arbeitsplatzverlust) führen. Viele andere große Datenquellen haben auch sensible Informationen, weshalb sie oft nicht zugänglich sind.
Leider ist es ziemlich schwierig zu entscheiden, welche Informationen tatsächlich sensibel sind (Ohm 2015) , wie der Netflix Prize gezeigt hat. Wie ich in Kapitel 5 beschreibe, veröffentlichte Netflix 2006 100 Millionen Filmbewertungen von fast 500.000 Mitgliedern und hatte einen offenen Aufruf, bei dem Menschen aus der ganzen Welt Algorithmen einreichten, die Netflix's Fähigkeit, Filme zu empfehlen, verbessern könnten. Vor der Veröffentlichung der Daten entfernte Netflix alle offensichtlichen persönlichen Informationen wie Namen. Aber nur zwei Wochen, nachdem die Daten veröffentlicht wurden, zeigten Arvind Narayanan und Vitaly Shmatikov (2008) , dass es möglich ist, die Filmbewertungen bestimmter Personen zu lernen, indem sie einen Trick anwenden, den ich Ihnen in Kapitel 6 zeigen werde die Filmeinschätzung der Person, scheint hier noch nichts Sensibles zu sein. Während dies im Allgemeinen für mindestens einige der 500.000 Personen im Datensatz gelten könnte, waren die Filmbewertungen sensibel. Als Reaktion auf die Veröffentlichung und erneute Identifizierung der Daten schloss sich eine lesbische Frau einer Sammelklage gegen Netflix an. Hier ist, wie das Problem in dieser Klage ausgedrückt wurde (Singel 2009) :
"[M] ovie und Rating-Daten enthalten Informationen von ... sehr persönlicher und sensibler Natur. Die Filmdaten des Mitglieds zeigen das persönliche Interesse eines Netflix-Mitglieds und / oder kämpfen mit verschiedenen höchst persönlichen Problemen, darunter Sexualität, psychische Erkrankungen, Erholung von Alkoholismus und Viktimisierung durch Inzest, körperliche Misshandlung, häusliche Gewalt, Ehebruch und Vergewaltigung. "
Dieses Beispiel zeigt, dass es Informationen geben kann, die von manchen Leuten als sensibel in einer als gutartig geltenden Datenbank angesehen werden. Weiter zeigt sich, dass eine Hauptverteidigung, die Forscher zum Schutz sensibler Daten - De-Identification - einsetzen, auf überraschende Weise scheitern kann. Diese beiden Ideen werden in Kapitel 6 näher erläutert.
Das letzte, was man bei sensiblen Daten beachten sollte, ist, dass das Sammeln ohne Zustimmung der Leute ethische Fragen aufwirft, auch wenn kein spezifischer Schaden verursacht wird. Ähnlich wie jemand zu beobachten, der ohne seine Zustimmung duscht, könnte als Verletzung der Privatsphäre dieser Person angesehen werden, sensible Informationen sammeln - und daran denken, wie schwer es sein kann, zu entscheiden, was sensibel ist -, ohne dass eine Einwilligung potentielle Datenschutzbedenken schafft. Ich werde auf Fragen zum Datenschutz in Kapitel 6 zurückkommen.
Zusammenfassend lässt sich sagen, dass große Datenquellen wie Regierungs- und Geschäftsverwaltungsaufzeichnungen im Allgemeinen nicht für die Zwecke der Sozialforschung erstellt werden. Die großen Datenquellen von heute und wahrscheinlich morgen haben tendenziell 10 Merkmale. Viele der Eigenschaften, die im Allgemeinen als gut für die Forschung gelten - groß, immer aktiv und nicht reaktiv -, stammen aus der Tatsache, dass Unternehmen und Regierungen im digitalen Zeitalter in der Lage sind, Daten in einem Umfang zu sammeln, der zuvor nicht möglich war. Und viele der Eigenschaften, die im Allgemeinen als schlecht für die Forschung gelten - unvollständig, unzugänglich, nicht repräsentativ, treibend, algorithmisch konfundiert, unzugänglich, schmutzig und sensibel - stammen aus der Tatsache, dass diese Daten nicht von Forschern für Forscher gesammelt wurden. Bisher habe ich über Regierungs- und Geschäftsdaten gesprochen, aber es gibt einige Unterschiede zwischen den beiden. Meiner Erfahrung nach sind Regierungsdaten tendenziell weniger unrepräsentativ, weniger algorithmisch konfundiert und weniger driftend. Auf der anderen Seite sind betriebliche Verwaltungsaufzeichnungen tendenziell immer verfügbar. Das Verständnis dieser 10 allgemeinen Merkmale ist ein hilfreicher erster Schritt zum Lernen aus großen Datenquellen. Und jetzt wenden wir uns Forschungsstrategien zu, die wir mit diesen Daten verwenden können.