2.3.2.7 Sensitive

Einige der Informationen , die Unternehmen und Regierungen haben empfindlich ist .

Die Krankenkassen haben Informationen über die medizinische Versorgung erhalten von ihren Kunden detailliert beschrieben. Diese Informationen könnten für wichtige Forschung über die Gesundheit verwendet werden, aber wenn sie öffentlich wurde es könnte möglicherweise zu emotionalen Schaden (zB Verlegenheit) und wirtschaftlichen Schaden (zB Verlust des Arbeitsplatzes) führen. Weit davon entfernt, unterscheidend, haben viele große Datenquellen Informationen, die empfindlich ist. Die sensible Natur dieser Informationen ist Teil der Grund dafür , dass große Datenquellen oft nicht zugänglich sind (wie oben beschrieben).

Eine Möglichkeit, dass Forscher mit dieser Situation umgehen versuchen, ist zu anonymisieren Datensätze, die sensible Informationen. Aber, wie ich ausführlich in Kapitel 6 (Ethik) dieser Ansatz zeigen, wird ernsthaft in einer Weise beschränkt, die nicht weit von den beiden Sozialwissenschaftler und Daten Wissenschaftler geschätzt werden.

Abschließend haben die großen Datenquellen von heute (und morgen) in der Regel zehn Merkmale. Viele der guten Eigenschaften-big, always-on, und nicht reaktiv-kommen aus der Tatsache, im digitalen Zeitalter Unternehmen und Regierungen in der Lage, Daten auf einer Skala zu sammeln, die vorher nicht möglich war. Und viele der schlechten Eigenschaften-unvollständig, nicht zugänglich, nicht repräsentative, Driften, algorithmisch verwechselt, unzugänglich, schmutzig und sensibel-kommen aus der Tatsache, dass die Daten nicht von den Forschern für Forscher gesammelt wird. Verständnis dieser Eigenschaften sind ein notwendiger erster Schritt von großen Daten zu lernen. Und jetzt drehen wir Strategien erforschen wir mit dieser Daten verwenden können.