Verschiddener vun den Informatiounen, déi Entreprisen a Regierungen hunn ass sensibel.
Gesondheetsversécherungen hunn detailléiert Informatiounen iwwer déi medizinesch Versuergung vun hire Clienten kritt. Dës Informatioun kann fir eng wichteg Recherche am Gesondheetsministère genotzt ginn, awer wann et ëffentlech géif ginn, kann et potentiell zu emotionalem Schued (z. B. Verlegenheet) oder ökonomesch Schued (zB Verlust vu Aarbechtsplazen) ginn. Vill aner groussen Informatiounsquellen hunn och Informatioun, déi empfindlech ass , dat ass en Deel vun dem Grond, firwat se oft net zougänglech sinn.
Leider ass et relativ schwéier ze entscheeden wat Informatioun tatsächlech empfindlech ass (Ohm 2015) , wéi et vum Netflix-Präis illustréiert war. Wéi ech et am Kapitel 5 beschreiwen, huet 2006 Netflix 100 Milliounen Filmvideoer verëffentlecht, déi bal vu bal 500.000 Membere gefeiert goufen an en Open Call hunn, wou Leit aus der ganzer Welt representéiert Algorithmen, déi Netflix hir Fäegkeet verbesseren kéint fir Filmer ze recommandéieren. Virun de Release vun den Donnéeën huet Netflix eventuell offensichtlech perséinlech Identifikatioun informéiert, wéi d'Nimm. Mee, just zwou Wochen no der Verëffentlechung vum Arvind Narayanan an Vitaly Shmatikov (2008) gewisen, datt et méiglech war, iwwert d'Filmer fir spezifesch Leit ze léieren mat engem Trick dat ech iech am Kapitel 6 ze weisen. Och wann e Attacker e De Film vun der Filmzäit gëtt et nach ëmmer net sou sensibel. Obwuel dat vläicht am allgemenge wier, fir zumindest e puer vun de 500.000 Leit am Dataset, sinn d'Filmbeambeten sensibel. Tatsächlech, an der Äntwert op d'Verëffentlechung an d'Re-Identifikatioun vun den Daten, huet en zougeschniddene lesbesche Fra eng Klasse-Actionniveau géint Netflix ugeschloss. Hei ass wéi d'Problem an dësem Prozess (Singel 2009) ausgedréckt ass:
"[M] ovie an Rating Data enthält Informatioun vun engem ... héich perséinlechen a sensiblen Natur. D'Memberen vun den Memberen vun der Member hunn e perséinlechen Interessi vun de Netflix Memberen a / oder Kampf mat verschiddenen perséinlechen Themen, och Sexualitéit, mentale Krankheet, Erhuelung vum Alkoholismus, a Victimisatioun vum Inzest, de physeschen Mëssbrauch, Gewalt am Stot, Erjuelung a Vergewalttung.
Dëst Beispill weist, datt et Informatioun ass, datt verschidde Leit sensibel vu sech betraff sinn, wat e bësse virgeschriwwener Datebank wier. Ausserdem weist et, datt eng Haaptverteidegung déi d'Fuerscher beschützen fir sensibel Daten-de-Identifikatioun ze schützen kënnen ze iwwerraschen. Dës zwee Iddien ginn a méi detailléiert am Kapitel 6 entwéckelt.
Déi definitiv Saach, déi iwwer sensibel Donnéeën ze behalen ass, ass d'Sammelen ouni d'Zoustëmmung vun Leit ze erhéigen ethesch Froen, och wann keen spezifesche Schued gëtt. Vill wéi wann een et seet, datt een deen ouni d'Zoustëmmung nogezunn huet, gitt als eng Verletzung vun der Privatsphär vun der Persoun betraff a gesammelt sensibel Informatiounen - a vergiess un wéi schwéier et sinn ze décidéieren wat empfindlech ass - ouni Konsens erlaabt potenziell Dateschutz. Ech ginn erëm Froen iwwer Privatsphär am Kapitel 6.
Schlussendlech sinn grouss Datenquellen, wéi Regierungs- a Geschäftsdefizit, normalerweis net fir den Zweck vun der sozialer Fuerschung geschaf ginn. Déi grouss Datenquelle vun haut, an héchstwahrscheinlech mëttlerweil hunn 10 Charakteristiken. Vill vun den Eegeschaften, déi normalerweis als gutt fir Fuerschung gutt sinn, ëmmer an onreaktabel sinn, kommen aus der Tatsaach an der digitaler Altersfirma an d'Regierungen kënnen Daten op enger Skala sammelen, déi virdru net méiglech war. A villen vun den Eegeschafte, déi allgemeng als schlecht fir d'Recherche unvollstänneg sinn, net accessibel, net représentéiert, dréit, algorithmesch verwiesselt, net zougänglech, dreckeg an empfindlech sinn, kommen aus der Tatsaach, datt dës Donnéeën net vun de Fuerscher fir Forscher gesammelt goufen. Bis elo hunn ech iwwer Regierung a Geschäftsdaten zesummen diskutéiert, awer et ginn verschidde Ënnerscheeder tëscht deenen zwee. A meng Erfahrung, d'Regierungsdaten tendéieren manner manner représentativ, manner algorithmesch verwiesselt a manner dréit. Eng aner Säit, fir Geschäftsadministratioun ze tendéieren ëmmer méi ëmmer. Verstane dës 10 allgemeng Charakteristiken en nëtzlechen éischte Schrëtt fir vu grouss Datenquellen ze léieren. An elo ginn d'Fuerschungsstrategien déi mir mat dëse Donnéeën benotzen kënnen.