Sommige van die inligting wat maatskappye en regerings is sensitief.
Gesondheidsversekeringsmaatskappye het gedetailleerde inligting oor die mediese sorg wat hul kliënte ontvang. Hierdie inligting kan gebruik word vir belangrike gesondheidsondersoeke, maar as dit openbaar word, kan dit tot emosionele skade lei (bv. Verleentheid) of ekonomiese skade (bv. Verlies aan indiensneming). Baie ander groot databronne het ook sensitiewe inligting , wat deel is van die rede waarom hulle dikwels ontoeganklik is.
Ongelukkig blyk dit taamlik moeilik om te besluit watter inligting eintlik sensitief is (Ohm 2015) , soos deur die Netflix-prys geïllustreer. Soos ek in hoofstuk 5 sal beskryf, het Netflix in 2006 100 miljoen filmgraderings wat by amper 500 000 lede gelewer is, vrygestel en het 'n oproep gehad waar mense van regoor die wêreld algoritmes ingedien het wat Netflix se vermoë om films aan te beveel, kon verbeter. Voordat u die data vrygestel het, het Netflix enige voor die hand liggende persoonlik identifiserende inligting verwyder, soos name. Maar net twee weke nadat die data vrygestel is, het Arvind Narayanan en Vitaly Shmatikov (2008) gewys dat dit moontlik was om te leer oor spesifieke mense se fliekgraderings deur 'n truuk te gebruik wat ek in hoofstuk 6 sal wys. Alhoewel 'n aanvaller 'n aanvaller kon ontdek persoon se fliekklassifikasies, blyk dit nog steeds niks sensitief hier te wees nie. Alhoewel dit dalk in die algemeen waar is, vir ten minste sommige van die 500,000 mense in die datastel, was filmgraderings sensitief. Trouens, in reaksie op die vrystelling en heridentifisering van die data, het 'n geklone lesbiese vrou by 'n klasaksiepak teen Netflix aangesluit. Hier is hoe die probleem uitgedruk is in hierdie regsgeding (Singel 2009) :
"[M] ovie en gradering data bevat inligting van 'n ... baie persoonlike en sensitiewe aard. Die lid se rolprentdata stel 'n Netflix-lid se persoonlike belangstelling bloot en / of sukkel met verskeie hoogs persoonlike sake, insluitende seksualiteit, geestesongesteldheid, herstel van alkoholisme, en viktimisering van bloedskande, fisieke mishandeling, huishoudelike geweld, egbreuk en verkragting.
Hierdie voorbeeld toon dat daar inligting kan wees dat sommige mense sensitiewe binnekant van wat lyk asof dit 'n goeie databasis is, beskou. Verder blyk dit dat 'n vernaamste verdediging wat navorsers gebruik om sensitiewe data-de-identifikasie te beskerm, op verrassende maniere kan misluk. Hierdie twee idees word in hoofstuk 6 in meer besonderhede ontwikkel.
Die finale ding om sensitiewe data in gedagte te hou, is dat dit sonder die toestemming van die mense in te samel, etiese vrae oplewer, selfs al word daar geen spesifieke skade veroorsaak nie. Die feit dat iemand wat 'n stort stort sonder om toestemming te gee, kan beskou word as 'n oortreding van daardie persoon se privaatheid, versamel sensitiewe inligting en onthou hoe moeilik dit kan wees om te besluit wat sensitief is sonder toestemming, wat potensiële privaatheidskwessies veroorsaak. Ek sal terugkeer na vrae oor privaatheid in hoofstuk 6.
Ter afsluiting word groot databronne, soos owerheids- en besigheidsadministrasie rekords, oor die algemeen nie geskep vir die doel van maatskaplike navorsing nie. Die groot databronne van vandag, en waarskynlik môre, is geneig om 10 eienskappe te hê. Baie van die eiendomme wat algemeen beskou word as goed vir navorsing, groot, altyd en nie-reaktief, kom uit die feit in die digitale era maatskappye en regerings is in staat om data te versamel op 'n skaal wat nog nie moontlik was nie. En baie van die eiendomme wat oor die algemeen as sleg beskou word vir onvolledige, ontoeganklike, nie-verteenwoordigende, dryfende, algoritmies gekrute, ontoeganklike, vuil en sensitiewe navorsing, kom uit die feit dat hierdie data nie deur navorsers vir navorsers versamel is nie. Tot dusver het ek oor regerings- en besigheidsdata saam gepraat, maar daar is 'n paar verskille tussen die twee. In my ervaring is regeringsdata geneig om minder nie-verteenwoordiger te wees, minder algoritmies beskaamd, en minder gedryf. Aan die ander kant, besigheids administratiewe rekords is geneig om meer altyd op te wees. Om hierdie 10 algemene kenmerke te verstaan, is 'n nuttige eerste stap in die rigting van die leer van groot databronne. En nou draai ons na navorsingstrategieë wat ons met hierdie data kan gebruik.