Néhány információ, hogy a vállalatok és a kormányok érzékeny.
Az egészségbiztosító társaságok részletes tájékoztatást kapnak az ügyfelek által kapott orvosi ellátásról. Ez az információ használható az egészséggel kapcsolatos fontos kutatásokra, de ha nyilvánosságra kerülne, potenciálisan érzelmi károkat (pl. Kínos helyzetet) vagy gazdasági károkat okozhat (pl. Számos más nagy adatforrás is érzékeny információval rendelkezik, ami része annak az okának, amiért gyakran nem érhetők el.
Sajnálatos módon eléggé trükkösnek tűnik annak eldöntése, hogy az információ valóban érzékeny (Ohm 2015) , amint azt a Netflix díj is szemlélteti. Amint azt az 5. fejezetben ismertetem, 2006-ban a Netflix 100 millió filmminőséget adott ki közel 500 ezer tagból, és nyílt hívás volt, ahol az emberek az egész világból olyan algoritmusokat nyújtottak be, amelyek javíthatnák a Netflix filmek ajánlására való képességét. Az adatok kiadása előtt a Netflix eltávolította a nyilvánvalóan személyazonosításra alkalmas információkat, például a neveket. Ám két héttel az adatok kiadása után, Arvind Narayanan és Vitaly Shmatikov (2008) azt mutatták, hogy a konkrét emberek filmminősítéseit meg lehet tanulni olyan trükköt használva, amelyet a 6. fejezetben mutatok be. egyéni filmminősítések, még mindig nincs semmi érzékeny jelen. Bár ez általában igaz lehet, az adatkészletben lévő legalább 500 000 ember közül a filmminősítések érzékenyek voltak. Valójában az adatok felszabadítására és újbóli azonosítására válaszul egy lezárult leszbikus asszony csatlakozott a Netflix elleni osztályfőzési keresethez. A probléma ebben a perben merült fel (Singel 2009) :
"A [M] ovie és a minősítési adatok egy ... rendkívül személyes és érzékeny természetű információt tartalmaznak. A tag filmjei a Netflix tag személyes érdeklődését és / vagy küzdelmüket különféle rendkívül személyes kérdésekkel oldják meg, beleértve a szexualitást, a mentális betegségeket, az alkoholizmus visszaszerzését, valamint az incestáció áldozattá válását, a fizikai bántalmazást, a családon belüli erőszakot, a házasságtörést és a nemi erőszakot. "
Ez a példa azt mutatja, hogy vannak olyan információk, amelyeket néhányan érzékenynek tartanak benne, ami jóindulatú adatbázisnak tűnhet. Ezenkívül megmutatja, hogy a kutatók a védelemre érzékeny adatok védelme érdekében alkalmazott legfőbb védekezést - a felismerés megakadályozhatják. Ez a két ötlet részletesebben a 6. fejezetben található.
Az utolsó dolog, hogy szem előtt tartsuk az érzékeny adatokat, hogy az emberi beleegyezés nélkül történő gyűjtése etikai kérdéseket vet fel, még akkor sem, ha nem okozott különleges károkat. Olyan, mintha egy embert nézne volna bele, aki a beleegyezésük nélkül zuhanyozik, az a személy magánéletének megsértése, az érzékeny információk összegyűjtése - és emlékezzen arra, hogy milyen nehéz lehet az érzékeny dolgok eldöntése - beleegyezés nélkül - potenciális adatvédelmi aggályokat okoz. A 6. fejezetben a személyes adatok védelmével kapcsolatos kérdésekre térhetek vissza.
Összegzésként a nagy adatforrásokat, például a kormányzati és üzleti adminisztratív nyilvántartásokat általában nem a társadalmi kutatás céljából hozták létre. A mai, és valószínűleg holnap nagy adatforrásai általában 10 tulajdonsággal rendelkeznek. Sok olyan tulajdonság, amelyet általában a kutatási szempontból jónak tartanak - nagy, mindig is, és nem reagál - származik a tény, hogy a digitális korszakban a vállalatok és a kormányok képesek olyan adatokat gyűjteni, amelyek korábban nem voltak lehetségesek. És sok olyan tulajdonság, amelyet általában rossznak ítélnek a kutatás-hiányos, megközelíthetetlen, nem reprezentatív, sodródó, algoritmikusan zavaros, megközelíthetetlennek, piszkosnak és érzékenynek ítélt kutatóknak. Eddig beszéltem a kormányzati és az üzleti adatokról, de vannak különbségek a kettő között. Tapasztalatom szerint a kormányzati adatok kevésbé reprezentatívak, kevésbé algoritmikusan megzavarodnak, és kevésbé sodródnak. Másrészt viszont az üzleti adminisztratív feljegyzések egyre inkább állandóak. Ezeknek a 10 általános jellemzőnek a megértése hasznos első lépés a nagy adatforrásokból történő tanulás felé. És most olyan kutatási stratégiák felé fordulunk, amelyeket ezekkel az adatokkal együtt használhatunk.