Неке од информација које компаније и владе имају осетљив.
Компаније за здравствено осигурање имају детаљне информације о медицинској неги коју примају њихови корисници. Ове информације се могу користити за важна истраживања о здрављу, али ако би постала јавна, то би потенцијално могла довести до емоционалне штете (нпр. Срамота) или економске штете (нпр. Губитак запослености). Многи други велики извори података имају и информације које су осетљиве , што је део разлога због чега су често недоступни.
Нажалост, испада да је прилично тешко одлучити које информације су осетљиве (Ohm 2015) , као што је илустровано наградом Нетфлик. Као што ћу описати у 5. поглављу, 2006. године Нетфлик је објавио 100 милиона филмских рејтинга које је обезбедило скоро 500.000 чланова и отворен је позив на којем су људи из целог света поднели алгоритме који би побољшали способност Нетфлика да препоручује филмове. Пре него што је објавио податке, Нетфлик је уклонио све очигледне личне информације о идентитету, као што су имена. Међутим, само две недеље након објављивања података, Арвинд Нараианан и Витали Схматиков (2008) су показали да је могуће научити о одређеним оценама људи, користећи трик који ћу вам показати у поглављу 6. Иако нападач може открити Оцене филма особе, чини се да овде и даље није ништа осјетљиво. Иако то може бити истинито уопште, за најмање неке од 500.000 људи у скупу података, рејтинги филма су осетљиви. Заправо, као одговор на објављивање и поновно идентификацију података, једна лезбејка уцествовала је у одјелу против класе против Нетфлик-а. Ево како је проблем исказан у овој тужби (Singel 2009) :
"Ови и подаци о рејтингу садрже информације о ... врло личној и осетљивој природи. Подаци о члановима филма откривају лични интерес чланова Нетфлик-а и / или боре се са различитим веома личним проблемима, укључујући сексуалност, менталне болести, опоравак од алкохола и виктимизацију од инцеста, физичког злостављања, насиља у породици, прељубе и силовања. "
Овај примјер показује да може постојати информација које неки људи сматрају осјетљивим унутар онога што би могло изгледати као бенигна база података. Штавише, то показује да главна одбрана коју истраживачи користе за заштиту осјетљивих података - де-идентификација - не може изненадити начин. Ове две идеје развијене су детаљније у поглављу 6.
Коначна ствар коју треба имати на уму о осјетљивим подацима је то што је прикупљање без пристанка људи изазива етичка питања, чак и ако није изазвана никаква специфична штета. Слично као гледање некога ко се тушира без њиховог пристанка може се сматрати кршењем приватности те особе, сакупљањем осетљивих информација - и сјећати се колико је тешко одлучити шта је осјетљиво - без сагласности ствара потенцијална питања везана за приватност. Вратићу се на питања о приватности у поглављу 6.
У закључку, велики извори података, као што су владина и пословна административна евиденција, генерално нису створени у сврху социјалног истраживања. Велики извори података данас, и вероватно сутра, имају тенденцију да имају 10 карактеристика. Многа од особина која се сматрају добрим за истраживање - велика, увек и неактивна - долазе из чињенице у компанијама дигиталног доба и владе су у стању да прикупљају податке на скали која раније није била могуће. И многа својства која се генерално сматрају лоша за истраживања - непотпуна, неприступачна, непредстављива, дрифтинг, алгоритамски збуњена, неприступачна, прљава и осетљива - долазе из чињенице да ови подаци нису прикупили истраживачи за истраживаче. До сада сам разговарала о владиним и пословним подацима заједно, али постоје разлике између њих. По мом искуству, владини подаци имају тенденцију да буду мање нерепрезентативни, мање алгоритамски конфузни, а мање дрифтинг. С друге стране, пословни административни записи имају тенденцију да буду увек у току. Разумијевање ових 10 општих карактеристика је користан први корак ка учењу из великих извора података. А сада се окрећемо истраживачким стратегијама које можемо користити са овим подацима.