Некои од информациите дека компаниите и владите треба е чувствителна.
Компаниите за здравствено осигурување имаат детални информации за медицинската нега што ја добиваат нивните клиенти. Овие информации може да се искористат за важни истражувања за здравјето, но ако тоа стана јавно, потенцијално може да доведе до емоционална штета (на пример, срам) или економска штета (на пример, губење на вработување). Многу други големи извори на податоци, исто така, имаат информации што се чувствителни , што е дел од причината зошто тие често се недостапни.
За жал, се чини дека е доста незгодно да се одлучи кои информации се всушност чувствителни (Ohm 2015) , како што беше илустрирано со наградата Netflix. Како што ќе се опише во поглавјето 5, во 2006 година Netflix објави 100 милиони рејтинг на филмови обезбедени од речиси 500.000 членови и имаше отворен повик каде што луѓето од целиот свет доставија алгоритми кои би можеле да ја подобрат способноста на Netflix да препорача филмови. Пред да ги објави податоците, Netflix ги отстрани сите очигледни лични информации за идентификација, како што се имиња. Но, само две недели по објавувањето на податоците, Арвинд Нарајанан и Виталиј Шматиков (2008) покажаа дека е можно да се запознаат со рејтингот на конкретни луѓе со помош на трик што ќе ви го покажам во поглавјето 6. Иако напаѓачот може да открие рејтингот на филмот на еден човек, сепак се чини дека не е ништо чувствително овде. Иако тоа би можело да биде точно во целина, барем за некои од 500.000 луѓе во базата на податоци, рејтингот на филмските филмови беше чувствителен. Всушност, како одговор на објавувањето и повторната идентификација на податоците, една затворена лезбејка се приклучи на тужбата за клас-акција против Netflix. Еве како е изнесено проблемот во оваа тужба (Singel 2009) :
"[М] овие и рејтинг податоци содржат информации од ... мошне лична и чувствителна природа. Филмските податоци на членот го изложуваат личниот интерес на членот на Netflix и се борат со различни лични прашања, вклучувајќи ја сексуалноста, менталната болест, закрепнувањето од алкохолизам и виктимизација од инцест, физичко малтретирање, семејно насилство, прељуба и силување.
Овој пример покажува дека може да има информации дека некои луѓе сметаат дека се чувствителни внатре во она што може да изгледа како бенигна база на податоци. Понатаму, тоа покажува дека главната одбрана што истражувачите ја користат за заштита на чувствителните податоци - де-идентификација - може да пропадне на изненадувачки начини. Овие две идеи се разработени подетално во поглавје 6.
Последното нешто што треба да се има на ум за чувствителни податоци е тоа што собирањето без согласност на луѓето покренува етички прашања, дури и ако не е предизвикана никаква специфична штета. Слично како да гледате некој да се истушира без нивна согласност може да се смета за повреда на приватноста на лицето, собирање чувствителни информации - и се сеќавам колку е тешко да се одлучи што е чувствително - без согласност создава потенцијална загриженост за приватноста. Ќе се вратам на прашања за приватноста во поглавје 6.
Како заклучок, големите извори на податоци, како што се владините и деловните административни евиденции, генерално не се создаваат за потребите на социјалните истражувања. Големите извори на податоци од денес, и најверојатно утре, имаат тенденција да имаат 10 карактеристики. Многу од имотите кои генерално се сметаат за добри за истражување - големи, секогаш и нереактивни - доаѓаат од фактот во компаниите со дигитална ера и владите можат да собираат податоци на скала која претходно не била можна. И многу од својствата кои генерално се сметаат за лоши за истражувањето - нецелосни, недостапни, нерепрезентативни, лебдат, алгоритамски збунети, непристапни, валкани и чувствителни - доаѓаат од фактот дека овие податоци не биле собрани од истражувачи за истражувачи. Досега сум разговаравме за владините и деловните податоци заедно, но постојат некои разлики меѓу двете. Според моето искуство, владините податоци имаат тенденција да бидат помалку нерепрезентативни, помалку алгоритамски збунети и помалку лебдат. Една друга страна, деловните административни записи имаат тенденција да бидат повеќе постојани. Разбирањето на овие 10 општи карактеристики е корисен прв чекор кон учење од големи извори на податоци. И сега ние се свртиме кон истражувачки стратегии што можеме да ги користиме со овие податоци.