Част от информацията, че компаниите и правителствата имат е чувствителна.
Здравноосигурителните дружества имат подробна информация за медицинската помощ, получена от техните клиенти. Тази информация би могла да се използва за важни изследвания в областта на здравето, но ако стане публично, тя потенциално би могла да доведе до емоционална вреда (напр. Неудобство) или икономическа вреда (например загуба на заетост). Много други големи източници на данни също имат чувствителна информация , което е част от причината, поради която те често са недостъпни.
За съжаление се оказва доста трудно да се реши каква информация е действително чувствителна (Ohm 2015) , както беше илюстрирано от наградата Netflix. Както ще опиша в глава 5, през 2006 г. Netflix пусна 100 милиона филмови рейтинги, осигурени от почти 500 000 членове и имаше отворено обаждане, където хора от цял свят подадоха алгоритми, които биха могли да подобрят способността на Netflix да препоръчва филми. Преди да освободи данните, Netflix премахна всяка очевидна лично идентифицираща информация, например имена. Но само две седмици след излизането на данните Arvind Narayanan и Vitaly Shmatikov (2008) показаха, че е възможно да научите за рейтингите на определени хора, използвайки трик, който ще ви покажа в глава 6. Въпреки, че нападателят може да открие но все още няма нищо чувствително тук. Макар че това може да е вярно като цяло, поне за някои от 500 000 души в набора от данни оценките за филми бяха чувствителни. В действителност, в отговор на освобождаването и повторното идентифициране на данните, затворена лесбийка се присъедини към дело срещу Netflix. Ето как проблемът е изразен в този съдебен процес (Singel 2009) :
"Данните от рейтинга и рейтинга съдържат информация от ... много личен и чувствителен характер. Филмовите данни на членовете показват личен интерес и / или борба с различни лични проблеми, включително сексуалност, психични заболявания, възстановяване от алкохолизъм и жертви от кръвосмешение, физическо насилие, домашно насилие, прелюбодеяние и изнасилване.
Този пример показва, че може да има информация, която някои хора считат за чувствителна вътре в това, което може да изглежда като доброкачествена база данни. Освен това, това показва, че основната защита, която изследователите използват, за да защитят чувствителните данни за идентификация, може да се провали с изненадващи начини. Тези две идеи са разработени по-подробно в глава 6.
Последното нещо, което трябва да имате предвид в чувствителните данни, е, че събирането му без съгласието на хората повдига етични въпроси, дори и да не се причинява никаква конкретна вреда. Подобно на наблюдението на някой, който взема душ без тяхното съгласие, може да се счита за нарушение на неприкосновеността на личния живот на този човек, събирането на поверителна информация и да си спомним колко трудно може да се реши какво е чувствително без съгласие, което създава потенциални опасения за поверителността. Ще се върна към въпросите за поверителността в глава 6.
В заключение, големи източници на данни, като правителствени и бизнес административни документи, обикновено не са създадени за целите на социалните изследвания. Големите източници на данни днес и вероятно утре са склонни да имат 10 характеристики. Много от имотите, които по принцип се считат за добри за изследвания - големи, винаги и бездействащи - идват от факта, че в компаниите за цифрова ера и правителствата са в състояние да събират данни в мащаб, който досега не е бил възможно. И много от имотите, които по принцип се считат за лоши за научните изследвания - непълни, недостъпни, непредставителни, плаващи, алгоритмично объркани, недостъпни, мръсни и чувствителни - идват от факта, че тези данни не се събират от изследователи за изследователи. Досега съм говорил за правителствени и бизнес данни заедно, но има някои разлики между двете. Според моя опит правителствените данни обикновено са по-малко непредставителни, по-малко алгоритмично объркани и по-малко плаващи. От друга страна, административните записи в бизнеса са по-често. Разбирането на тези 10 общи характеристики е полезна първа стъпка към изучаването от големи източници на данни. А сега се насочваме към стратегиите за изследване, които можем да използваме с тези данни.